CN106021996A - 一种dna靶向测序覆盖度图形化评估系统 - Google Patents
一种dna靶向测序覆盖度图形化评估系统 Download PDFInfo
- Publication number
- CN106021996A CN106021996A CN201610319436.6A CN201610319436A CN106021996A CN 106021996 A CN106021996 A CN 106021996A CN 201610319436 A CN201610319436 A CN 201610319436A CN 106021996 A CN106021996 A CN 106021996A
- Authority
- CN
- China
- Prior art keywords
- gene
- order
- checking
- data
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012163 sequencing technique Methods 0.000 title abstract description 16
- 238000011156 evaluation Methods 0.000 title abstract 3
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 65
- 238000013075 data extraction Methods 0.000 claims abstract description 11
- 230000000694 effects Effects 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 2
- 238000013507 mapping Methods 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 5
- 210000000349 chromosome Anatomy 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000000034 method Methods 0.000 description 3
- 230000000977 initiatory effect Effects 0.000 description 2
- 238000001303 quality assessment method Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 238000005111 flow chemistry technique Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
Landscapes
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提供了一种DNA靶向测序覆盖度图形化评估系统,包括:数据提取模块,用来提取包含在基因不同区域内各个位点的测序深度数据;数据合并模块,用于当遇到基因包含的碱基位点过多时,将相近的N个位点的测序深度数据合并为均值;图形展示模块,用于展示包含在基因列表中的基因不同区域内各个位点的测序覆盖情况;所述数据提取模块、数据合并模块、图形展示模块依次连接。本发明不仅评估碱基含量等指标,还包括基因不同区域覆盖情况的评估,及其在多基因、多样本中的多种统计,以图形化的方式形象地汇报评估结果。
Description
技术领域
本发明属于基因信息数据处理领域,特别是涉及到一种DNA靶向测序覆盖度图形化评估系统。
背景技术
高通量测序技术已十分成熟,测序所需的时间和费用都大大的降低,因此,应用该技术检测基因变异的研究数量也越来越多。然而高通量测序技术并不是完美的,由于其在测序前要通过PCR手段对待测片段进行扩增,因此增加了测序的错误。当拿到了原始的测序数据,对测序质量的评估就显得尤为重要。通常,得到测序数据,第一步就是做质量控制,在这一步有许多的软件可以使用,比如FastQC,它会从GC含量、序列长度分布等等方面给对测序数据进行评估。但是,这只是从总体层面来评估测序数据是否达到了支撑后续分析的要求。
外显子组测序、基因芯片测序等只对基因的外显子进行捕获测序,每次测序会涉及许多基因。通常的质量评估软件只能在总体层面评估测序质量的好坏。当关注某些具体基因的测序质量评估、或评估基因芯片在各个基因上的捕获水平时,总体的测序质量评估就不能够准确地反映具体受关注基因的测序质量。
发明内容
有鉴于此,本发明提出一种DNA靶向测序覆盖度图形化评估系统,不仅评估碱基含量等指标,还包括基因不同区域覆盖情况的评估,及其在多基因、多样本中的多种统计,以图形化的方式形象地汇报评估结果。
为达到上述目的,本发明的技术方案是这样实现的:一种DNA靶向测序覆盖度图形化评估系统,包括:
数据提取模块,用来提取包含在基因不同区域内各个位点的测序深度数据;
数据合并模块,用于当遇到基因包含的碱基位点过多时,将相近的N个位点的测序深度数据合并为均值;
图形展示模块,用于展示包含在基因列表中的基因不同区域内各个位点的测序覆盖情况;
所述数据提取模块、数据合并模块、图形展示模块依次连接。
进一步的,所述数据提取模块包括extractRange.py单元和extractRangeEXON.py单元,所述extractRange.py单元用于输入bed文件和depth文件,提取包含在基因不同区域内各个位点的测序深度数据;所述extractRangeEXON.py单元作用与extractRange.py相同,其输入文件的bed文件不包括基因区域注释,输出不再包括基因区域注释信息而是基因外显子的编号。
进一步的,所述图形展示模块包括plotByGene.r单元和plotByGeneEXON.r单元;所述plotByGene.r单元用来展示包含在基因列表中的基因不同区域内各个位点的测序覆盖情况;所述plotByGeneEXON.r单元输出结果相似,只是用两种颜色间隔显示表示同一基因的不同外显子区域。
相对于现有技术,本发明所述的一种DNA靶向测序覆盖度图形化评估系统具有以下优势:
本发明以常见外显子组测序流程处理的输出结果(bed文件和测序深度数据文件)作为输入,基于对测序数据处理得到的测序深度数据以及基因不同区域注释数据,完成数据的提取和整合,呈现外显子组测序对单个基因外显子的覆盖情况,最终以图片的形式展示出每个基因的测序深度分布情况。本发明不仅评估碱基含量等指标,还包括基因不同区域覆盖情况的评估,及其在多基因、多样本中的多种统计,以图形化的方式形象地汇报评估结果,准确地反映具体受关注基因的测序质量。
附图说明
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明的流程示意图。
图2为本发明实施例的bed文件实例。
图3为本发明实施例的depth文件实例。
图4为本发明实施例的extractRangeEXON.py输入文件实例。
图5为本发明实施例的extractRangeEXON.py输出文件实例。
图6为本发明实施例的range文件实例。
图7为本发明实施例的rangeN文件实例。
图8为本发明实施例的所有基因测序覆盖图。
图9为本发明实施例的4个具体基因测序覆盖图。
图10为本发明实施例的所有基因(外显子)测序覆盖图。
图11为本发明实施例的4个具体基因外显子区域测序覆盖图。
具体实施方式
需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
下面将参考附图并结合实施例来详细说明本发明。
如图1所示为本发明的软件流程,本发明的系统架构说明如下:
1、数据提取模块
数据提取模块包括extractRange.py单元,用来提取包含在基因不同区域内各个位点的测序深度数据,与数据处理相关的参数共有5个:参数b为bed文件名,该文件包含染色体号、基因起始位点、基因终止位点、基因名和基因区域注释,具体格式查看图2,(图中箭头代表TAB分割);
参数d为测序深度数据文件(depth文件),该文件包含染色体号、染色体位点和测序深度。具体格式查看图3(图中箭头代表TAB分割);
参数o为控制产生的输入文件是否保留,因为在此程序会直接调用plotByGene.r作图。若如此做,可以直接删除输出文件。此参数从true和false中取值,true代表删除输出文件,false代表不删除中间文件。输出文件以range为扩展名;
参数p控制是否直接调用plotByGene.r作图。此参数从true和false中取值,true代表调用plotByGene.r作图,false代表不调用plotByGene.r作图;
参数f控制调用plotByGene.r作图后作图的格式。此参数从svg和pdf中取值,分别表示输出图片的格式分别为svg和pdf。
数据提取模块还包括extractRangeEXON.py的作用于extractRange.py相同。但是由于它们的输入文件略有差异。前者的输入文件(bed文件)包括染色体号、基因起始位点、基因终止位点和基因名,不包括基因区域注释。具体格式查看图4(图中箭头代表TAB分割)。另外,该程序可以接受一个包含bed文件的文件夹路径作为输入,而程序会对该路径下的所有bed文件同时做处理。
因此输出文件也略有不同,第二列不再是基因区域注释信息而是基因外显子的编号。具体格式的差异请查看图5与图6。
2、数据合并模块
数据合并模块包括MergeRange.py单元,MergeRange.py当遇到基因包含的碱基位点过多时,可以利用此程序将相近的N个位点的测序深度数据合并为均值。与数据处理相关的参数共有3个:参数i为输入文件的名称(以range为扩展名的文件)。该文件包括染色体号、基因区域注释、基因名以及测序深度。具体文件格式查看图6(图中箭头代表TAB分割);
参数o为输出文件名称(以rangeN为扩展名的文件)。其中N有下一个参数决定。输出文件与输入文件格式相同,只是由于最后一列是数据的均值所以最后一列包含小数。具体文件格式查看图7(图中箭头代表TAB分割);
参数n为将要合并的位点的个数。具体的取值可以根据range文件的大小来决定。当range文件过大时,可以适当将N值设置的大一点,否则会影响作图的速率以及图片的质量和呈现效果。
3、图形展示模块
图形展示模块包括plotByGene.r单元,用来展示包含在基因列表中的基因不同区域内各个位点的测序覆盖情况。该程序参数共有2个:参数1为输入文件的名称,range文件或者rangeN文件。输入文件格式查看上一部分。
参数2为输出文件的格式,pdf或者svg。每个输出文件中可能包含多个基因,因此图片可能就是一个图形矩阵。在每个输出文件的第一幅图为图例,后面是其他每个基因的测序覆盖情况。输出图片请查看图8和图9。
图形展示模块还包括plotByGeneEXON.r单元,与plotByGene.r输出结果相似,但是略有不同。因为只是展示基因的外显子,所以没有图例,只是用两种颜色间隔显示表示不同的外显子区域。输出图片请查看图10和图11。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (3)
1.一种DNA靶向测序覆盖度图形化评估系统,其特征在于,包括:
数据提取模块,用来提取包含在基因不同区域内各个位点的测序深度数据;
数据合并模块,用于当遇到基因包含的碱基位点过多时,将相近的N个位点的测序深度数据合并为均值;
图形展示模块,用于展示包含在基因列表中的基因不同区域内各个位点的测序覆盖情况;
所述数据提取模块、数据合并模块、图形展示模块依次连接。
2.根据权利要求1所述的一种DNA靶向测序覆盖度图形化评估系统,其特征在于,所述数据提取模块包括extractRange.py单元和extractRangeEXON.py单元,所述extractRange.py单元用于输入bed文件和depth文件,提取包含在基因不同区域内各个位点的测序深度数据;所述extractRangeEXON.py单元作用与extractRange.py相同,其输入文件的bed文件不包括基因区域注释,输出不再包括基因区域注释信息而是基因外显子的编号。
3.根据权利要求1所述的一种DNA靶向测序覆盖度图形化评估系统,其特征在于,所述图形展示模块包括plotByGene.r单元和plotByGeneEXON.r单元;所述plotByGene.r单元用来展示包含在基因列表中的基因不同区域内各个位点的测序覆盖情况;所述plotByGeneEXON.r单元输出结果相似,只是用两种颜色间隔显示表示同一基因的不同外显子区域。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201610319436.6A CN106021996A (zh) | 2016-05-13 | 2016-05-13 | 一种dna靶向测序覆盖度图形化评估系统 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201610319436.6A CN106021996A (zh) | 2016-05-13 | 2016-05-13 | 一种dna靶向测序覆盖度图形化评估系统 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN106021996A true CN106021996A (zh) | 2016-10-12 |
Family
ID=57100476
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN201610319436.6A Pending CN106021996A (zh) | 2016-05-13 | 2016-05-13 | 一种dna靶向测序覆盖度图形化评估系统 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN106021996A (zh) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN107609344A (zh) * | 2017-08-21 | 2018-01-19 | 上海派森诺生物科技股份有限公司 | 可变剪切分析方法 |
| CN115954053A (zh) * | 2022-12-21 | 2023-04-11 | 武汉万摩科技有限公司 | 基因测序数据比对结果的可视化方法、装置及存储介质 |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN101914628A (zh) * | 2010-09-02 | 2010-12-15 | 深圳华大基因科技有限公司 | 检测基因组目标区域多态性位点的方法及 系统 |
| WO2014149134A2 (en) * | 2013-03-15 | 2014-09-25 | Guardant Health Inc. | Systems and methods to detect rare mutations and copy number variation |
| CN104232649A (zh) * | 2013-06-10 | 2014-12-24 | 深圳华大基因科技有限公司 | 基因突变体及其应用 |
-
2016
- 2016-05-13 CN CN201610319436.6A patent/CN106021996A/zh active Pending
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN101914628A (zh) * | 2010-09-02 | 2010-12-15 | 深圳华大基因科技有限公司 | 检测基因组目标区域多态性位点的方法及 系统 |
| WO2014149134A2 (en) * | 2013-03-15 | 2014-09-25 | Guardant Health Inc. | Systems and methods to detect rare mutations and copy number variation |
| CN104232649A (zh) * | 2013-06-10 | 2014-12-24 | 深圳华大基因科技有限公司 | 基因突变体及其应用 |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN107609344A (zh) * | 2017-08-21 | 2018-01-19 | 上海派森诺生物科技股份有限公司 | 可变剪切分析方法 |
| CN115954053A (zh) * | 2022-12-21 | 2023-04-11 | 武汉万摩科技有限公司 | 基因测序数据比对结果的可视化方法、装置及存储介质 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US20210209328A1 (en) | Method and device for marking target cells, storage medium and terminal device | |
| US10740638B1 (en) | Data element profiles and overrides for dynamic optical character recognition based data extraction | |
| US20170337415A1 (en) | Learning Pixel Visual Context from Object Characteristics to Generate Rich Semantic Images | |
| JP6882874B2 (ja) | 地目変化判読支援装置、地目変化判読支援方法、及びプログラム | |
| CN110163030A (zh) | 一种基于图像信息的pdf有边框表格抽取方法 | |
| CN106055923A (zh) | 一种基因拷贝数变异分析方法 | |
| CN114359238B (zh) | 一种识别微塑料的方法、装置和存储介质 | |
| US9552529B2 (en) | Analysis of electrophoretic bands in a substrate | |
| CN107315989A (zh) | 针对医学资料图片的文本识别方法和装置 | |
| CN108596115A (zh) | 一种基于卷积神经网络的车辆检测方法、装置及系统 | |
| CN106021996A (zh) | 一种dna靶向测序覆盖度图形化评估系统 | |
| CN106161829B (zh) | 图像处理设备和方法 | |
| Yang et al. | SPIAT: an R package for the spatial image analysis of cells in tissues | |
| CN100578489C (zh) | 一种公式的排版方法 | |
| Espírito‐Santo et al. | Mapping forest successional stages following deforestation in Brazilian Amazonia using multi‐temporal Landsat images | |
| Fabijańska et al. | A comparative study of image enhancement methods in tree-ring analysis | |
| CN100530219C (zh) | 图像处理装置 | |
| Menolli Jr et al. | Amanita viscidolutea, a new species from Brazil with a key to Central and South American species of Amanita section Amanita | |
| CN107122625A (zh) | 人类短片段串联重复序列高通量测序信息的处理方法 | |
| CN108647570A (zh) | 斑马线检测方法、装置及计算机可读存储介质 | |
| CN105861696A (zh) | 一种基于转录组的肿瘤转移基因检测系统 | |
| CN109117843B (zh) | 字符遮挡检测方法及装置 | |
| CN101540050B (zh) | 一种获取景物边界的方法和装置 | |
| CN113468958B (zh) | 一种接触网支柱号牌识别方法 | |
| CN106021995A (zh) | 一种dna靶向测序覆盖度图形化评估方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| C06 | Publication | ||
| PB01 | Publication | ||
| C10 | Entry into substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| RJ01 | Rejection of invention patent application after publication |
Application publication date: 20161012 |
|
| RJ01 | Rejection of invention patent application after publication |