TWI571763B - 次世代定序分析系統及其次世代定序分析方法 - Google Patents
次世代定序分析系統及其次世代定序分析方法 Download PDFInfo
- Publication number
- TWI571763B TWI571763B TW103141576A TW103141576A TWI571763B TW I571763 B TWI571763 B TW I571763B TW 103141576 A TW103141576 A TW 103141576A TW 103141576 A TW103141576 A TW 103141576A TW I571763 B TWI571763 B TW I571763B
- Authority
- TW
- Taiwan
- Prior art keywords
- gene
- generation sequencing
- sequencing analysis
- next generation
- analysis system
- Prior art date
Links
- 238000004458 analytical method Methods 0.000 title claims description 61
- 238000007481 next generation sequencing Methods 0.000 title claims description 59
- 108090000623 proteins and genes Proteins 0.000 claims description 186
- 230000002068 genetic effect Effects 0.000 claims description 27
- 239000012634 fragment Substances 0.000 claims description 20
- 238000000034 method Methods 0.000 claims description 18
- 230000037361 pathway Effects 0.000 claims description 11
- 230000005540 biological transmission Effects 0.000 claims description 5
- 230000035772 mutation Effects 0.000 claims description 3
- 238000012300 Sequence Analysis Methods 0.000 claims description 2
- 230000007614 genetic variation Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 9
- 238000012163 sequencing technique Methods 0.000 description 9
- 101000798007 Homo sapiens RAC-gamma serine/threonine-protein kinase Proteins 0.000 description 7
- 102100032314 RAC-gamma serine/threonine-protein kinase Human genes 0.000 description 4
- 206010064571 Gene mutation Diseases 0.000 description 3
- 230000000875 corresponding effect Effects 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 102100024049 A-kinase anchor protein 13 Human genes 0.000 description 1
- 102100033393 Anillin Human genes 0.000 description 1
- 206010006187 Breast cancer Diseases 0.000 description 1
- 208000026310 Breast neoplasm Diseases 0.000 description 1
- 101000833679 Homo sapiens A-kinase anchor protein 13 Proteins 0.000 description 1
- 101000732632 Homo sapiens Anillin Proteins 0.000 description 1
- 101000779418 Homo sapiens RAC-alpha serine/threonine-protein kinase Proteins 0.000 description 1
- 102100033810 RAC-alpha serine/threonine-protein kinase Human genes 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 108091008053 gene clusters Proteins 0.000 description 1
- 238000012252 genetic analysis Methods 0.000 description 1
- 238000010353 genetic engineering Methods 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
Landscapes
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Biophysics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Description
本發明係關於一種次世代定序分析系統及其次世代定序分析方法,更具體而言,本發明之次世代定序分析系統及其次世代定序分析方法主要係以特徵化之標準基因序列作為基因比對基礎。
相較於傳統之基因定序(sequencing)方法,次世代定序(Next Generation Sequencing)方法在改良之化學定序方式以及基因自動化工程輔助之情況下,將可更有效地縮短定序之時間,並同時降低定序之成本。
惟次世代定序方法及其變異分析過程中,待測基因樣本皆須以標準基因參考序列為標準進行比對。其中,標準基因參考序列之位點個數動輒數億為單位。因此,若以現行之次世代定序及變異分析方式進行基因分析,單筆基因資料平均分析耗時將長達12~24小時。
雖目前有專為次世代定序方法設計用以加速定序及分析之相關演算法以及硬體,然在大部分加強效能之演算法實用
性偏低,且提升硬體等級之同時將大幅提升成本之情況下,目前次世代定序方法之處理效率仍遭遇相當程度之瓶頸。
據此,如何利用現有之資源,有效地提升次世代定序方法及分析結果之處理效率,乃業界亟需努力之目標。
本發明之主要目的係提供一種用於次世代定序分析系統之次世代定序分析方法。次世代定序分析系統與基因資料庫連線。次世代定序分析方法包含:(a)令次世代定序分析系統接收目標基因輸入;(b)令次世代定序分析系統根據基因資料庫之基因關聯資料,決定目標基因輸入之至少一基因群組;(c)令次世代定序分析系統根據至少一基因群組,將基因資料庫之標準基因參考序列調整為特徵基因參考序列;(d)令次世代定序分析系統將複數待測基因片段資料與特徵基因參考序列進行比對;(e)令次世代定序分析系統分析複數待測基因片段資料與特徵基因參考序列之基因變異率。
為完成前述目的,本發明又提供一種次世代定序分析系統,包含傳輸介面、輸入介面、記憶體以及處理單元。傳輸介面用以與基因資料庫連線,其中,基因資料庫具有基因關聯資料以及標準基因參考序列。輸入介面用以接收目標基因輸入。記憶體存有複數待測基因片段資料。處理單元用以:根據基因關聯資料,決定目標基因輸入之至少一基因群組;根據至少一基因群組,將標準基因參考序列調整為特徵基因參考序列;將複數待測
基因片段資料與特徵基因參考序列進行比對;分析複數待測基因片段資料與特徵基因參考序列之基因變異率。
參閱圖式及隨後描述的實施方式後,所屬技術領域具有通常知識者可更瞭解本發明的技術手段及具體實施態樣。
1‧‧‧次世代定序分析系統
10‧‧‧目標基因輸入
11‧‧‧傳輸介面
13‧‧‧輸入單元
15‧‧‧處理單元
17‧‧‧記憶體
170‧‧‧待測基因片段資料
2‧‧‧基因資料庫
20‧‧‧基因關聯資料
22‧‧‧標準基因參考序列
24‧‧‧特徵基因參考序列
Groups A、B、C‧‧‧基因群組
第1A圖係本發明第一實施例之次世代定序分析系統之示意圖;第1B圖係本發明第一實施例之基因群組化示意圖;第1C圖係本發明第一實施例之參考序列特徵化示意圖;第1D圖係本發明第一實施例之待測基因片段資料與特徵基因參考序列比對示意圖;以及第2圖係本發明第二實施例之次世代定序分析方法之流程圖。
以下將透過本發明之實施例來闡釋本發明。然而,該等實施例並非用以限制本發明需在如實施例所述之任何環境、應用程式或方式方能實施。因此,以下實施例的說明僅在於闡釋本發明,而非用以限制本發明。在以下實施例及圖式中,與本發明非直接相關的元件已省略而未繪示,且繪示於圖式中的各元件之間的尺寸關係僅為便於理解,而非用以限制為實際的實施比例。
請參考第1A圖,其係本發明第一實施例之一次世代定序系統1之示意圖。次世代定序系統1包含一傳輸介面11、一輸
入單元13、一處理單元15以及一記憶體17。傳輸介面11與一基因資料庫2連線,藉以擷取基因資料庫2內存之一基因關聯資料20以及一標準基因參考序列22(如加州大學公佈之UCSC HG19)。記憶體17存有複數待測基因片段資料170。次世代定序分析之過程將於下文中予以進一步闡述。
首先,使用者可針對所欲研究分析之基因資料,對次世代定序分析系統1進行操作。具體而言,使用者對次世代定序分析系統1輸入一目標基因輸入10,其包含欲進行分析之基因標的。隨即,次世代定序分析系統1之輸入單元13便接收目標基因輸入10。
請同時參考第1B圖,其係本發明第一實施例之基因群組化示意圖。具體來說,次世代定序分析系統1之處理單元15根據基因資料庫2記錄之基因關聯資料20,決定目標基因輸入10之至少一基因群組Groups A、B、C。詳言之,由於基因關聯資料20主要係記錄基因蛋白質相關各級結構、共同運作及功能等資料,因此,次世代定序分析系統1便可據以判斷與目標基因輸入10之基因標的相關之基因,並將其群組化。
舉例而言,假設使用者欲研究與乳癌高度相關之AKT3基因,則使用者便可將目標基因輸入定為AKT3。接著,由於基因關聯資料中包含基因家族(Gene Family)相關資料,因此,次世代定序分析系統便可據以判斷AKT3隸屬之基因家族(如AKT1、AKAP13、ANLN),並將AKT3之基因家族所記錄之相關基
因群組化。
類似地,基因關聯資料中亦可包含基因路徑(Gene Pathway)相關資料,因此,次世代定序分析系統同樣可據以判斷AKT3隸屬之基因路徑(如),並將AKT3之基因路徑所通過之相關基因群組化。進一步而言,次世代定序分析系統更可同時根據基因家族以及基因路徑,將AKT3之基因家族中之基因及其各自所通過之基因路徑擴大群組化之範圍。
如此一來,透過前述方式,便可得到與目標基因輸入高度相關之基因群組。須特別說明,第一實施例之基因群組個數為三,惟其非用以限制基因群組織數量,且前述範例亦非用以將基因關聯資料限定於基因家族以及基因路徑。本領域技術人員應可透過本發明之內容,輕易理解基因關聯資料亦可包含使用者自訂或自行研究之基因相關資料,且不同之基因將因為不同之基因關聯資料而具有不同之基因群組數量。
更者,前述群組化之方式主要係透過基因家族以及基因路徑之關聯性完成,然其同樣非用以限定基因群組化之方式,本領域技術人員應可輕易理解,如何將利用不同分組演算法之技術(如k-means分組演算法)應用於本發明,以針對目標基因輸入之基因叢集完成基因之分組,於此不再贅述。
接著,請同時參考第1C圖,其係本發明第一實施例之參考序列特徵化示意圖。具體而言,次世代定序分析系統1之處理單元15判斷目標基因輸入10之基因群組Groups A、B、C後,便
據以將標準基因參考序列22調整為一特徵基因參考序列24。
更進一步來說,由於基因群組Groups A、B、C各自包含其所代表之基因,因此,次世代定序分析系統1之處理單元15便可根據基因群組Groups A、B、C之內容,於標準基因參考序列22中挑選相應之基因段落,並將其篩選為特徵基因參考序列24。換言之,特徵基因參考序列24主要係針對目標基因輸入10之基因群組Groups A、B、C所得之參考序列。
隨後,請同時參考第1D圖,其係本發明第一實施例之待測基因片段資料與特徵基因參考序列比對示意圖。次世代定序分析系統1之處理單元15便可將待測基因片段170與特徵基因參考序列24進行比對,並根據比對結果分析待測基因片段170與特徵基因參考序列24之一基因變異率(未繪示)。須特別說明,由於將基因片段與參考序列進行定序、比對及分析之技術為本領域技術人員常見之技術手段,於此不再贅述。
本發明之一第二實施例係為一次世代定序分析方法,其流程圖請參考第2圖。第二實施例之方法係用於一次世代定序分析系統(例如前述實施例之次世代定序分析系統1)。次世代定序分析系統與一基因資料庫連線,基因資料庫中存有一基因關聯資料以及一標準基因參考序列。第二實施例之詳細步驟如下所述。
首先,執行步驟201,令次世代定序分析系統接收使用者輸入之一目標基因輸入。其中,目標基因輸入包含使用者欲
研究分析之基因資料。接著,執行步驟202,令次世代定序分析系統根據基因資料庫之基因關聯資料,決定目標基因輸入之至少一基因群組。
同樣地,由於基因關聯資料可包含基因家族、基因路徑或自訂基因群組之關聯性資料,因此前述決定至少一基因群組之步驟主要可依據基因家族、基因路徑或自訂基因群組之關聯性資料完成。類似地,基因分組之方式亦可利用不同分組演算法之技術(如k-means分組演算法)完成。
隨後,執行步驟203,令次世代定序分析系統根據至少一基因群組,將基因資料庫之標準基因參考序列調整為一特徵基因參考序列。換言之,即針對至少一基因群組之基因內容,於標準基因參考序列上篩選出相對應之段落,以形成特徵基因參考序列。
執行步驟204,令次世代定序分析系統將複數待測基因片段資料與特徵基因參考序列進行比對。最後,執行步驟205,令次世代定序分析系統分析複數待測基因片段資料與特徵基因參考序列之一基因變異率。
綜上所述,本發明之次世代定序分析系統及其次世代定序分析方法,可先根據欲分析之基因進行基因群組化,並利用群組化之基因將標準基因參考序列進行特徵化,換言之,即將其大幅簡化為基因特徵參考序列,則後續僅需針對長度較短之基因特徵參考序列進行定序、分析以及變異搜尋,如此一來,將有
效地縮短基因資料之分析處理時間。
惟上述實施例僅為例示性說明本發明之實施態樣,以及闡釋本發明之技術特徵,並非用來限制本發明之保護範疇。任何熟悉此技藝之人士可輕易完成之改變或均等性之安排均屬於本發明所主張之範圍,本發明之權利保護範圍應以申請專利範圍為準。
170‧‧‧待測基因片段資料
24‧‧‧特徵基因參考序列
Claims (8)
- 一種用於一次世代定序(Next Generation Sequencing)分析系統之次世代定序分析方法,該次世代定序分析系統與一基因資料庫連線,包含:(a)令該次世代定序分析系統接收一目標基因輸入;(b)令該次世代定序分析系統根據該基因資料庫之一基因關聯資料,決定該目標基因輸入之至少一基因群組;(c)令該次世代定序分析系統根據該至少一基因群組,將該基因資料庫之一標準基因參考序列調整為一特徵基因參考序列;(d)令該次世代定序分析系統將複數待測基因片段資料與該特徵基因參考序列進行比對;(e)令該次世代定序分析系統分析該等待測基因片段資料與該特徵基因參考序列之一基因變異率。
- 如請求項1所述之次世代定序分析方法,其中,該基因關聯資料包含一基因家族(Gene Family)資料,步驟(b)更包含:(b1)令該次世代定序分析系統根據該基因資料庫之該基因家族資料,決定該目標基因輸入之該至少一基因群組。
- 如請求項1所述之次世代定序分析方法,其中,該基因關聯資料包含一基因路徑(Gene Pathway)資料,步驟(b)更包含:(b1)令該次世代定序分析系統根據該基因資料庫之該基因路徑資料,決定該目標基因輸入之該至少一基因群組。
- 如請求項1所述之次世代定序分析方法,其中,步驟(b)更包含: (b1)令該次世代定序分析系統根據該基因資料庫之該基因關聯資料,透過一分組演算法決定該目標基因輸入之該至少一基因群組。
- 一種次世代定序(Next Generation Sequencing)分析系統,包含:一傳輸介面,用以與一基因資料庫連線,其中,該基因資料庫具有一基因關聯資料以及一標準基因參考序列;一輸入介面,用以接收一目標基因輸入;一記憶體,存有複數待測基因片段資料;一處理單元,用以:根據該基因關聯資料,決定該目標基因輸入之至少一基因群組;根據該至少一基因群組,將該標準基因參考序列調整為一特徵基因參考序列;將該等待測基因片段資料與該特徵基因參考序列進行比對;分析該等待測基因片段資料與該特徵基因參考序列之一基因變異率。
- 如請求項5所述之次世代定序分析系統,其中,該基因關聯資料包含一基因家族(Gene Family)資料,該處理單元係根據該基因家族資料決定該目標基因輸入之該至少一基因群組。
- 如請求項5所述之次世代定序分析系統,其中,該基因關聯資料包含一基因路徑(Gene Pathway)資料,該處理單元係根據該基因路徑資料決定該目標基因輸入之該至少一基因群組。。
- 如請求項5所述之次世代定序分析系統,其中,該處理單元係 根據該基因資料庫之該基因關聯資料,透過一分組演算法決定該目標基因輸入之該至少一基因群組。
Priority Applications (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| TW103141576A TWI571763B (zh) | 2014-12-01 | 2014-12-01 | 次世代定序分析系統及其次世代定序分析方法 |
| CN201410748830.2A CN105733921A (zh) | 2014-12-01 | 2014-12-09 | 下一代测序分析系统及其下一代测序分析方法 |
| US14/605,029 US20160154929A1 (en) | 2014-12-01 | 2015-01-26 | Next generation sequencing analysis system and next generation sequencing analysis method thereof |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| TW103141576A TWI571763B (zh) | 2014-12-01 | 2014-12-01 | 次世代定序分析系統及其次世代定序分析方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| TW201621732A TW201621732A (zh) | 2016-06-16 |
| TWI571763B true TWI571763B (zh) | 2017-02-21 |
Family
ID=56079372
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| TW103141576A TWI571763B (zh) | 2014-12-01 | 2014-12-01 | 次世代定序分析系統及其次世代定序分析方法 |
Country Status (3)
| Country | Link |
|---|---|
| US (1) | US20160154929A1 (zh) |
| CN (1) | CN105733921A (zh) |
| TW (1) | TWI571763B (zh) |
Families Citing this family (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN106709276A (zh) * | 2017-01-21 | 2017-05-24 | 深圳昆腾生物信息有限公司 | 一种基因变异成因分析方法及系统 |
| CN108004302A (zh) * | 2017-12-12 | 2018-05-08 | 中国农业科学院麻类研究所 | 一种转录组参考的关联分析方法及其应用 |
| CN109785905B (zh) * | 2018-12-18 | 2021-07-23 | 中国科学院计算技术研究所 | 一种面向基因比对算法的加速装置 |
| WO2024023944A1 (ja) * | 2022-07-26 | 2024-02-01 | 株式会社日立ハイテク | 遺伝子検査方法および遺伝子検査装置 |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| TW200712204A (en) * | 2005-06-14 | 2007-04-01 | Agency Science Tech & Res | Method of processing and/or genome mapping of ditag sequences |
| US20130109016A1 (en) * | 2010-05-07 | 2013-05-02 | Genematrix Inc. | Primer composition for amplifying a gene region having various variations in a target gene |
| TW201337618A (zh) * | 2012-02-08 | 2013-09-16 | Dow Agrosciences Llc | Dna序列之資料分析技術 |
| US20140186843A1 (en) * | 2012-12-12 | 2014-07-03 | Massachusetts Institute Of Technology | Methods, systems, and apparatus for identifying target sequences for cas enzymes or crispr-cas systems for target sequences and conveying results thereof |
Family Cites Families (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN102277351A (zh) * | 2010-06-10 | 2011-12-14 | 中国科学院上海生命科学研究院 | 从无基因组参考序列物种获得基因信息及功能基因的方法 |
| CN102154452B (zh) * | 2010-12-30 | 2013-11-20 | 深圳华大基因科技服务有限公司 | 一种鉴定顺式和反式调控作用的方法和系统 |
-
2014
- 2014-12-01 TW TW103141576A patent/TWI571763B/zh active
- 2014-12-09 CN CN201410748830.2A patent/CN105733921A/zh active Pending
-
2015
- 2015-01-26 US US14/605,029 patent/US20160154929A1/en not_active Abandoned
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| TW200712204A (en) * | 2005-06-14 | 2007-04-01 | Agency Science Tech & Res | Method of processing and/or genome mapping of ditag sequences |
| US20130109016A1 (en) * | 2010-05-07 | 2013-05-02 | Genematrix Inc. | Primer composition for amplifying a gene region having various variations in a target gene |
| TW201337618A (zh) * | 2012-02-08 | 2013-09-16 | Dow Agrosciences Llc | Dna序列之資料分析技術 |
| US20140186843A1 (en) * | 2012-12-12 | 2014-07-03 | Massachusetts Institute Of Technology | Methods, systems, and apparatus for identifying target sequences for cas enzymes or crispr-cas systems for target sequences and conveying results thereof |
Also Published As
| Publication number | Publication date |
|---|---|
| CN105733921A (zh) | 2016-07-06 |
| TW201621732A (zh) | 2016-06-16 |
| US20160154929A1 (en) | 2016-06-02 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Greiff et al. | Bioinformatic and statistical analysis of adaptive immune repertoires | |
| US20220223233A1 (en) | Display of estimated parental contribution to ancestry | |
| AU2022201545A1 (en) | Deep convolutional neural networks for variant classification | |
| US20200098448A1 (en) | Methods of normalizing and correcting rna expression data | |
| Parks et al. | Evaluation of the microba community profiler for taxonomic profiling of metagenomic datasets from the human gut microbiome | |
| TWI571763B (zh) | 次世代定序分析系統及其次世代定序分析方法 | |
| CN112930569A (zh) | 无细胞dna中的微卫星不稳定性检测 | |
| CN110326051A (zh) | 用于识别生物样本中的表达区别要素的方法 | |
| KR20220073732A (ko) | 분석물질 레벨의 적응적 정규화를 위한 방법, 장치 및 컴퓨터 판독가능 매체 | |
| KR102182091B1 (ko) | 면역항암제에 대한 저항성을 예측하는 방법 및 분석장치 | |
| CN116665773B (zh) | 基于贝叶斯算法的变异基因致病性评估方法及装置 | |
| Kuo et al. | Illuminating the dark side of the human transcriptome with TAMA Iso-Seq analysis | |
| Woldring et al. | ScaffoldSeq: Software for characterization of directed evolution populations | |
| US20240194292A1 (en) | Apparatus and method for predicting cell type enrichment from tissue images using spatially resolved gene expression data | |
| WO2008007630A1 (en) | Method of searching for protein and apparatus therefor | |
| Zhang et al. | Analysis of TCR β CDR3 sequencing data for tracking anti-tumor immunity | |
| CN115295084A (zh) | 一种肿瘤新抗原免疫组库数据可视化分析方法和系统 | |
| CN113823353A (zh) | 基因拷贝数扩增检测方法、装置及可读介质 | |
| Whelan et al. | Cloudbreak: accurate and scalable genomic structural variation detection in the cloud with MapReduce | |
| KR101906970B1 (ko) | 분산 처리를 이용한 핵산 서열의 분석 방법 및 장치, 핵산 서열 분석을 위한 분산 처리 시스템 | |
| Milosavljevic et al. | ARPEGGIO: automated reproducible polyploid EpiGenetic GuIdance workflOw | |
| CN115713107A (zh) | 用于变体识别的神经网络 | |
| Martin et al. | Population Structure in Genetic Studies: Confounding Factors and Mixed Models | |
| JP2024510394A (ja) | 検査用スライド及びブロックの品質を検証する人工知能を活用した分子ワークフロー用のシステム及び方法 | |
| González Calabozo et al. | Gene Expression Array Exploration Using-Formal Concept Analysis |