[go: up one dir, main page]

CA3052772A1 - Procede et systemes de reconstruction de sequences de reference genomiques a partir de lectures de sequences genomiques compressees - Google Patents

Procede et systemes de reconstruction de sequences de reference genomiques a partir de lectures de sequences genomiques compressees Download PDF

Info

Publication number
CA3052772A1
CA3052772A1 CA3052772A CA3052772A CA3052772A1 CA 3052772 A1 CA3052772 A1 CA 3052772A1 CA 3052772 A CA3052772 A CA 3052772A CA 3052772 A CA3052772 A CA 3052772A CA 3052772 A1 CA3052772 A1 CA 3052772A1
Authority
CA
Canada
Prior art keywords
descriptor
contig
binarization
sequence
reads
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Abandoned
Application number
CA3052772A
Other languages
English (en)
Inventor
Mohamed Khoso BALUCH
Claudio ALBERTI
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Genomsys SA
Original Assignee
Genomsys SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from PCT/EP2016/074311 external-priority patent/WO2018068830A1/fr
Priority claimed from PCT/EP2016/074297 external-priority patent/WO2018068827A1/fr
Priority claimed from PCT/EP2016/074301 external-priority patent/WO2018068828A1/fr
Priority claimed from PCT/EP2016/074307 external-priority patent/WO2018068829A1/fr
Priority claimed from PCT/US2017/017842 external-priority patent/WO2018071055A1/fr
Priority claimed from PCT/US2017/041579 external-priority patent/WO2018071078A1/fr
Application filed by Genomsys SA filed Critical Genomsys SA
Priority claimed from PCT/US2017/066458 external-priority patent/WO2018151786A1/fr
Publication of CA3052772A1 publication Critical patent/CA3052772A1/fr
Abandoned legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Public Health (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

La présente invention concerne un procédé et un appareil de représentation d'un génome de référence en termes d'éléments de syntaxe décrivant les différences entre ledit génome de référence et des séquences génomiques alignées. Lesdites séquences génomiques ont été préalablement alignées avec ledit génome de référence. Chacune des séquences génomiques alignées est décrite au moyen d'un sous-ensemble d'éléments de syntaxe. Des éléments de syntaxe décrivant toutes les séquences génomiques sont divisés en blocs selon leurs propriétés statistiques. Chaque bloc d'éléments de syntaxe est codé par entropie. Les blocs codés par entropie sont ensuite concaténés pour former un flux binaire compressé. Les différences entre le génome de référence et les séquences alignées sont exprimées en termes d'éléments de syntaxe. Lesdits éléments de syntaxe sont divisés en blocs selon leurs propriétés statistiques et chaque bloc est codé par entropie. Les éléments de syntaxe codés par entropie sont ensuite intégrés dans le flux binaire de blocs codés d'éléments de syntaxe décrivant des lectures alignées. Le procédé décrit permet la reconstruction du génome de référence utilisé pour l'alignement lors du décodage des séquences génomiques compressées, tout en préservant différentes options d'accès aléatoire sur les données compressées, et en permettant une compression efficace.
CA3052772A 2016-10-11 2017-12-14 Procede et systemes de reconstruction de sequences de reference genomiques a partir de lectures de sequences genomiques compressees Abandoned CA3052772A1 (fr)

Applications Claiming Priority (10)

Application Number Priority Date Filing Date Title
PCT/EP2016/074311 WO2018068830A1 (fr) 2016-10-11 2016-10-11 Procédé et système de transmission de données bioinformatiques
PCT/EP2016/074297 WO2018068827A1 (fr) 2016-10-11 2016-10-11 Structures de données efficaces pour la représentation d'informations bioinformatiques
PCT/EP2016/074301 WO2018068828A1 (fr) 2016-10-11 2016-10-11 Procédé et système destinés à la mémorisation et à l'accès de données bioinformatiques
PCT/EP2016/074307 WO2018068829A1 (fr) 2016-10-11 2016-10-11 Procédé et appareil destinés à une représentation compacte de données bioinformatiques
EP2017017841 2017-02-14
USPCT/US2017/017842 2017-02-14
PCT/US2017/017842 WO2018071055A1 (fr) 2016-10-11 2017-02-14 Procédé et appareil pour la représentation compacte de données bioinformatiques
USPCT/US2017/041579 2017-07-11
PCT/US2017/041579 WO2018071078A1 (fr) 2016-10-11 2017-07-11 Procédé et appareil d'accès à des données bioinformatiques structurées dans des unités d'accès
PCT/US2017/066458 WO2018151786A1 (fr) 2016-10-11 2017-12-14 Procédé et systèmes de reconstruction de séquences de référence génomiques à partir de lectures de séquences génomiques compressées

Publications (1)

Publication Number Publication Date
CA3052772A1 true CA3052772A1 (fr) 2018-08-23

Family

ID=67769776

Family Applications (1)

Application Number Title Priority Date Filing Date
CA3052772A Abandoned CA3052772A1 (fr) 2016-10-11 2017-12-14 Procede et systemes de reconstruction de sequences de reference genomiques a partir de lectures de sequences genomiques compressees

Country Status (2)

Country Link
AU (1) AU2017399715A1 (fr)
CA (1) CA3052772A1 (fr)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113285720A (zh) * 2021-05-28 2021-08-20 中科计算技术西部研究院 基因数据无损压缩方法、集成电路及无损压缩设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113285720A (zh) * 2021-05-28 2021-08-20 中科计算技术西部研究院 基因数据无损压缩方法、集成电路及无损压缩设备
CN113285720B (zh) * 2021-05-28 2023-07-07 中科计算技术西部研究院 基因数据无损压缩方法、集成电路及无损压缩设备

Also Published As

Publication number Publication date
AU2017399715A1 (en) 2019-10-10

Similar Documents

Publication Publication Date Title
US20190385702A1 (en) Method and systems for the reconstruction of genomic reference sequences from compressed genomic sequence reads
EP3583249B1 (fr) Procédé et systèmes de reconstruction de séquences de référence génomiques à partir de lectures de séquences génomiques compressées
JP2020509474A (ja) 圧縮されたゲノムシーケンスリードからゲノムリファレンスシーケンスを再構築するための方法とシステム
CA3052824A1 (fr) Procede et appareil pour la representation compacte de donnees bioinformatiques au moyen de plusieurs descripteurs genomiques
CA3052772A1 (fr) Procede et systemes de reconstruction de sequences de reference genomiques a partir de lectures de sequences genomiques compressees
JP7324145B2 (ja) ゲノムシーケンスリードの効率的圧縮のための方法及びシステム
CN110663022A (zh) 用于使用多个基因组描述符来紧凑表示生物信息学数据的方法和设备
NZ757185B2 (en) Method and apparatus for the compact representation of bioinformatics data using multiple genomic descriptors
HK40014527B (en) Method and systems for the efficient compression of genomic sequence reads
HK40014527A (en) Method and systems for the efficient compression of genomic sequence reads

Legal Events

Date Code Title Description
FZDE Discontinued

Effective date: 20230614