BE1027035A1 - Depot of fingerprint data strings - Google Patents
Depot of fingerprint data strings Download PDFInfo
- Publication number
- BE1027035A1 BE1027035A1 BE20195077A BE201905077A BE1027035A1 BE 1027035 A1 BE1027035 A1 BE 1027035A1 BE 20195077 A BE20195077 A BE 20195077A BE 201905077 A BE201905077 A BE 201905077A BE 1027035 A1 BE1027035 A1 BE 1027035A1
- Authority
- BE
- Belgium
- Prior art keywords
- fingerprint data
- biological
- sequence
- data strings
- deposit
- Prior art date
Links
- 108090000623 proteins and genes Proteins 0.000 claims description 26
- 102000004169 proteins and genes Human genes 0.000 claims description 26
- 229920001222 biopolymer Polymers 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 21
- 238000003860 storage Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 4
- 230000037361 pathway Effects 0.000 claims description 3
- 238000000034 method Methods 0.000 description 79
- 230000008901 benefit Effects 0.000 description 30
- 108020004414 DNA Proteins 0.000 description 15
- 102000053602 DNA Human genes 0.000 description 15
- 229920002477 rna polymer Polymers 0.000 description 14
- 238000002869 basic local alignment search tool Methods 0.000 description 13
- 239000012634 fragment Substances 0.000 description 12
- 150000001413 amino acids Chemical class 0.000 description 11
- 108020004705 Codon Proteins 0.000 description 7
- 238000002887 multiple sequence alignment Methods 0.000 description 6
- 238000012163 sequencing technique Methods 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 239000003550 marker Substances 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 238000009825 accumulation Methods 0.000 description 3
- 125000001314 canonical amino-acid group Chemical group 0.000 description 3
- 239000002131 composite material Substances 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 238000005304 joining Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 238000002864 sequence alignment Methods 0.000 description 2
- AZUYLZMQTIKGSC-UHFFFAOYSA-N 1-[6-[4-(5-chloro-6-methyl-1H-indazol-4-yl)-5-methyl-3-(1-methylindazol-5-yl)pyrazol-1-yl]-2-azaspiro[3.3]heptan-2-yl]prop-2-en-1-one Chemical compound ClC=1C(=C2C=NNC2=CC=1C)C=1C(=NN(C=1C)C1CC2(CN(C2)C(C=C)=O)C1)C=1C=C2C=NN(C2=CC=1)C AZUYLZMQTIKGSC-UHFFFAOYSA-N 0.000 description 1
- 241000196324 Embryophyta Species 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000002620 method output Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000000178 monomer Substances 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 229920000642 polymer Polymers 0.000 description 1
- 238000000734 protein sequencing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005464 sample preparation method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/50—Compression of genetic data
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
Landscapes
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Databases & Information Systems (AREA)
- Bioethics (AREA)
- Artificial Intelligence (AREA)
- Genetics & Genomics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Er is een depot van vingerafdruk-datastrings (100) geopenbaard. Elke vingerafdruk-datastring vertoont een kenmerkende biologische subsequentie. Het depot omvat ten minste een eerste vingerafdruk-datastring die een eerste kenmerkende biologische subsequentie van een eerste lengte voorstelt en een tweede vingerafdruk-datastring die een tweede kenmerkende biologische subsequentie van een tweede lengte voorstelt, waarbij de eerste en de tweede lengte gelijk zijn aan 4 of meer en waarbij de eerste en de tweede lengte van elkaar verschillen.A deposit of fingerprint data strings (100) has been disclosed. Each fingerprint data string shows a characteristic biological subsequence. The deposit comprises at least a first fingerprint data string representing a first characteristic biological subsequence of a first length and a second fingerprint data string representing a second characteristic biological subsequence of a second length, the first and second length being equal to 4 or more and wherein the first and second lengths are different from each other.
Description
Depot van vingerafdruk-datastrings Technisch gebied van de uitvinding De onderhavige uitvinding heeft betrekking op de hantering van biologische sequentie-informatie, bevattende bijvoorbeeld verwerking, opslag en vergelijking van genoemde biologische sequentie-informatie. Achtergrond van de uitvinding Biologische sequentiebepaling is de laatste decennia met steeds toenemende snelheid geëvolueerd en heeft in tussentijd het humane genoomproject mogelijk gemaakt, waardoor reeds meer dan 15 jaar geleden een volledige sequentiebepaling van het humane genoom werd verkregen. Om deze evolutie te bewerkstelligen was grote technische vooruitgang vereist, gaande van vooruitgang in staalbereidings- en sequentiebepalingswerkwijzen tot gegevensverwerving, -verwerking en -analyse. Tegelijkertijd werden nieuwe wetenschappelijke gebieden voortgebracht en ontwikkeld, waaronder genomica, proteomica en bio-informatica.Technical Field of the Invention The present invention relates to the handling of biological sequence information, including, for example, processing, storage and comparison of said biological sequence information. Background of the Invention Biological sequencing has evolved at an ever increasing rate in recent decades and has, in the meantime, enabled the human genome project to achieve complete sequencing of the human genome more than 15 years ago. Major technical advances were required to accomplish this evolution, ranging from advances in sample preparation and sequencing methods to data acquisition, processing and analysis. At the same time, new scientific areas were spawned and developed, including genomics, proteomics and bioinformatics.
Gevoed door het belang van gegevensverwerving in het postgenomische tijdperk resulteerde deze evolutie in de accumulatie van enorme hoeveelheden sequentiegegevens. De mogelijkheid om deze sequentie te organiseren, analyseren en interpreteren, teneinde daaruit biologisch relevante informatie te onttrekken, werd steeds meer verwaarloosd. Dit probleem werd verder versterkt door de omvang van nieuwe sequentie-informatie, die nog steeds op dagelijkse basis wordt gegenereerd. Muir et al. stelden vast dat dit tot een paradigmaverschuiving leidt en becommentarieerden de resulterende veranderende kostenstructuur voor sequentiebepaling en andere daarmee gepaard gaande hindernissen (MUIR, Paul, et al. The real cost of sequencing: scaling computation to keep pace with data generation. Genome biology, 2016, 17.1: 53.).Fueled by the importance of data acquisition in the post-genomic era, this evolution resulted in the accumulation of vast amounts of sequence data. The ability to organize, analyze and interpret this sequence in order to extract biologically relevant information from it was increasingly neglected. This problem was further compounded by the volume of new sequence information that is still being generated on a daily basis. Muir et al. Found that this leads to a paradigm shift and commented on the resulting changing cost structure for sequencing and other associated hurdles (MUIR, Paul, et al. The real cost of sequencing: scaling computation to keep pace with data generation. Genome biology, 2016, 17.1: 53.).
Het verkrijgen van toegang tot, het analyseren of het gebruiken van sequentie- informatie op een betekenisvolle manier vereist over het algemeen de nood aan een vorm van sequentie-uitlijning en zoeken naar overeenkomst. Er is in de handel een enorme hoeveelheid computersoftware verkrijgbaar voor het uitvoeren van dergelijkeuitlijningen en zoekopdrachten naar sequentie-overeenkomst, bv. BLAST, PSI-BLAST; SSEARCH, FASTA, HMMER3. Niettegenstaande ontbreekt het de bekende algoritmes aan snelheid of praktische mogelijkheid om de grote hoeveelheid reeds bestaande gegevens te verwerken. Er werden ook pogingen ondernomen voor hardware- optimalisaties, zoals geopenbaard in US2006020397A1, maar deze hebben niet tot de noodzakelijke doorbraak geleid. De aanzet tot deze strijd is dat het probleem waarvoor een oplossing wordt gezocht van de NP-harde of NP-volledige aard is (NP = niet- deterministische polynomiale tijd); daardoor nemen de vereiste hulpbronnen exponentieel af als de moeilijkheid van de taak toeneemt (bv. met toenemende sequentielengte of met toenemend aantal sequenties die moeten worden vergeleken).Accessing, analyzing, or using sequence information in a meaningful manner generally requires the need for some form of sequence alignment and similarity search. There is an enormous amount of computer software commercially available for performing such alignments and sequence similarity searches, e.g., BLAST, PSI-BLAST; SSEARCH, FASTA, HMMER3. Nevertheless, the known algorithms lack speed or practical ability to process the large amount of already existing data. Attempts have also been made for hardware optimizations, as disclosed in US2006020397A1, but have not led to the necessary breakthrough. The impetus for this struggle is that the problem for which a solution is sought is of the NP-hard or NP-complete nature (NP = non-deterministic polynomial time); therefore, the resources required decrease exponentially as the difficulty of the task increases (e.g., with increasing sequence length or with increasing number of sequences to be compared).
Er is dus in het vakgebied nog steeds nood aan manieren om op een efficiënte manier gebruik te maken van sequentie-informatie, waardoor de relevante informatie daarin kan worden onttrokken en gebruikt om een specifiek probleem op te lossen.Thus, there is still a need in the art for ways to efficiently utilize sequence information so that the relevant information therein can be extracted and used to solve a specific problem.
Samenvatting van de uitvinding Het is een doelstelling van de onderhavige uitvinding om een goede manier te verschaffen om biologische sequentie-informatie te behandelen. Deze doelstelling wordt bereikt door werkwijzen, inrichtingen en gegevensstructuren volgens de onderhavige uitvinding.Summary of the Invention It is an object of the present invention to provide a good way of handling biological sequence information. This object is achieved by methods, devices and data structures of the present invention.
In een eerste aspect heeft de onderhavige uitvinding betrekking op een depot van vingerafdruk-datastrings, waarbij elke vingerafdruk-datastring een kenmerkende biologische subsequentie voorstelt, het depot omvattende ten minste een eerste vingerafdruk-datastring die een eerste kenmerkende biologische subsequentie van een eerste lengte voorstelt en een tweede vingerafdruk-datastring die een tweede kenmerkende biologische subsequentie van een tweede lengte voorstelt, waarbij de eerste en de tweede lengte gelijk zijn aan 4 of meer en waarbij de eerste en de tweede lengte van elkaar verschillen.In a first aspect, the present invention relates to a deposit of fingerprint data strings, each fingerprint data string representing a characteristic biological subsequence, the deposit comprising at least a first fingerprint data string representing a first characteristic biological subsequence of a first length and a second fingerprint data string representing a second characteristic biological subsequence of a second length, wherein the first and second lengths are equal to 4 or more and the first and second lengths are different from each other.
Het is een voordeel van uitvoeringsvormen van de onderhavige uitvinding dat een depot van vingerafdruk-datastrings die overeenkomen met kenmerkende biologische subsequenties kan worden verschaft. Het is een verder voordeel vanuitvoeringsvormen dat de biologische subsequenties niet van een enkele lengte moeten zijn, zoals het geval is bij bv. k-meren.It is an advantage of embodiments of the present invention that a deposit of fingerprint data strings corresponding to characteristic biological subsequences can be provided. It is a further advantage of embodiments that the biological subsequences should not be of a single length, as is the case with, e.g., k-mers.
Het is een voordeel van uitvoeringsvormen van de onderhavige uitvinding dat verdere gegevens, bv. metagegevens, kunnen worden opgenomen in het depot, zoals gegevens over de eenheid (eenheden) die kunnen volgen of voorafgaan, bv. direct vóór of direct na, een kenmerkende biologische subsequentie, gegevens over de secundaire/tertiaire/quaternaire structuur van een kenmerkende biologische subsequentie, bv. wanneer genoemde kenmerkende biologische subsequentie aanwezig is in q-biopolymeer, gegevens over een verhouding tussen vingerafdrukken, bv. gegevens met betrekking tot een verhouding tussen de kenmerkende biologische subsequentie en één of meer verdere kenmerkende biologische subsequenties, enz.It is an advantage of embodiments of the present invention that further data, e.g. metadata, can be included in the repository, such as unit (s) data that may follow or precede, e.g., immediately before or immediately after, a typical biological subsequence, data on the secondary / tertiary / quaternary structure of a characteristic biological subsequence, e.g. when said characteristic biological subsequence is present in q biopolymer, data on a ratio of fingerprints, e.g. data on a ratio between the characteristic biological subsequence and one or more further characteristic biological subsequences, etc.
De onderhavige uitvinding heeft ook betrekking op een opslaginrichting omvattende een depot van vingerafdruk-datastrings, zoals hoger beschreven.The present invention also relates to a storage device comprising a deposit of fingerprint data strings, as described above.
Ze kan verder betrekking hebben op een verwerkingssysteem omvattende een dergelijke opslaginrichting en verder omvattende een verwerkingseenheid aangepast voor het verkrijgen van vingerafdruk-datastrings van de opslaginrichting en/of voor het opslaan van vingerafdruk-datastrings in de opslaginrichting en/of het zoeken in vingerafdruk- datastrings in de opslaginrichting.It may further relate to a processing system comprising such a storage device and further comprising a processing unit adapted to obtain fingerprint data strings from the storage device and / or to store fingerprint data strings in the storage device and / or search fingerprint data strings. in the storage facility.
De onderhavige uitvinding heeft ook betrekking op een computerprogrammaproduct omvattende instructies die, wanneer het programma wordt uitgevoerd door een computersysteem, het computersysteem aanzetten tot het uitvoeren van het verkrijgen, zoeken of opslaan van vingerafdruk-datastrings respectievelijk van, in of naar het depot van vingerafdruk-datastrings.The present invention also relates to a computer program product comprising instructions that, when the program is executed by a computer system, cause the computer system to perform the acquisition, search, or storage of fingerprint data strings from, in or to the fingerprint depot, respectively. data strings.
Er is een werkwijze beschreven voor verwerking van een biologische sequentie, omvattende: (a) het ophalen van één of meer vingerafdruk-datastrings uit het depot zoals gedefinieerd in elke uitvoeringsvorm van het eerste aspect, (b) het zoeken in de biologische sequentie naar het voorkomen van de kenmerkende biologische subsequenties voorgesteld door de één of meer vingerafdruk-datastrings, en (c) het construeren van een verwerkte biologische sequentie omvattende, voor elk voorkomen in stap b, een vingerafdrukmerker geassocieerd met de vingerafdruk- datastring die het voorkomen van de kenmerkende biologische subsequentie voorstelt.There is disclosed a method for processing a biological sequence, comprising: (a) retrieving one or more fingerprint data strings from the deposit as defined in any embodiment of the first aspect, (b) searching the biological sequence for the occurrence of the characteristic biological subsequences represented by the one or more fingerprint data strings, and (c) constructing a processed biological sequence comprising, for each occurrence in step b, a fingerprint marker associated with the fingerprint data string representing the occurrence of the characteristic represents biological subsequence.
Het is een voordeel van uitvoeringsvormen dat een biologische sequentie relatief gemakkelijk en efficiënt kan worden verwerkt. Het is een verder voordeel van uitvoeringsvormen van de onderhavige uitvinding dat een biologische sequentie kan worden geanalyseerd op een lexicale of zelfs een semantische manier.It is an advantage of embodiments that a biological sequence can be processed relatively easily and efficiently. It is a further advantage of embodiments of the present invention that a biological sequence can be analyzed in a lexical or even a semantic manner.
Het is een voordeel van uitvoeringsvormen dat de verwerkte biologische sequentie kan worden geconstrueerd door het daarin vervangen van de geïdentificeerde kenmerkende biologische subsequenties door merkers die geassocieerd zijn met de overeenkomstige vingerafdruk-datastrings.It is an advantage of embodiments that the processed biological sequence can be constructed by replacing therein the identified characteristic biological subsequences with markers associated with the corresponding fingerprint data strings.
Het is een voordeel van uitvoeringsvormen dat de gedeelten van de biologische sequentie die niet overeenkomen met één van de kenmerkende biologische subsequenties op verschillende manieren kunnen worden gehanteerd. Het is een verder voordeel van sommige uitvoeringsvormen dat de biologische sequentie op een volledig verliesvrije manier kan worden verwerkt (d.w.z. er gaat geen informatie verloren door verwerking). Het is een verder voordeel van alternatieve uitvoeringsvormen van de onderhavige uitvinding dat de biologische sequentie kan worden verwerkt op een manier waarop de meer belangrijke informatie in een meer gecondenseerd formaat wordt gedistilleerd.It is an advantage of embodiments that the portions of the biological sequence that do not correspond to any of the characteristic biological subsequences can be handled in different ways. It is a further advantage of some embodiments that the biological sequence can be processed in a completely lossless manner (i.e., no information is lost through processing). It is a further advantage of alternative embodiments of the present invention that the biological sequence can be processed in a way that the more important information is distilled into a more condensed format.
Het is een voordeel dat de verwerkte biologische sequenties kunnen worden gecomprimeerd zodat ze minder opslagruimte kunnen innemen dan hun niet- verwerkte tegenhangers.It is an advantage that the processed biological sequences can be compressed so that they take up less storage space than their unprocessed counterparts.
Het is een voordeel van uitvoeringsvormen dat overeenkomstige gedeelten van de biologische sequentie ten opzichte van de kenmerkende biologische subsequenties niet uitsluitend wordt beperkt tot de primaire structuur, maar ook rekening kan houden met de secundaire/tertiaire/quaternaire structuur.It is an advantage of embodiments that corresponding portions of the biological sequence to the characteristic biological subsequences are not limited only to the primary structure, but may also take into account the secondary / tertiary / quaternary structure.
Het is een voordeel van uitvoeringsvormen dat een secundaire/tertiaire/quaternaire structuur van een biologische subsequentie ten minste gedeeltelijk kan worden toegelicht op basis van de bekende secundaire/tertiaire/quaternaire structuur van daarin opgenomen kenmerkende biologische subsequenties. Het is een verder voordeel van uitvoeringsvormen van de onderhavige uitvinding dat ontwerp van biologische sequentie (bv. eiwit) kan worden geholpen of vergemakkelijkt.It is an advantage of embodiments that a secondary / tertiary / quaternary structure of a biological subsequence can be elucidated, at least in part, based on the known secondary / tertiary / quaternary structure of characteristic biological subsequences incorporated therein. It is a further advantage of embodiments of the present invention that biological sequence (e.g., protein) design can be aided or facilitated.
Er is een verwerkte biologische sequentie beschreven die kan worden verkregen door de werkwijze volgens één van de uitvoeringsvormen zoals hierboven beschreven.A processed biological sequence is described which can be obtained by the method according to one of the embodiments as described above.
In een vierde aspect is een werkwijze beschreven voor het opbouwen van een 5 depot van verwerkte biologische sequenties, omvattende het populeren van genoemd depot met verwerkte biologische sequenties zoals gedefinieerd in elke uitvoeringsvorm zoals hierboven beschreven. Het depot kan worden gecombineerd met het depot van vingerafdruk-datastrings.In a fourth aspect, disclosed is a method of building a repository of processed biological sequences, comprising populating said repository of processed biological sequences as defined in each embodiment as described above. The deposit can be combined with the deposit of fingerprint data strings.
Het is een voordeel van uitvoeringsvormen dat een depot van verwerkte biologische sequentie kan worden geconstrueerd en opgeslagen.It is an advantage of embodiments that a repository of processed biological sequence can be constructed and stored.
In een vijfde aspect is een depot van verwerkte biologische sequenties beschreven die kan worden verkregen door de werkwijze volgens elke uitvoeringsvorm van het vierde aspect.Described in a fifth aspect is a deposit of processed biological sequences obtainable by the method according to any embodiment of the fourth aspect.
Het is een voordeel van uitvoeringsvormen dat het depot van verwerkte biologische sequenties snel kan worden doorzocht en genavigeerd. Het is een verder voordeel dat de opslaggrootte van het depot relatief klein kan zijn in vergelijking met de bekende databanken door ze te populeren met gecomprimeerde verwerkte biologische sequenties.It is an advantage of embodiments that the repository of processed biological sequences can be quickly searched and navigated. It is a further advantage that the storage size of the repository can be relatively small compared to the known databases by populating them with compressed processed biological sequences.
In een zesde aspect is een werkwijze beschreven voor het vergelijken van een eerste biologische sequentie met een tweede biologische sequentie, omvattende: (a) het verwerken van de eerste biologische sequentie door de werkwijze volgens elke uitvoeringsvorm van het tweede aspect om een eerste verwerkte biologische sequentie te verkrijgen, of het ophalen van de eerste verwerkte biologische sequentie uit een depot zoals gedefinieerd in elke uitvoeringsvorm van het vijfde aspect, (b) het verwerken van de tweede biologische sequentie door de werkwijze volgens elke uitvoeringsvorm van het tweede aspect om een tweede verwerkte biologische sequentie te verkrijgen, of het ophalen van de tweede verwerkte biologische sequentie uit een depot zoals gedefinieerd in elke bovenstaande uitvoeringsvorm, en (c) het vergelijken van ten minste de vingerafdrukmerkers in de eerste verwerkte biologische sequentie met de vingerafdrukmerkers in de tweede verwerkte biologische sequentie.In a sixth aspect, disclosed is a method of comparing a first biological sequence to a second biological sequence, comprising: (a) processing the first biological sequence by the method according to any embodiment of the second aspect to produce a first processed biological sequence. obtaining, or retrieving the first processed biological sequence from a deposit as defined in any embodiment of the fifth aspect, (b) processing the second biological sequence by the method according to any embodiment of the second aspect to generate a second processed biological sequence. sequence, or retrieving the second processed biological sequence from a deposit as defined in each embodiment above, and (c) comparing at least the fingerprint markers in the first processed biological sequence with the fingerprint markers in the second processed biological sequence.
Het is een voordeel van uitvoeringsvormen van de onderhavige uitvinding dat de vergelijking van biologische sequenties kan worden veranderd van een NP-volledig of NP-hard probleem naar een polynomiale-tijd probleem. Het is een verder voordeel van uitvoeringsvormen dat vergelijking kan worden uitgevoerd in een sterk verminderde tijd en goed schaalbaar is met toenemende complexiteit (bv. toenemende lengte van of aantal biologische sequenties). Het is nog een verder voordeel van uitvoeringsvormen van de onderhavige uitvinding dat het vereiste computervermogen en opslagruimte kunnen worden gereduceerd. Het is een voordeel van uitvoeringsvormen dat een graad van overeenkomst tussen biologische sequenties kan worden berekend. Het is een verder voordeel van uitvoeringsvormen dat een veelheid aan biologische sequenties kan worden gerangschikt op basis van de graad van overeenkomst.It is an advantage of embodiments of the present invention that the comparison of biological sequences can be changed from an NP-complete or NP-hard problem to a polynomial-time problem. It is a further advantage of embodiments that comparison can be performed in a greatly reduced time and scalable well with increasing complexity (e.g., increasing length or number of biological sequences). It is a still further advantage of embodiments of the present invention that the required computing power and storage space can be reduced. It is an advantage of embodiments that a degree of similarity between biological sequences can be calculated. It is a further advantage of embodiments that a variety of biological sequences can be ordered based on the degree of similarity.
Het is een voordeel dat een zoekopdracht naar sequentie-overeenkomst snel en gemakkelijk kan worden uitgevoerd (bv. in polynomiale tijd).It is an advantage that a sequence similarity search can be performed quickly and easily (e.g., in polynomial time).
In een zevende aspect wordt een werkwijze voor het uitlijnen van een eerste biologische sequentie naar een tweede biologische sequentie beschreven, omvattende het uitvoeren van de werkwijze volgens een uitvoeringsvorm zoals hierboven beschreven, waarbij stap c verder het uitlijnen van de vingerafdrukmerkers in de eerste verwerkte biologische sequentie met de vingerafdrukmerkers in de tweede verwerkte biologische sequentie omvat.In a seventh aspect, a method of aligning a first biological sequence to a second biological sequence is described, comprising performing the method according to an embodiment as described above, wherein step c further aligns the fingerprint markers in the first processed biological sequence. with the fingerprint markers in the second processed biological sequence.
Het is een voordeel van uitvoeringsvormen dat vergeleken biologische sequenties gemakkelijk en snel kunnen worden uitgelijnd (bv. in polynomiale tijd).It is an advantage of embodiments that compared biological sequences can be easily and quickly aligned (e.g., in polynomial time).
Het is een voordeel van uitvoeringsvormen dat ook een veelheid aan sequenties gemakkelijk en snel kunnen worden vergeleken en uitgelijnd. Het is een verder voordeel van uitvoeringsvormen dat er geen accumulatie van fouten is tijdens de uitlijning, zoals het geval is bij huidige bekende werkwijzen (bv. op basis van progressieve uitlijning).It is an advantage of embodiments that a plurality of sequences can also be easily and quickly compared and aligned. It is a further advantage of embodiments that there is no accumulation of errors during the alignment, as is the case with currently known methods (e.g., based on progressive alignment).
In een achtste aspect is een werkwijze voor het uitvoeren van een sequentiesamenstelling beschreven, omvattende: (a) het verschaffen van een eerste biologische sequentie, waarbij de eerste biologische sequentie een biologische sequentie van een eerste biopolymeerfragment is, (b) het verschaffen van een tweedebiologische sequentie, waarbij de tweede biologische sequentie ofwel een biologische sequentie van een tweede biopolymeerfragment, ofwel een referentie-biologische sequentie is, (c) het uitlijnen van de eerste biologische sequentie met de tweede biologische sequentie door middel van de werkwijze volgens elke uitvoeringsvorm van het zevende aspect, en (d) het samenvoegen van de eerste biologische sequentie met de tweede biologische sequentie om een samengestelde biologische sequentie te verkrijgen.In an eighth aspect, a method for performing sequence assembly is described, comprising: (a) providing a first biological sequence, wherein the first biological sequence is a biological sequence of a first biopolymer fragment, (b) providing a second biological sequence. sequence, wherein the second biological sequence is either a biological sequence of a second biopolymer fragment or a reference biological sequence, (c) aligning the first biological sequence with the second biological sequence by the method of any embodiment of the seventh aspect, and (d) joining the first biological sequence with the second biological sequence to obtain a composite biological sequence.
Het is een voordeel van uitvoeringsvormen dat sequenties van biopolymeerfragmenten gemakkelijk en snel kunnen worden uitgelijnd en samengevoegd om de originele biopolymeersequentie te reconstrueren.It is an advantage of embodiments that biopolymer fragment sequences can be readily and quickly aligned and assembled to reconstruct the original biopolymer sequence.
In een negende aspect is een systeem beschreven dat middelen omvat voor het uitvoeren van de werkwijze volgens elke uitvoeringsvorm zoals hierboven beschreven.In a ninth aspect, a system is described which includes means for performing the method of each embodiment as described above.
Het is een voordeel van uitvoeringsvormen dat de werkwijzen kunnen worden uitgevoerd door een waaier aan systemen en inrichtingen, zoals computer-gebaseerde systemen of een sequencer, afhankelijk van de toepassing. Het is een verder voordeel van uitvoeringsvormen van de onderhavige uitvinding dat de werkwijzen kunnen worden uitgevoerd door een computer-gebaseerd systeem, inclusief een cloud- gebaseerd systeem.It is an advantage of embodiments that the methods can be performed by a variety of systems and devices, such as computer-based systems or a sequencer, depending on the application. It is a further advantage of embodiments of the present invention that the methods can be performed by a computer-based system, including a cloud-based system.
In een tiende aspect is een computerprogrammaproduct beschreven omvattende instructies die, wanneer het programma wordt uitgevoerd door een computersysteem, het computersysteem aanzet tot het uitvoeren van de werkwijze volgens elke hoger beschreven uitvoeringsvorm.In a tenth aspect, a computer program product is described comprising instructions that, when the program is executed by a computer system, causes the computer system to perform the method according to each embodiment described above.
In een elfde aspect is een computerleesbaar medium beschreven omvattende instructies die, wanneer uitgevoerd door een computersysteem, het computersysteem aanzet tot het uitvoeren van de werkwijze volgens elke hoger beschreven uitvoeringsvorm.In an eleventh aspect, a computer readable medium is described comprising instructions that, when executed by a computer system, cause the computer system to perform the method according to each embodiment described above.
In een twaalfde aspect is een gebruik van een bibliotheek van biologische sequentie-vingerafdrukken zoals gedefinieerd in elke uitvoeringsvorm van het eerste aspect beschreven, voor één of meer gekozen uit: het verwerken van een biologische sequentie, het bouwen van een depot van verwerkte biologische sequenties, het vergelijken van een eerste biologische sequentie met een tweede biologischesequentie, het uitlijnen van een eerste biologische sequentie met een tweede biologische sequentie, het uitvoeren van een meervoudige sequentie-uitlijning, het uitvoeren van een zoekopdracht naar sequentie-overeenkomst en het uitvoeren van een variant-calling.In a twelfth aspect, a use of a biological sequence fingerprint library as defined in any embodiment of the first aspect is described for one or more selected from: processing a biological sequence, building a repository of processed biological sequences, comparing a first biological sequence with a second biological sequence, aligning a first biological sequence with a second biological sequence, performing a multiple sequence alignment, performing a sequence identity search, and performing a variant calling.
In een dertiende aspect is een gebruik van een verwerkte biologische sequentie zoals gedefinieerd in elke bovenstaande uitvoeringsvorm beschreven voor een gebruik van een bibliotheek van verwerkte biologische sequenties zoals gedefinieerd in elke bovenstaande uitvoeringsvorm, voor één of meer gekozen uit: het vergelijken van een eerste biologische sequentie met een tweede biologische sequentie, het uitlijnen van eeneerste biologische sequentie met een tweede biologische sequentie, het uitvoeren van een meervoudige sequentie-uitlijning, het uitvoeren van een zoekopdracht naar sequentie-overeenkomst en het uitvoeren van een variant-calling.In a thirteenth aspect, a use of a processed biological sequence as defined in each embodiment above is described for a use of a library of processed biological sequences as defined in any above embodiment, for one or more selected from: comparing a first biological sequence with a second biological sequence, aligning a first biological sequence with a second biological sequence, performing a multiple sequence alignment, performing a sequence identity search, and performing a variant calling.
Specifieke en te verkiezen aspecten van de uitvinding zijn opgenomen in de bijbehorende onafhankelijke en afhankelijke conclusies. Kenmerken van de afhankelijke conclusies kunnen worden gecombineerd met kenmerken van de onafhankelijke conclusies en met kenmerken van andere afhankelijke conclusies zoals gepast en niet louter zoals expliciet opgenomen in de conclusies.Specific and preferred aspects of the invention are set out in the accompanying independent and dependent claims. Features of the dependent claims may be combined with features of the independent claims and with features of other dependent claims as appropriate and not merely as explicitly included in the claims.
Hoewel er op dit gebied constante verbetering, verandering en evolutie van inrichtingen werd verschaft, worden de onderhavige concepten verondersteld substantiële nieuwe en vernieuwende verbeteringen voor te stellen, inclusief afwijkingen van vorige praktijken, dat resulteert in het verschaffen van meer efficiënte, stabiele en betrouwbare apparaten van deze aard.While constant improvement, change, and evolution of devices has been provided in this field, the present concepts are believed to propose substantial new and innovative improvements, including departures from previous practices, that result in the provision of more efficient, stable and reliable devices of this nature.
De bovenstaande en andere kenmerken, eigenschappen en voordelen van de onderhavige uitvinding worden duidelijk uit de volgende gedetailleerde beschrijving, samen genomen met de bijbehorende tekeningen, die, bij wijze van voorbeeld, de principes van de uitvinding illustreren. Deze beschrijving wordt uitsluitend gegeven als voorbeeld, zonder de doelstelling van de uitvinding te beperken. De hieronder opgegeven referentiefiguren verwijzen naar de bijgevoegde tekeningen.The above and other features, features and advantages of the present invention become apparent from the following detailed description, taken in conjunction with the accompanying drawings, which illustrate, by way of example, the principles of the invention. This description is given by way of example only, without limiting the scope of the invention. The reference figures given below refer to the attached drawings.
Korte beschrijving van de tekeningen Figuren 1 en 2 zijn grafieken die verwachte progressie tonen die mogelijk is gemaakt door uitvoeringsvormen van de onderhavige uitvinding.Brief Description of the Drawings Figures 1 and 2 are graphs showing expected progress made possible by embodiments of the present invention.
Figuren3 tot5 zijn diagrammen die systemen afbeelden volgens uitvoeringsvormen van de onderhavige uitvinding.Figures 3-5 are diagrams depicting systems according to embodiments of the present invention.
Figuren 6 en 9 zijn grafieken die de totale lengte van zoekresultaten vergelijken aan de hand van, enerzijds, een werkwijze uit de voorgaande stand der techniek (stippellijn) en, anderzijds, een werkwijze volgens kenschetsende uitvoeringsvormen van de onderhavige uitvinding (ononderbroken lijn).Figures 6 and 9 are graphs comparing the total length of search results using, on the one hand, a prior art method (dashed line) and, on the other hand, a method according to exemplary embodiments of the present invention (solid line).
Figuren 7 en 10 zijn grafieken die de Levenshtein-afstand van zoekresultaten vergelijken aan de hand van, enerzijds, een werkwijze uit de voorgaande stand der techniek (stippellijn) en, anderzijds, een werkwijze volgens kenschetsende uitvoeringsvormen van de onderhavige uitvinding (ononderbroken lijn).Figures 7 and 10 are graphs comparing Levenshtein distance of search results using, on the one hand, a prior art method (dotted line) and, on the other hand, a method according to exemplary embodiments of the present invention (solid line).
Figuren 8 en 11 zijn grafieken die de langste gezamenlijke substring van zoekresultaten vergelijken aan de hand van, enerzijds, een werkwijze uit de voorgaande stand der techniek (stippellijn) en, anderzijds, een werkwijze volgens kenschetsende uitvoeringsvormen van de onderhavige uitvinding (ononderbroken lijn).Figures 8 and 11 are graphs comparing the longest common substring of search results using, on the one hand, a prior art method (dashed line) and, on the other hand, a method according to exemplary embodiments of the present invention (solid line).
In de verschillende figuren verwijzen dezelfde referentietekens naar dezelfde of analoge elementen.In the different figures, the same reference characters refer to the same or analogous elements.
Beschrijving van illustratieve uitvoeringsvormen De onderhavige uitvinding wordt beschreven met betrekking tot specifieke uitvoeringsvormen en met verwijzing naar bepaalde tekeningen, maar de uitvinding is niet beperkt daartoe maar alleen tot de conclusies. De beschreven tekeningen zijn louter schematisch en niet beperkend. In de tekeningen kan de grootte van sommige van de elementen overdreven zijn en niet op schaal zijn getekend voor illustratieve doeleinden. De dimensies en de relatieve dimensies komen niet overeen met werkelijke reducties voor de praktijk van de uitvinding.Description of Illustrative Embodiments The present invention is described with reference to specific embodiments and with reference to certain drawings, but the invention is not limited thereto, but only by the claims. The drawings described are purely schematic and are not limiting. In the drawings, the size of some of the elements may be exaggerated and not drawn to scale for illustrative purposes. The dimensions and the relative dimensions do not correspond to actual reductions for the practice of the invention.
Verder worden de termen eerste, tweede, derde en dergelijke in de beschrijving en in de conclusies, gebruikt voor het maken van onderscheid tussensoortgelijke elementen en niet noodzakelijk voor het beschrijven van een reeks, hetzij in tijd, ruimte, rangorde of op enige andere wijze. Het is duidelijk dat de aldus gebruikte termen onder gepaste omstandigheden onderling verwisselbaar zijn en dat de hierin beschreven uitvoeringsvormen van de uitvinding kunnen werken in andere volgorden dan hierin beschreven of geïllustreerd.Furthermore, the terms first, second, third, and the like, in the specification and in the claims, are used to distinguish between similar elements and not necessarily to describe a sequence, whether in time, space, order or in any other way. It is understood that the terms so used are interchangeable under appropriate circumstances and that the embodiments of the invention described herein may operate in sequences other than those described or illustrated herein.
Bovendien worden de termen voor, na en dergelijke in de beschrijving en de conclusies gebruikt voor descriptieve doeleinden en niet noodzakelijk voor het beschrijven van relatieve posities. Het is duidelijk dat de aldus gebruikte termen onder gepaste omstandigheden onderling verwisselbaar zijn met hun antoniemen en dat de hierin beschreven uitvoeringsvormen van de uitvinding kunnen werken in andere oriëntaties dan hierin beschreven of geïllustreerd.In addition, the terms before, after, and the like in the specification and claims are used for descriptive purposes and not necessarily for describing relative positions. It is understood that the terms so used are interchangeable with their antonyms under appropriate circumstances, and that the embodiments of the invention described herein may operate in orientations other than those described or illustrated herein.
Het dient vermeld dat de term ‘omvattende’, gebruikt in de conclusies, niet mag worden geïnterpreteerd als zijnde beperkt tot de daarna opgesomde middelen; het sluit geen andere elementen of stappen uit. Het moet dus worden geïnterpreteerd als specificerend voor de aanwezigheid van de vermelde kenmerken, gehele getallen, stappen of componenten waarnaar wordt verwezen, maar sluit de aanwezigheid of toevoeging van één of meer andere kenmerken, gehele getallen, stappen of componenten, of groepen daarvan, niet uit. De term ‘omvattende’ dekt daarom de situatie waarin alleen de genoemde kenmerken aanwezig zijn en de situatie waarin deze kenmerken en één of meer andere kenmerken aanwezig zijn. De bedoeling van de uitdrukking ‘een inrichting omvattende middelen A en B’ mag dus niet worden geïnterpreteerd als zijnde beperkt tot inrichtingen die alleen bestaan uit componenten A en B. Dit betekent dat met betrekking tot de onderhavige uitvinding de enige relevante componenten van de inrichting A en B zijn.It should be noted that the term "comprising", used in the claims, should not be construed as being limited to the means listed below; it does not exclude other elements or steps. Thus, it should be interpreted as specifying the presence of the listed features, integers, steps or components referenced, but does not preclude the presence or addition of one or more other features, integers, steps or components, or groups thereof. from. The term "comprising" therefore covers the situation in which only the mentioned characteristics are present and the situation in which these characteristics and one or more other characteristics are present. Thus, the intent of the expression 'a device comprising means A and B' should not be construed as being limited to devices consisting only of components A and B. This means that with respect to the present invention the only relevant components of the device A and B.
Verwijzing doorheen deze specificatie naar ‘een bepaalde uitvoeringsvorm’ of ‘een uitvoeringsvorm’ betekent dat een specifieke eigenschap, structuur of kenmerk beschreven met betrekking tot de uitvoeringsvorm is opgenomen in ten minste één uitvoeringsvorm van de onderhavige uitvinding. De opnamen van de uitdrukkingen ‘in een bepaalde uitvoeringsvorm’ of ‘in een uitvoeringsvorm’ op diverse plaatsen doorheen deze specificatie verwijzen niet noodzakelijk allemaal naar dezelfde uitvoeringsvormen, maar kunnen dat wel. Verder kunnen de specifieke eigenschappen,Reference throughout this specification to "a particular embodiment" or "an embodiment" means that a specific property, structure or feature described with respect to the embodiment is included in at least one embodiment of the present invention. The incorporations of the phrases "in a particular embodiment" or "in an embodiment" at various places throughout this specification do not necessarily all refer to the same embodiments, but they may. Furthermore, the specific properties,
structuren of kenmerken op elke geschikte manier worden gecombineerd, zoals uit deze openbaring duidelijk is voor eenieder die is onderlegd in het vakgebied, in één of meer uitvoeringsvormen.structures or features can be combined in any suitable manner, as is apparent from this disclosure to one of skill in the art, in one or more embodiments.
Evenzo dient het duidelijk te zijn dat in de beschrijving van de kenschetsende uitvoeringsvormen van de uitvinding diverse kenmerken van de uitvinding soms samen worden gegroepeerd in een enkele uitvoeringsvorm, figuur, of beschrijving daarvan voor het stroomlijnen van de openbaring en helpen bij het verkrijgen van inzicht in één of meer van de diverse aspecten van de uitvinding. Deze openbaringsmethode mag echter niet worden geïnterpreteerd als zijnde een intentie dat de geclaimde uitvinding meer kenmerken vereist dan expliciet vermeld in elke conclusie. In de plaats daarvan liggen, zoals blijkt uit de volgende conclusies, de inventieve aspecten in minder dan alle kenmerken van een enkele daarvoor geopenbaarde uitvoeringsvorm. De conclusies die volgen op de gedetailleerde beschrijving zijn hierdoor dus expliciet opgenomen in deze gedetailleerde beschrijving, waarbij elke conclusie op zichzelf staat als een afzonderlijke uitvoeringsvorm van deze uitvinding.Likewise, it should be understood that in describing the exemplary embodiments of the invention, various features of the invention are sometimes grouped together in a single embodiment, figure, or description thereof to streamline the disclosure and aid in understanding one or more of the various aspects of the invention. However, this disclosure method should not be construed as intending that the claimed invention requires more features than explicitly stated in each claim. Rather, as apparent from the following claims, the inventive aspects reside in less than all of the features of a single previously disclosed embodiment. Thus, the claims following the detailed description are hereby explicitly incorporated into this detailed description, each claim standing by itself as a separate embodiment of the present invention.
Verder zijn, hoewel enkele hierin beschreven uitvoeringsvormen sommige maar geen andere eigenschappen die zijn opgenomen in andere uitvoeringsvormen omvatten, combinaties van eigenschappen van verschillende uitvoeringsvormen bedoeld om binnen de doelstelling van de uitvinding te liggen, en verschillende uitvoeringsvormen vormen, zoals duidelijk is voor de ervaren deskundige. Bijvoorbeeld, in de volgende conclusies kan elke van de geclaimde uitvoeringsvormen in elke combinatie worden gebruikt.Furthermore, while some of the embodiments described herein include some but not other features included in other embodiments, combinations of features of different embodiments are intended to be within the scope of the invention, and constitute different embodiments, as will be apparent to the skilled artisan. . For example, in the following claims, any of the claimed embodiments can be used in any combination.
Verder zijn sommige van de uitvoeringsvormen hierin beschreven als een werkwijze of combinatie van elementen van een werkwijze die kan worden uitgevoerd door een processor van een computersysteem of door andere middelen voor het uitoefenen van de functie. Een processor met de nodige instructies voor het uitvoeren van een dergelijke werkwijze of element van een werkwijze vormt dus een middel voor het uitvoeren van de werkwijze of element van een werkwijze. Verder is een hierin beschreven element van een uitvoeringsvorm van een apparaat een voorbeeld van een middel voor het uitvoeren van de functie die door het element wordt uitgevoerd met als doel het uitvoeren van de uitvinding.Furthermore, some of the embodiments are described herein as a method or combination of elements of a method that can be performed by a processor of a computer system or by other means for performing the function. Thus, a processor with the necessary instructions for performing such a method or element of a method constitutes a means for performing the method or element of a method. Furthermore, an element of an embodiment of a device described herein is an example of a means for performing the function performed by the element for the purpose of carrying out the invention.
In de hierin verschafte beschrijving zijn diverse specifieke details opgenomen. Het dient echter duidelijk te zijn dat uitvoeringsvormen van de uitvinding in de praktijk kunnen worden gebracht zonder deze specifieke details. In andere instanties werden bekende werkwijzen, structuren en technieken niet in detail weergegeven om de duidelijkheid van de beschrijving niet in gevaar te brengen.Various specific details are included in the description provided herein. However, it is to be understood that embodiments of the invention can be practiced without these specific details. In other instances, known methods, structures and techniques have not been detailed in order not to compromise clarity of description.
De volgende termen worden uitsluitend verschaft als hulp voor het begrijpen van de uitvinding.The following terms are provided only as an aid to understanding the invention.
Zoals hierin gebruikt is een biologische sequentie een sequentie van een biopolymeer die ten minste de primaire structuur van het biopolymeer definieert. Het biopolymeer kan, bijvoorbeeld, een deoxyribonucleïnezuur (DNA), ribonucleïnezuur (RNA) of een eiwit zijn. Het biopolymeer is kenmerkend een polymeer van biomonomeren (bv. nucleotiden of aminozuren), maar kan in sommige gevallen verder één of meer synthetische monomeren bevatten.As used herein, a biological sequence is a sequence of a biopolymer that defines at least the primary structure of the biopolymer. The biopolymer can be, for example, a deoxyribonucleic acid (DNA), ribonucleic acid (RNA) or a protein. The biopolymer is typically a polymer of biomonomers (e.g., nucleotides or amino acids), but in some cases may further contain one or more synthetic monomers.
Zoals hierin gebruikt is een ‘eenheid’ in een biologische sequentie een aminozuur wanneer de biologische sequentie betrekking heeft op een eiwit en is een codon wanneer de biologische sequentie betrekking heeft op DNA of RNA.As used herein, a "unit" in a biological sequence is an amino acid when the biological sequence is related to a protein and is a codon when the biological sequence is related to DNA or RNA.
Zoals hierin gebruikt is een biologische subsequentie een gedeelte van een biologische sequentie die kleiner is dan de volledige biologische sequentie. De biologische subsequentie kan, bijvoorbeeld, een totale lengte van 100 eenheden of minder hebben, bij voorkeur 50 of minder, met een nog grotere voorkeur 20 of minder.As used herein, a biological subsequence is a portion of a biological sequence that is less than the full biological sequence. The biological subsequence can be, for example, a total length of 100 units or less, preferably 50 or less, even more preferably 20 or less.
Zoals hierin gebruikt zullen sommige concepten worden geïllustreerd met voorbeelden die betrekking hebben op eiwitten en wordt ervan uit gegaan dat de mogelijke monomere eenheden de 20 canonische (of ‘standaard’) aminozuren zijn. Het is echter duidelijk dat dit louter is om de illustratie te vereenvoudigen en dat gelijkaardige uitvoeringsvormen evenzo kunnen worden geformuleerd met een groter aantal aminozuren (bv. het toevoegen van niet-canonische aminozuren of zelfs synthetische verbindingen), of betrekking hebbende op DNA of RNA. In het geval van DNA of RNA kan een link tussen het DNA of RNA en eiwitten gemakkelijk worden gelegd door de overeenkomst tussen codons en aminozuren.As used herein, some concepts will be illustrated with examples related to proteins and the possible monomeric units are assumed to be the 20 canonical (or "standard") amino acids. However, it is understood that this is purely for simplification of illustration and that similar embodiments may be similarly formulated with a greater number of amino acids (e.g., adding non-canonical amino acids or even synthetic compounds), or involving DNA or RNA. In the case of DNA or RNA, a link between the DNA or RNA and proteins can be easily made by the similarity between codons and amino acids.
Zoals hierin gebruikt verwijst ‘secundair/tertiair/quaternair’ naar ‘secundair en/of tertiair en/of quaternair’.As used herein, "secondary / tertiary / quaternary" refers to "secondary and / or tertiary and / or quaternary".
Er werd in de onderhavige uitvinding verrassend vastgesteld dat, waar voorheen werd aangenomen dat de primaire structuur van een biologische sequentie bestaat uit een in wezen onafhankelijke selectie van eenheden, zodat er bv. m” biologische sequenties met een lengte n gebaseerd op m mogelijke eenheden (bv. 20° op basis van 20 canonische aminozuren), dit in feite niet wordt waargenomen in de natuur.It was surprisingly found in the present invention that, where it was previously believed that the primary structure of a biological sequence consists of an essentially independent selection of units, such that there are e.g. m ”biological sequences of length n based on m possible units ( e.g. 20 ° based on 20 canonical amino acids), this is in fact not observed in nature.
Er werd wel degelijk ontdekt dat vanaf een bepaalde lengte niet elke theoretische combinatie wordt waargenomen.It has indeed been discovered that not every theoretical combination is observed from a certain length.
Om maar één voorbeeld te geven: de eiwit-subsequentie ‘MCMHNQA'’ wordt niet aangetroffen in enig eiwit in de openbare databanken.To give just one example, the protein subsequence "MCMHNQA" is not found in any protein in the public databases.
Er werd gesteld dat dit niet gewoon een hiaat in de databanken is, maar dat deze afwezigheid een fysieke en/of chemische oorsprong heeft.It has been argued that this is not just a gap in the databases, but that this absence has a physical and / or chemical origin.
Zonder gebonden te willen zijn door theorie kan, om maar één mogelijk effect te noemen, de sterische hindering van de naburige aminozuren (bv. ‘MCMHNQ’ in het bovenstaande voorbeeld) verhinderen dat één of meer andere aminozuren (bv. ‘A’ in het bovenstaande voorbeeld) daaraan binden.Without wishing to be bound by theory, just to name one possible effect, the steric hindrance of the neighboring amino acids (e.g. 'MCMHNQ' in the example above) may prevent one or more other amino acids (e.g. 'A' in the above example) to it.
Zo kunnen, eens een afwezige subsequentie werd geïdentificeerd, computerstudies worden gebruikt om te valideren of deze subsequentie mogelijk zou kunnen optreden of dat het bestaan ervan fysiek onmogelijk is (of onwaarschijnlijk, bv. omdat het chemisch onstabiel is). De ‘bepaalde lengte’ waarnaar hierboven werd verwezen hangt af van de dataset die in beschouwing wordt genomen, maar komt bv. overeen met ongeveer 5 of 6 aminozuren voor het openbaar beschikbare eiwitsequentie-databanken (die nagenoeg de totale diversiteit die in de natuur wordt waargenomen reflecteren). Voor een meer beperkte set (bv. een set gefilterd op basis van een specifiek criterium) werd reeds minder dan het theoretischemaximum van m” combinaties gevonden voor een lengte van ongeveer 4 of 5. Tegelijk is, omdat de subsequentie ‘MCMHNQA' niet bestaat, de subsequentie ‘MCMHNQ' niet louter een willekeurige combinatie van 5 aminozuren maar wint steeds meer aan betekenis; dergelijke subsequenties worden verder omschreven als ‘kenmerkende biologische subsequenties’ of ‘vingerafdrukken’. Door de toegevoegde significantie of betekenis van deze vingerafdrukken kan worden gesteld dat de onderhavige uitvinding biologische sequentie informatie op een meer semantische manier hanteert.For example, once an absent subsequence has been identified, computer studies can be used to validate whether this subsequence could potentially occur or whether its existence is physically impossible (or unlikely, eg because it is chemically unstable). The 'particular length' referred to above depends on the dataset under consideration, but corresponds e.g. to about 5 or 6 amino acids for the publicly available protein sequence databases (which represent substantially the total diversity observed in nature. to reflect). For a more limited set (eg a set filtered on the basis of a specific criterion) less than the theoretical maximum of m ”combinations have already been found for a length of approximately 4 or 5. At the same time, because the subsequence 'MCMHNQA' does not exist, the subsequence "MCMHNQ" is not merely a random combination of 5 amino acids but is gaining in significance; such subsequences are further described as "characteristic biological subsequences" or "fingerprints". Due to the added significance or significance of these fingerprints, it can be said that the present invention handles biological sequence information in a more semantic manner.
Over het algemeen wordt een kenmerkende subsequentie gekenmerkt doordat deze voor de eenheid die hier direct op volgt (of voorafgaat)In general, a characteristic subsequence is characterized in that it is for the unit immediately following (or preceding) it
minder mogelijke opties dan het maximumaantal eenheden (bv. minder dan de 20 canonische aminozuren) heeft; met andere woorden, ten minste één van de eenheden kan deze niet opvolgen (of voorafgaan). Het is echter mogelijk om een striktere definitie te selecteren: bv. alleen die subsequenties die 15 eenheden of minder hebben die deze mogelijk kunnen opvolgen, of 10 of minder, 5 of minder, 3, 2 of zelfs 1. Verder kan deze worden gekozen om elke dergelijke subsequentie te beschouwen als een vingerafdruk, of om alleen die subsequenties als vingerafdrukken te beschouwen die al geen andere vingerafdruk omvatten. Bijvoorbeeld: als we ‘'MCMHNQ' nemen als vingerafdruk, zullen er langere subsequenties zijn die MCMHNQ’ omvatten en die ook minder dan het theoretische aantal eenheden hebben die deze kunnen opvolgen (of voorafgaan); in dat geval bestaat de optie om zowel de langere subsequenties als ‘MCMHNQ’ te beschouwen als vingerafdrukken, of om alleen ‘MCMHNQ' te beschouwen als een vingerafdruk.has fewer possible options than the maximum number of units (e.g., less than 20 canonical amino acids); in other words, at least one of the units cannot follow (or precede) them. However, it is possible to select a stricter definition: e.g. only those subsequences which have 15 units or less that could possibly succeed them, or 10 or less, 5 or less, 3, 2 or even 1. Furthermore, it can be chosen to to consider any such subsequence as a fingerprint, or to consider only those subsequences as fingerprints which already do not include another fingerprint. For example, if we fingerprint "MCMHNQ", there will be longer subsequences that include MCMHNQ "that also have less than the theoretical number of units that can follow (or precede) them; in that case, there is the option to treat both the longer subsequences and "MCMHNQ" as fingerprints, or to treat only "MCMHNQ" as a fingerprint.
Er werd vervolgens verrassend vastgesteld dat een beperkte set kenmerkende biologische subsequenties kan worden geïdentificeerd. Verder werd waargenomen dat deze kenmerkende biologische subsequenties een evenwicht vormen tussen, enerzijds, voldoende specifiek zijn zodat niet elke kenmerkende biologische subsequentie wordt aangetroffen in elke biologische sequentie en, anderzijds, voldoende gewoon is zodat de bekende biologische sequenties kenmerkend ten minste één van deze vingerafdrukken omvatten.It was then surprisingly found that a limited set of characteristic biological subsequences can be identified. It was further observed that these characteristic biological subsequences balance, on the one hand, being sufficiently specific that not every characteristic biological subsequence is found in every biological sequence and, on the other hand, sufficiently common that the known biological sequences typically include at least one of these fingerprints. .
Op basis van deze ontdekking kunnen nieuwe benaderingen voor het hanteren van biologische sequentie-informatie, in al zijn moeilijke maar onderling verwante fasen, worden geformuleerd. Deze benaderingen kunnen worden beschouwd als zijnde verwant aan een meer lexicale analyse van de sequenties. Het resultaat is schematisch weergegeven in Fig. 1, dat de complexiteit-schaling van de biologische sequentie- informatie met een toenemend aantal eenheden (n) toont. Deze complexiteit kan het totale aantal mogelijke combinaties van eenheden zijn, maar dat heeft op zijn beurt ook betrekking op het computervermogen (bv. tijd en geheugen) die nodig is voor de hantering ervan (bv. voor het uitvoeren van een gelijkaardige zoekopdracht). De ononderbroken kromme geeft het aantal theoretische combinaties weer waarvan wordt uitgegaan dat alle eenheden onafhankelijk zijn geselecteerd, geschaald als m”,Based on this discovery, new approaches to handling biological sequence information, in all its difficult but interrelated phases, can be formulated. These approaches can be considered related to a more lexical analysis of the sequences. The result is shown schematically in Fig. 1 showing the complexity scaling of the biological sequence information with increasing number of units (n). This complexity can be the total number of possible combinations of units, but that in turn also relates to the computing power (e.g. time and memory) required to handle it (e.g. to perform a similar search). The solid curve represents the number of theoretical combinations assuming all units are independently selected, scaled as m ”,
wat ook overeenkomt met de schaling van de momenteel bekende algoritmes. De streepjeskromme toont het aantal actuele combinaties die in de natuur worden aangetroffen (zoals waargenomen in de onderhavige uitvinding), waar de kromme van m” afwijkt met ongeveer 5 of 6 eenheden en asymptotisch afvlakt voor hoge n. De stippellijn toont het aantal sequenties die voor de eerste keer overeenkomen met een kenmerkende sequentie waarvoor het aantal eenheden dat kan volgen gelijk is aan 1; hier betekent ‘voor de eerste keer’ dat langere sequenties nooit meetelden als ze een reeds getelde vingerafdruk omvatten. Dit laatste komt dus overeen met het aantal vingerafdrukken met lengte n (zoals waargenomen in de onderhavige uitvinding), wanneer de definitie daarvan is gekozen als een subsequentie die slechts 1 eenheid heeft die deze mogelijk kan opvolgen en die reeds geen andere (kortere) vingerafdruk omvat (zie hoger).which also corresponds to the scaling of currently known algorithms. The dash curve shows the number of actual combinations found in nature (as observed in the present invention), where the curve deviates from m ”by about 5 or 6 units and flattens out asymptotically for high n. The dotted line shows the number of sequences that first correspond to a typical sequence for which the number of units that can follow is 1; here, "for the first time" means that longer sequences never counted if they included an already counted fingerprint. The latter thus corresponds to the number of fingerprints of length n (as observed in the present invention), when its definition is chosen as a subsequence that has only 1 unit that it can possibly follow and which already does not include another (shorter) fingerprint (see above).
Fig. 2 toont de voorspelde voordelen van de onderhavige uitvinding in tijd, waar de markering op de onderste as de huidige dag weergeeft. Kromme 1 toont de wet van Moore als referentie. Kromme 2 toont de totale hoeveelheid verworven sequentiegegevens. Kromme 3 toont de totale kost van het verwerken en behouden van genoemde sequentiegegevens. Bij het hanteren van biologische sequentie- informatie, zoals voorgesteld in de onderhavige uitvinding, verwacht men dat de totale vereiste opslag voor sequentiegegevens en de totale kostprijs van gegevensverwerking en behoud dalen zoals weergegeven in de krommen 4 en 5, respectievelijk.FIG. 2 shows the predicted benefits of the present invention over time, where the marker on the lower axis represents the current day. Curve 1 shows Moore's law as a reference. Curve 2 shows the total amount of sequence data acquired. Curve 3 shows the total cost of processing and maintaining said sequence data. In handling biological sequence information, as proposed in the present invention, the total required storage for sequence data and the total cost of data processing and maintenance are expected to decrease as shown in curves 4 and 5, respectively.
In een eerste aspect heeft de onderhavige uitvinding betrekking op een depot van vingerafdruk-datastrings, waarbij elke vingerafdruk-datastring een kenmerkende biologische subsequentie voorstelt, het depot omvattende ten minste een eerste vingerafdruk-datastring die een eerste kenmerkende biologische subsequentie van een eerste lengte voorstelt en een tweede vingerafdruk-datastring die een tweede kenmerkende biologische subsequentie van een tweede lengte voorstelt, waarbij de eerste en de tweede lengte gelijk zijn aan 4 of meer en waarbij de eerste en de tweede lengte van elkaar verschillen. Een depot (bv. databank) van vingerafdruk- datastrings 100 is schematisch weergegeven in Fig. 3, dat meer in detail wordt besproken onder het tweede en vierde aspect.In a first aspect, the present invention relates to a deposit of fingerprint data strings, each fingerprint data string representing a characteristic biological subsequence, the deposit comprising at least a first fingerprint data string representing a first characteristic biological subsequence of a first length and a second fingerprint data string representing a second characteristic biological subsequence of a second length, wherein the first and second lengths are equal to 4 or more and the first and second lengths are different from each other. A deposit (e.g., database) of fingerprint data strings 100 is schematically shown in FIG. 3, which is discussed in more detail under the second and fourth aspects.
In uitvoeringsvormen kan de lengte overeenkomen met het aantal eenheden. In uitvoeringsvormen kan de lengte tot 100 of minder, bij voorkeur 50 of minder, met een grotere voorkeur 20 of minder zijn. In uitvoeringsvormen kunnen de eerste en de tweede lengte gelijk zijn aan 5 of meer, bij voorkeur 6 of meer. In uitvoeringsvormen kunnen de eerste en tweede kenmerkende biologische subsequenties een lengte hebben tussen 4 en 20, bij voorkeur tussen 5 en 15, met een grotere voorkeur tussen 6 en 12. In uitvoeringsvormen kan het depot van vingerafdruk-datastrings ten minste 3 vingerafdruk-datastrings omvatten die in lengte van elkaar verschillen, bij voorkeur ten minste 4, met een grotere voorkeur ten minste 5, met de meeste voorkeur ten minste 6. Doordat de kenmerkende biologische subsequenties niet gedefinieerd zijn door hun lengte, maar door het aantal mogelijke eenheden die volgen (of er aan vooraf gaan), omvat een set kenmerkende biologische subsequenties op voordelige wijze subsequenties van variërende lengtes. Het depot van vingerafdruk-datastrings in de onderhavige uitvinding verschilt van bv. een verzameling k-meren (zoals bekend in het vakgebied) doordat deze biologische subsequenties van variërende lengtes omvat. Verder omvat een verzameling k-meren kenmerkend elke permutatie (d.w.z. elke mogelijke combinatie van eenheden) van lengte k; dit is niet het geval voor het onderhavige depot van vingerafdruk-datastrings.In embodiments, the length can correspond to the number of units. In embodiments, the length can be up to 100 or less, preferably 50 or less, more preferably 20 or less. In embodiments, the first and second length can be 5 or more, preferably 6 or more. In embodiments, the first and second characteristic biological subsequences can be between 4 and 20 in length, preferably between 5 and 15, more preferably between 6 and 12. In embodiments, the fingerprint data strings deposit may comprise at least 3 fingerprint data strings. which differ in length, preferably at least 4, more preferably at least 5, most preferably at least 6. Because the characteristic biological subsequences are not defined by their length, but by the number of possible units that follow ( or precedes it), a set of characteristic biological subsequences advantageously comprises subsequences of varying lengths. The deposit of fingerprint data strings in the present invention differs from, e.g., a collection of k-mers (as known in the art) in that it includes biological subsequences of varying lengths. Furthermore, a set of k-mers typically includes any permutation (i.e., any possible combination of units) of length k; this is not the case for the present deposit of fingerprint data strings.
In uitvoeringsvormen kunnen de vingerafdruk-datastrings eiwit-vingerafdruk- datastrings, DNA-vingerafdruk-datastrings of RNA-vingerafdruk-datastrings zijn. In uitvoeringsvormen kunnen de kenmerkende biologische subsequentie een kenmerkende eiwit-subsequentie, een kenmerkende DNA-subsequentie of eenkenmerkende RNA-subsequentie zijn. In uitvoeringsvormen kan het depot van vingerafdruk-datastrings eiwit-vingerafdruk-datastrings, DNA-vingerafdruk- datastrings, RNA-vingerafdruk-datastrings of een combinatie van één of meer hiervan omvatten (bv. bestaan uit). Een kenmerkende eiwit-subsequentie kan in uitvoeringsvormen worden getranslateerd in een kenmerkende DNA- of RNA- subsequentie, en vice versa. Deze translatie kan gebaseerd zijn op de welbekende DNA- en RNA-codontabellen. Evenzo kan een eiwit-vingerafdruk-datastring worden getranslateerd in een DNA- of RNA-vingerafdruk-datastring. In uitvoeringsvormen kaneen depot van DNA- of RNA-vingerafdruk-datastrings informatie omvatten over equivalente codons (d.w.z. codons die coderen voor hetzelfde aminozuur). Deze informatie over equivalente codons kan als dusdanig worden opgenomen in de vingerafdruk-datastring, of afzonderlijk daarvan opgeslagen in het depot.In embodiments, the fingerprint data strings can be protein fingerprint data strings, DNA fingerprint data strings, or RNA fingerprint data strings. In embodiments, the characteristic biological subsequence may be a characteristic protein subsequence, characteristic DNA subsequence, or characteristic RNA subsequence. In embodiments, the fingerprint data strings deposit may comprise protein fingerprint data strings, DNA fingerprint data strings, RNA fingerprint data strings, or a combination of one or more of these (e.g., consist of). In embodiments, a typical protein subsequence can be translated into a typical DNA or RNA subsequence, and vice versa. This translation can be based on the well-known DNA and RNA codon tables. Likewise, a protein fingerprint data string can be translated into a DNA or RNA fingerprint data string. In embodiments, a deposit of DNA or RNA fingerprint data strings may include information about equivalent codons (i.e., codons encoding the same amino acid). This information about equivalent codons can be included as such in the fingerprint data string, or stored separately from it in the repository.
In uitvoeringsvormen kan het depot van vingerafdruk-datastrings verder additionele gegevens voor ten minste één van de vingerafdruk-datastrings omvatten. In voorkeursuitvoeringsvormen kunnen genoemde gegevens opgenomen zijn in de vingerafdruk-datastring. In alternatieve uitvoeringsvormen kunnen genoemde gegevens afzonderlijk van de vingerafdruk-datastrings opgeslagen zijn.In embodiments, the fingerprint data string repository may further include additional data for at least one of the fingerprint data strings. In preferred embodiments, said data may be included in the fingerprint data string. In alternative embodiments, said data may be stored separately from the fingerprint data strings.
In uitvoeringsvormen kunnen de additionele gegevens gegevens omvatten die betrekking hebben op één of meer eenheden die direct vóór of na de kenmerkende biologische subsequentie kunnen voorkomen (bv. die realistisch kunnen voorkomen, zoals die combinaties die stabiel zijn) wanneer genoemde kenmerkende biologische subsequentie aanwezig is in een biologische sequentie. In uitvoeringsvormen kunnen de gegevens die betrekking hebben op de één of meer eenheden het aantal mogelijke eenheden, de mogelijke eenheden al dusdanig, de kans (bv. waarschijnlijkheid) op elke eenheid, enz. omvatten.In embodiments, the additional data may include data relating to one or more units that may occur immediately before or after the characteristic biological subsequence (e.g., that can realistically occur, such as those combinations that are stable) when said characteristic biological subsequence is present in a biological sequence. In embodiments, the data relating to the one or more units may include the number of possible units, the possible units all such, the probability (e.g., probability) of each unit, etc.
In uitvoeringsvormen kunnen de additionele gegevens gegevens omvatten die betrekking hebben op een secundaire/tertiaire/quaternaire structuur van de kenmerkende biologische subsequentie wanneer genoemde kenmerkende biologische subsequentie aanwezig is in een biopolymeer. In uitvoeringsvormen kunnen de gegevens met betrekking tot de secundaire (of tertiaire/quaternaire) structuur het aantal mogelijke structuren, de mogelijke structuren als dusdanig, de kans (bv. waarschijnlijkheid) op elke structuur, enz. omvatten. In het geval van meerdere mogelijke secundaire/tertiaire/quaternaire structuren voor een bepaalde kenmerkende biologische subsequentie kan het depot in uitvoeringsvormen een afzonderlijke invoer voor elke combinatie van de kenmerkende biologische subsequentie en een geassocieerde secundaire/tertiaire/quaternaire structuur omvatten. In alternatieve uitvoeringsvormen kan het depot één invoer omvattende de kenmerkende biologische subsequentie en een veelheid aan zijn geassocieerde secundaire/tertiaire/quaternaire structuren omvatten. In uitvoeringsvormen, kan desecundaire/tertiaire/quaternaire structuur meer relevant zijn voor eiwitten dan voor DNA en RNA.In embodiments, the additional data may include data pertaining to a secondary / tertiary / quaternary structure of the characteristic biological subsequence when said characteristic biological subsequence is present in a biopolymer. In embodiments, the data related to the secondary (or tertiary / quaternary) structure may include the number of possible structures, the possible structures as such, the probability (e.g., probability) of each structure, etc. In the case of multiple possible secondary / tertiary / quaternary structures for a particular characteristic biological subsequence, the deposit may, in embodiments, comprise a separate entry for each combination of the characteristic biological subsequence and an associated secondary / tertiary / quaternary structure. In alternative embodiments, the deposit may comprise one entry comprising the characteristic biological subsequence and a plurality of its associated secondary / tertiary / quaternary structures. In embodiments, the secondary / tertiary / quaternary structure may be more relevant to proteins than to DNA and RNA.
In uitvoeringsvormen kunnen de additionele gegevens gegevens omvatten die betrekking hebben op een verhouding tussen de kenmerkende biologische subsequentie en één of meer verder kenmerkende biologische subsequenties. In uitvoeringsvormen kunnen de gegevens die betrekking hebben op een verhouding tussen de kenmerkende biologische subsequentie verdere kenmerkende biologische subsequenties omvatten die gezamenlijk in de buurt daarvan voorkomen, de kans dat de verdere kenmerkende biologische subsequentie voorkomt in de nabijheid ervan, een specifieke significantie (bv. een biologisch relevante betekenis, zoals een kenmerk of een secundaire/tertiaire/quaternaire structuur) van deze kenmerkende biologische subsequenties die dicht bij elkaar optreden, enz. In uitvoeringsvormen kan de verhouding worden uitgedrukt in de vorm van een route tussen twee of meer kenmerkende biologische subsequenties en kunnen de volgorde van de kenmerkende biologische subsequenties, hun onderlinge afstand, enz. bevatten. In uitvoeringsvormen kunnen de additionele gegevens ook metagegevens omvatten die geschikt zijn voor het bouwen van genoemde routes. In sommige uitvoeringsvormen kunnen de additionele gegevens opgehaald zijn uit een bekende dataset; bv. de secundaire/tertiaire/quaternaire structuur van diverse biologische sequenties is beschikbaar in het vakgebied. In andere uitvoeringsvormen kunnen de additionele gegevens onttrokken zijn uit een verwerkte biologische sequentie zoals gedefinieerd in elke uitvoeringsvorm van het derde aspect of uit een depot van verwerkte biologische sequenties zoals gedefinieerd in elke uitvoeringsvorm van het vijfde aspect. Bijvoorbeeld, na het verwerken van een biologische sequentie volgens elke uitvoeringsvorm van het tweede aspect (of het bouwen van een depot van verwerkte biologische sequenties volgens elke uitvoeringsvorm van het vierde aspect) kunnen verhoudingen tussen de kenmerkende biologische subsequenties (bv. routes) worden onttrokken uit en toegevoegd aan een depot van vingerafdruk- datastrings van het onderhavige aspect; dit is schematisch afgebeeld in Fig. 3 door de gestreepte pijlen die wijzen van de verwerkte biologische sequentie 210 en het depotvan verwerkte biologische sequenties 220 naar het depot van vingerafdruk- datastrings 100. In een tweede aspect is een werkwijze voor het verwerken van een biologische sequentie beschreven, omvattende: (a) het ophalen van één of meer vingerafdruk- datastrings uit het depot zoals gedefinieerd in elke uitvoeringsvorm van het eerste aspect, (b) het zoeken in de biologische sequentie naar het voorkomen van de kenmerkende biologische subsequenties voorgesteld door de één of meer vingerafdruk-datastrings, en (c) het construeren van een verwerkte biologische sequentie omvattende, voor elk voorkomen in stap b, een vingerafdrukmerker geassocieerd met de vingerafdruk-datastring die het voorkomen van de kenmerkende biologische subsequentie voorstelt. Fig. 3 toont schematisch een sequentie- verwerkingseenheid 310 die een biologische sequentie 200 verwerkt met behulp van een depot van vingerafdruk-datastrings 100, waardoor een verwerkte biologische sequentie 210 wordt verkregen.In embodiments, the additional data may include data related to a ratio between the characteristic biological subsequence and one or more further characteristic biological subsequences. In embodiments, the data relating to a relationship between the characteristic biological subsequence may include further characteristic biological subsequences co-occurring in proximity thereof, the probability of the further characteristic biological subsequence occurring in its vicinity, a specific significance (e.g., a biologically relevant meaning, such as a feature or a secondary / tertiary / quaternary structure) of these characteristic biological subsequences occurring in close proximity, etc. In embodiments, the relationship may be expressed in the form of a pathway between two or more characteristic biological subsequences and may include the sequence of the characteristic biological subsequences, their spacing, etc. In embodiments, the additional data may also include metadata suitable for building said routes. In some embodiments, the additional data may be retrieved from a known data set; e.g., the secondary / tertiary / quaternary structure of various biological sequences is available in the art. In other embodiments, the additional data may be extracted from a processed biological sequence as defined in any embodiment of the third aspect or from a repository of processed biological sequences as defined in any embodiment of the fifth aspect. For example, after processing a biological sequence according to any embodiment of the second aspect (or building a repository of processed biological sequences according to any embodiment of the fourth aspect), relationships between the characteristic biological subsequences (e.g., pathways) can be extracted from and added to a repository of fingerprint data strings of the present aspect; this is shown schematically in fig. 3 by the dashed arrows pointing from the processed biological sequence 210 and the repository of processed biological sequences 220 to the repository of fingerprint data strings 100. In a second aspect, a method for processing a biological sequence is described, comprising: (a) retrieving one or more fingerprint data strings from the deposit as defined in any embodiment of the first aspect, (b) searching the biological sequence for the occurrence of the characteristic biological subsequences represented by the one or more fingerprint data strings, and (c) constructing a processed biological sequence comprising, for each occurrence in step b, a fingerprint marker associated with the fingerprint data string representing the occurrence of the characteristic biological subsequence. FIG. 3 schematically shows a sequence processing unit 310 that processes a biological sequence 200 using a deposit of fingerprint data strings 100, thereby obtaining a processed biological sequence 210.
In sommige uitvoeringsvormen kan de merker een referentiestring zijn. Een dergelijke referentiestring kan, bijvoorbeeld, wijzen naar de overeenkomstige vingerafdruk-datastring in het depot. In andere uitvoeringsvormen kan de merker de vingerafdruk-datastring als dusdanig, of een gedeelte daarvan, zijn.In some embodiments, the marker can be a reference string. Such a reference string may point, for example, to the corresponding fingerprint data string in the deposit. In other embodiments, the tag may be the fingerprint data string as such, or a portion thereof.
In uitvoeringsvormen kan de biologische sequentie omvatten: (i) één of meer eerste gedeelten, waarbij elk eerste gedeelte overeenkomt met één van de kenmerkende biologische subsequenties voorgesteld door de één of meer vingerafdruk-datastrings, en (ii) één of meer tweede gedeelten, waarbij elk tweede gedeelte niet overeenkomt met elke van de kenmerkende biologische subsequenties voorgesteld door de één of meer vingerafdruk-datastrings. In uitvoeringsvormen, kan het construeren van de verwerkte biologische sequentie in stap c het vervangen van ten minste één eerste gedeelte door de overeenkomstige merker omvatten. In uitvoeringsvormen kan het construeren van de verwerkte biologische sequentie in stap c verder het toevoegen van positionele informatie over genoemd eerste gedeelte aan de verwerkte biologische sequentie (bv. bijgevoegd bij de merker) omvatten. In uitvoeringsvormen kan het construeren van de verwerkte biologische sequentie in stap c het ten minste één tweede gedeelte onveranderd laten, en/of het vervangenvan ten minste één tweede gedeelte door een indicatie van de lengte van genoemd tweede gedeelte, en of het volledig verwijderen van ten minste één tweede gedeelte omvatten. Bij het onveranderd laten van de tweede gedeelten is de biologische sequentie in staat om te worden verwerkt op een volledig verliesloze manier.In embodiments, the biological sequence may comprise: (i) one or more first portions, each first portion corresponding to one of the characteristic biological subsequences represented by the one or more fingerprint data strings, and (ii) one or more second portions, wherein any second portion does not match any of the characteristic biological subsequences represented by the one or more fingerprint data strings. In embodiments, constructing the processed biological sequence in step c may include replacing at least one first portion with the corresponding tag. In embodiments, constructing the processed biological sequence in step c may further comprise adding positional information about said first portion to the processed biological sequence (e.g., appended to the tag). In embodiments, constructing the processed biological sequence in step c may leave at least one second portion unchanged, and / or replace at least one second portion with an indication of the length of said second portion, and or completely remove at least one second portion. comprise at least one second portion. Leaving the second portions unchanged, the biological sequence is capable of being processed in a completely lossless manner.
In uitvoeringsvormen kan de verwerkte biologische sequentie worden geformuleerd in een gecondenseerd formaat. Bijvoorbeeld, door het vervangen van de kenmerkende biologische subsequenties (d.w.z. eerste gedeelten) door referentiestrings en/of door het vervangen van de tweede gedeelten met ofwel een indicatie van de lengte ervan, ofwel volledige verwijdering ervan, wordt een verwerkte biologische sequentie verkregen die minder opslagruimte vereist dan de oorspronkelijke (d.w.z. onverwerkte) biologische sequentie. Er kan additionele gegevenscompressie worden verkregen door gebruik te maken van routes die meerdere vingerafdrukken kunnen voorstellen door hun onderlinge relatie.In embodiments, the processed biological sequence can be formulated in a condensed format. For example, by replacing the characteristic biological subsequences (i.e., first portions) with reference strings and / or by replacing the second portions with either an indication of their length or complete deletion, a processed biological sequence is obtained with less storage space. then requires the original (ie unprocessed) biological sequence. Additional data compression can be achieved using routes that can represent multiple fingerprints due to their interrelationship.
In uitvoeringsvormen kunnen de één of meer vingerafdruk-datastrings in een ander biologisch formaat zijn dan de biologische sequenties (bv. eiwit- vs DNA- vs RNA- sequentie-informatie) en kan stap b verder het translateren of transcriberen van de kenmerkende biologische subsequenties voorafgaand aan de zoekopdracht omvatten.In embodiments, the one or more fingerprint data strings may be in a different biological format from the biological sequences (e.g., protein vs DNA vs RNA sequence information) and step b may further translate or transcribe the characteristic biological subsequences. to include the search.
In uitvoeringsvormen kan de zoekopdracht in stap b het zoeken naar een specifieke overeenkomst of een equivalente overeenkomst (bv. een equivalent codon, of een verschillend aminozuur dat resulteert in dezelfde secundaire/tertiaire/quaternaire structuur) bevatten. In uitvoeringsvormen kan de zoekopdracht in stap b rekening houden met een secundaire/tertiaire/quaternaire structuur van de kenmerkende biologische subsequentie. De secundaire, tertiaire en quaternaire zijn kenmerkend meer evolutionair bewaard en er treedt vaak variatie in de primaire structuur op die de functie van het biopolymeer niet verandert, bv. omdat de secundaire/tertiaire/quaternaire structuur van de actieve plaatsen ervan nagenoeg bewaard is. De secundaire/tertiaire/quaternaire structuur kan daarom relevante informatie onthullen over het biopolymeer die verloren zou gaan wanneer uitsluitend naar een volledig overeenkomende primaire structuur zou worden gezocht.In embodiments, the search in step b may include searching for a specific match or an equivalent match (e.g., an equivalent codon, or a different amino acid resulting in the same secondary / tertiary / quaternary structure). In embodiments, the search in step b may take into account a secondary / tertiary / quaternary structure of the characteristic biological subsequence. The secondary, tertiary and quaternary are typically more evolutionarily preserved and there often occurs variation in the primary structure that does not alter the function of the biopolymer, e.g., because the secondary / tertiary / quaternary structure of its active sites is substantially preserved. The secondary / tertiary / quaternary structure can therefore reveal relevant information about the biopolymer that would be lost if only a fully matched primary structure were searched.
In uitvoeringsvormen kan de werkwijze een verdere stap d, na stap c, omvatten van het ten minste gedeeltelijk afleiden van secundaire/tertiaire/quaternaire structuurvan de verwerkte biologische subsequentie op basis van de gegevens die betrekking hebben op de secundaire/tertiaire/quaternaire structuur zoals gedefinieerd in uitvoeringsvormen van het eerste aspect. Deze ten minste gedeeltelijke verklaring van de secundaire/tertiaire/quaternaire structuur kan het ontwerp van de biologische sequentie helpen en/of vergemakkelijken. In uitvoeringsvormen waarin een enkele primaire structuur van een kenmerkende biologische subsequentie is gelinkt aan een veelheid aan secundaire of tertiaire of quaternaire structuren, kan de secundaire/tertiaire/quaternaire structuur gedesambigueerd zijn op basis van de context waarin de kenmerkende biologische subsequentie is aangetroffen, zoals de kenmerkende biologische subsequenties waardoor deze is omgeven. De informatie die nodig is voor een dergelijke desambiguatie kan, bijvoorbeeld, worden gevonden in het depot van vingerafdruk-datastrings in de vorm van gegevens die verband houden met een verhouding in de termen secundaire/tertiaire/quaternaire structuur van tussen de kenmerkende biologische subsequentie en één of meer verdere kenmerkende biologische subsequenties, zoals gedefinieerd in uitvoeringsvormen van het eerste aspect.In embodiments, the method may include a further step d, after step c, of at least partially deriving secondary / tertiary / quaternary structure from the processed biological subsequence based on the data pertaining to the secondary / tertiary / quaternary structure as defined. in embodiments of the first aspect. This at least partial explanation of the secondary / tertiary / quaternary structure can aid and / or facilitate the design of the biological sequence. In embodiments where a single primary structure of a characteristic biological subsequence is linked to a plurality of secondary or tertiary or quaternary structures, the secondary / tertiary / quaternary structure may be disambiguated based on the context in which the characteristic biological subsequence is found, such as the characteristic biological subsequences surrounding it. The information required for such a disambiguation can be found, for example, in the deposit of fingerprint data strings in the form of data related to a ratio in the terms secondary / tertiary / quaternary structure of between the characteristic biological subsequence and one or more further characteristic biological subsequences as defined in embodiments of the first aspect.
In een derde aspect is een verwerkte biologische sequentie beschreven, die kan worden verkregen door de werkwijze volgens elke uitvoeringsvorm van het tweede aspect. Een verwerkte biologische sequentie 210 is schematisch afgebeeld in Fig. 3.In a third aspect, a processed biological sequence is described, obtainable by the method of any embodiment of the second aspect. A processed biological sequence 210 is schematically depicted in FIG. 3.
In een vierde aspect is een werkwijze beschreven voor het bouwen van een depot van verwerkte biologische sequenties, omvattende het populeren van genoemd depot met verwerkte biologische sequenties zoals gedefinieerd in elke uitvoeringsvorm van het derde aspect. Fig. 3 toont schematisch een depot- opbouweenheid 320 die een verwerkte biologische sequentie 210 opslaat in een depot van verwerkte biologische sequenties 220.In a fourth aspect, a method is described for building a repository of processed biological sequences, comprising populating said repository of processed biological sequences as defined in any embodiment of the third aspect. FIG. 3 schematically shows a depot builder unit 320 that stores a processed biological sequence 210 in a repository of processed biological sequences 220.
In een vijfde aspect is een depot van verwerkte biologische sequenties beschreven die kan worden verkregen door de werkwijze volgens elke uitvoeringsvorm van het vierde aspect. Een depot van 220 is schematisch afgebeeld in Fig. 3. Een dergelijk depot kan worden gecombineerd met het depot van vingerafdruk-datastrings zoals beschreven in het eerste aspect.Described in a fifth aspect is a deposit of processed biological sequences obtainable by the method according to any embodiment of the fourth aspect. A depot of 220 is schematically depicted in Fig. 3. Such a deposit can be combined with the deposit of fingerprint data strings as described in the first aspect.
In uitvoeringsvormen kan het depot een databank zijn. In sommige uitvoeringsvormen kan het depot van verwerkte biologische sequenties een geïndexeerd depot zijn. Het depot kan, bijvoorbeeld, geïndexeerd zijn op basis van de vingerafdrukmerkers (overeenkomstig met de kenmerkende biologische subsequenties) die aanwezig zijn in elke verwerkte biologische sequentie. In andere uitvoeringsvormen kan het depot een grafiekdepot zijn.In embodiments, the deposit can be a database. In some embodiments, the repository of processed biological sequences may be an indexed repository. For example, the deposit may be indexed based on the fingerprint markers (corresponding to the characteristic biological subsequences) contained in each processed biological sequence. In other embodiments, the repository may be a graphics repository.
In een zesde aspect is een werkwijze beschreven voor het vergelijken van een eerste biologische sequentie met een tweede biologische sequentie, omvattende: (a) het verwerken van de eerste biologische sequentie door de werkwijze volgens elke uitvoeringsvorm van het tweede aspect om een eerste verwerkte biologische sequentie te verkrijgen, of het ophalen van de eerste verwerkte biologische sequentie uit een depot zoals gedefinieerd in elke uitvoeringsvorm van het vijfde aspect, (b) het verwerken van de tweede biologische sequentie door de werkwijze volgens elke uitvoeringsvorm van het tweede aspect om een tweede verwerkte biologische sequentie te verkrijgen, of het ophalen van de tweede verwerkte biologische sequentie uit een depot zoals gedefinieerd in elke uitvoeringsvorm van het vijfde aspect, en (c) het vergelijken van ten minste de vingerafdrukmerkers in de eerste verwerkte biologische sequentie met de vingerafdrukmerkers in de tweede verwerkte biologische sequentie. Fig. 4 toont schematisch een vergelijkingseenheid 330 die ten minste een eerste biologische sequentie 211 en een tweede biologische sequentie 212 vergelijkt met uitgevoerde resultaten 400.In a sixth aspect, disclosed is a method of comparing a first biological sequence to a second biological sequence, comprising: (a) processing the first biological sequence by the method according to any embodiment of the second aspect to produce a first processed biological sequence. obtaining, or retrieving the first processed biological sequence from a deposit as defined in any embodiment of the fifth aspect, (b) processing the second biological sequence by the method according to any embodiment of the second aspect to generate a second processed biological sequence. sequence, or retrieving the second processed biological sequence from a repository as defined in each embodiment of the fifth aspect, and (c) comparing at least the fingerprint markers in the first processed biological sequence with the fingerprint markers in the second processed biological sequence. biological sequence. FIG. 4 schematically shows a comparison unit 330 comparing at least a first biological sequence 211 and a second biological sequence 212 with output results 400.
Door gebruik te maken van kenmerkende biologische subsequenties van de onderhavige uitvinding (door de vingerafdrukmerkers in de verwerkte biologische sequenties), wordt het probleem van het vergelijken van sequenties op voordelige wijze geherformuleerd van een NP-volledig of NP-hard probleem naar een polynomiale-tijd probleem. Het identificeren van de vingerafdrukken in een sequentie en het vervolgens vergelijken van sequenties op basis van deze vingerafdrukken, dat kan worden beschouwd als een lexicale benadering, is met gebruik van een computer veel eenvoudiger dan de momenteel gebruikte algoritmes (die bv. volledige sequenties vergelijken op basis van een benadering met schuivende vensters). Daardoor kan de vergelijking merkelijk sneller worden uitgevoerd en schaalt goed met toenemendecomplexiteit (bv. toenemende lengte van of aantal biologische sequenties}, zelfs terwijl minder computervermogen en opslagruimte is vereist.Using characteristic biological subsequences of the present invention (through the fingerprint markers in the processed biological sequences), the problem of comparing sequences is advantageously reformulated from an NP complete or NP hard problem to a polynomial time. issue. Identifying the fingerprints in a sequence and then comparing sequences based on these fingerprints, which can be considered a lexical approach, is much easier using a computer than the currently used algorithms (comparing e.g. complete sequences by based on a sliding window approach). Therefore, the comparison can be performed noticeably faster and scales well with increasing complexity (eg, increasing length or number of biological sequences}, even while less computing power and storage space is required.
In uitvoeringsvormen kan stap c het identificeren bevatten of één of meer kenmerkende biologische subsequenties (voorgesteld door de vingerafdrukmerkers) in de eerste verwerkte biologische sequentie overeenkomen (bv. matchen) met één of meer kenmerkende biologische subsequenties (voorgesteld door de vingerafdrukmerkers) in de tweede verwerkte biologische sequentie. In uitvoeringsvormen kan stapc het identificeren omvatten of de overeenkomstige kenmerkende biologische subsequenties optreden in dezelfde volgorde in de eerste verwerkte biologische sequentie als in de tweede verwerkte biologische sequentie. In uitvoeringsvormen kan stapc het identificeren omvatten of één of meer paren kenmerkende biologische subsequenties in de eerste verwerkte biologische sequentie en één of meer overeenkomstige paren kenmerkende biologische subsequenties in de tweede verwerkte biologische sequentie eenzelfde of gelijkaardige (bv. verschillend met meer dan 100 eenheden, bij voorkeur minder dan 50 eenheden, met een grotere voorkeur minder dan 20 eenheden, met de meeste voorkeur minder dan 10 eenheden) onderlinge afstand hebben.In embodiments, step c may include identifying whether one or more characteristic biological subsequences (represented by the fingerprint markers) in the first processed biological sequence correspond (e.g., matching) to one or more characteristic biological subsequences (represented by the fingerprint markers) in the second processed biological sequence. biological sequence. In embodiments, step c may include identifying whether the corresponding characteristic biological subsequences occur in the same order in the first processed biological sequence as in the second processed biological sequence. In embodiments, step c may include identifying whether one or more pairs of characteristic biological subsequences in the first processed biological sequence and one or more corresponding pairs of characteristic biological subsequences in the second processed biological sequence are the same or similar (e.g., different by more than 100 units, at preferably less than 50 units, more preferably less than 20 units, most preferably less than 10 units apart.
In uitvoeringsvormen kan stap c verder het vergelijken omvatten van één of meer tweede gedeelten van de eerste verwerkte biologische sequentie met één of meer tweede gedeelten in de tweede verwerkte biologische sequentie. In uitvoeringsvormen kan het vergelijken van één of meer tweede gedeelten het vergelijken omvatten van overeenkomstige tweede gedeelten (d.w.z. een tweede gedeelte dat optreedt tussen een naburig paar kenmerkende biologische subsequenties in de eerste verwerkte biologische sequentie en een tweede gedeelte dat optreedt tussen een overeenkomstig naburig paar kenmerkende biologische subsequenties in de eerste verwerkte biologische sequentie).In embodiments, step c may further comprise comparing one or more second portions of the first processed biological sequence with one or more second portions in the second processed biological sequence. In embodiments, comparing one or more second portions may include comparing corresponding second portions (i.e., a second portion occurring between a neighboring pair of characteristic biological subsequences in the first processed biological sequence and a second portion occurring between a corresponding adjacent pair of characteristic biological subsequences in the first processed biological sequence).
In uitvoeringsvormen kan stapc verder het berekenen omvatten van een meting die een mate van overeenkomst (bv. een Levenshtein-afstand) tussen de eerste en de tweede biologische sequentie voorstelt.In embodiments, step c may further comprise calculating a measure representing a degree of similarity (e.g., a Levenshtein distance) between the first and second biological sequences.
In uitvoeringsvormen kan de werkwijze worden gebruikt in een zoekopdracht naar sequentie-overeenkomst, door het vergelijken van een aanvraagsequentie metéén of meer andere biologische sequenties (bv. overeenkomstig met een sequentie- databank die moet worden doorzocht, bijvoorbeeld in de vorm van een depot van verwerkte biologische sequenties). In uitvoeringsvormen kan een graad van overeenkomst worden berekend voor elke van de andere biologische sequenties. In uitvoeringsvormen kan de werkwijze een verdere stap omvatten van het rangschikken van de biologische sequenties (bv. door het verlagen van de mate van overeenkomst). In uitvoeringsvormen kan de werkwijze het filteren van de biologische sequenties omvatten. Het filteren kan worden uitgevoerd vóór en/of na stap c. Bijvoorbeeld, het filteren kan worden uitgevoerd door het selecteren voor vergelijking van alleen die biologische sequenties uit de databank die voldoen aan een bepaald criterium, zoals gebaseerd op het organisme of groep van organismen waaruit ze zijn afgeleid (bv. planten, dieren, mensen, micro-organismen, enz.), of een secundaire/tertiaire/quaternaire structuur bekend is, hun lengte, enz. Alternatief kan het filteren worden uitgevoerd nadat de vergelijking werd uitgevoerd, op basis van dezelfde criteria of op basis van de berekende mate van overeenkomst (bv. alleen die sequenties mogen worden geselecteerd die een bepaalde drempel van overeenkomst overschrijden). In tegenstelling tot het zoeken naar sequentie-overeenkomst uit de vorige stand der techniek, waar kenmerkend een uitlijningsstap vereist is en daaruit vervolgens een mate van overeenkomst wordt bepaald, is uitlijning niet strikt noodzakelijk voor het zoeken naar overeenkomst. Overeenkomstige sequenties kunnen wel degelijk reeds worden gevonden door het eenvoudigweg zoeken naar sequenties met dezelfde vingerafdrukken (optioneel ook rekening houdend met hun volgorde en hun onderlinge afstand) zonder uitlijning; dit maakt op zijn beurt een grotere zoeksnelheid mogelijk. Niettegenstaande het bovenstaande wordt uitlijning (zie het zevende aspect) met een computer ook vereenvoudigd, zodat ervoor kan worden gekozen toch een uitlijning te doen, zelfs als dit niet strikt vereist is.In embodiments, the method can be used in a sequence similarity search, by comparing an application sequence with one or more other biological sequences (e.g., corresponding to a sequence database to be searched, e.g., in the form of a repository of processed biological sequences). In embodiments, a degree of similarity can be calculated for any of the other biological sequences. In embodiments, the method may include a further step of arranging the biological sequences (e.g., by decreasing the degree of similarity). In embodiments, the method may include filtering the biological sequences. Filtering can be performed before and / or after step c. For example, filtering can be performed by selecting for comparison only those biological sequences from the database that meet a particular criterion, such as based on the organism or group of organisms from which they are derived (e.g., plants, animals, humans, microbes). organisms, etc.), whether a secondary / tertiary / quaternary structure is known, their length, etc. Alternatively, filtering can be performed after the comparison has been performed, based on the same criteria or based on the calculated degree of similarity ( e.g. only those sequences may be selected that exceed a certain threshold of similarity). Unlike prior art sequence matching, where an alignment step is typically required and a degree of match is subsequently determined, alignment is not strictly necessary for matching. Corresponding sequences can indeed already be found by simply searching for sequences with the same fingerprints (optionally also taking into account their order and their mutual distance) without alignment; this in turn allows for a faster search speed. Notwithstanding the above, alignment (see seventh aspect) is also simplified with a computer, so that it is possible to choose to do an alignment anyway, even if not strictly required.
De werkwijze van dit aspect maakt dus het bepalen (en optioneel meten) van de overeenkomst tussen een eerste en een tweede biologische sequentie mogelijk. Een dergelijke vergelijking vormt ook de hoeksteen bij andere werkwijzen, zoals die van het zevende en achtste aspect.Thus, the method of this aspect allows determining (and optionally measuring) the identity between a first and a second biological sequence. Such a comparison is also the cornerstone of other methods, such as those of the seventh and eighth aspect.
In een zevende aspect wordt een werkwijze voor het uitlijnen van een eerste biologische sequentie naar een tweede biologische sequentie beschreven, omvattende het uitvoeren van de werkwijze volgens een uitvoeringsvorm van het zesde aspect, waarbij stap c verder het uitlijnen van de vingerafdrukmerkers in de eerste verwerkte biologische sequentie met de vingerafdrukmerkers in de tweede verwerkte biologische sequentie omvat. Fig.4 toont schematisch uitvoerresultaten 400 van vergelijkingseenheid 330 (wat in dit geval beter wordt omschreven als ‘uitlijningseenheid 330’) waarin biologische sequenties worden uitgelijnd door hun vingerafdrukmerkers.In a seventh aspect, a method for aligning a first biological sequence to a second biological sequence is described, comprising performing the method according to an embodiment of the sixth aspect, wherein step c further aligns the fingerprint markers in the first processed biological sequence. sequence with the fingerprint markers in the second processed biological sequence. Fig. 4 schematically shows output results 400 from comparison unit 330 (which is better described as "alignment unit 330" in this case) in which biological sequences are aligned by their fingerprint markers.
Uitlijning is dus ook vereenvoudigd in uitvoeringsvormen, doordat een goede uitlijning reeds kan worden verkregen door het eenvoudigweg uitlijnen van de vingerafdrukken. Dit vermindert nogmaals significant de computer-complexiteit van het probleem. Verder is er, in de werkwijzen uit de voorgaande stand der techniek, zoals die gebaseerd op progressieve uitlijning, een accumulatie van uitlijningsfouten, doordat foutieve uitlijning voor één van de eerdere sequenties zich kenmerkend voortzet en additionele foutieve uitlijningen in de later sequenties veroorzaakt. Omgekeerd is er, doordat het telkens dezelfde aparte set vingerafdrukmerkers is die wordt uitgelijnd (of ten minste getracht) binnen één (meervoudige) uitlijning, geen dergelijke voortzetting van fouten.Thus, alignment is also simplified in embodiments, in that good alignment can already be obtained by simply aligning the fingerprints. This again significantly reduces the computational complexity of the problem. Furthermore, in the prior art methods, such as those based on progressive alignment, there is an accumulation of misalignment, as misalignment for one of the previous sequences typically continues and causes additional misalignments in the later sequences. Conversely, because it is each time the same separate set of fingerprint markers that are aligned (or at least attempted) within one (multiple) alignment, there is no such continuation of errors.
In uitvoeringsvormen kan de werkwijze verder opeenvolgende uitlijning van overeenkomstige tweede gedeelten omvatten. Uitlijning van de tweede gedeelten kan, bijvoorbeeld, worden uitgevoerd door middel van één van de uitlijningswerkwijzen die bekend zijn uit de voorgaande stand der techniek. Doordat het ‘skelet’ van de uitlijning reeds werd verschaft door uitlijning van de vingerafdrukmerkers, blijft alleen de uitlijning tussen deze merkers over voor uitwerking. Doordat elke van deze tweede gedeelten kenmerkend relatief kort is in vergelijking met de totale biologische sequentielengte, kunnen de bekende werkwijzen een dergelijke uitlijning kenmerkend relatief snel en efficiënt uitvoeren.In embodiments, the method may further include sequential alignment of corresponding second portions. Alignment of the second portions can, for example, be performed by any of the alignment methods known in the prior art. Because the "skeleton" of the alignment has already been provided by alignment of the fingerprint markers, only the alignment between these markers remains for processing. Typically, since each of these second portions is relatively short compared to the total biological sequence length, the known methods can perform such alignment relatively quickly and efficiently.
In uitvoeringsvormen kan de werkwijze dienen voor het uitvoeren van een meervoudige sequentie-uitlijning (d.w.z. de werkwijze kan uitlijning van drie of meer biologische sequenties omvatten). In uitvoeringsvormen kan de werkwijze het uitlijnenvan vingerafdrukmerkers omvatten in een derde (of vierde, enz.) verwerkte biologische sequentie met vingerafdrukmerkers in de eerste en/of tweede verwerkte biologische sequenties. Dit is schematisch afgebeeld in Fig. 4 waarin uitlijningseenheid 330 ook een willekeurig aantal verder verwerkte biologische sequenties 213-216 kan vergelijken en uitlijnen.In embodiments, the method may be for performing multiple sequence alignment (i.e., the method may include alignment of three or more biological sequences). In embodiments, the method may include aligning fingerprint markers in a third (or fourth, etc.) processed biological sequence with fingerprint markers in the first and / or second processed biological sequences. This is schematically depicted in Fig. 4 wherein alignment unit 330 can also compare and align any number of further processed biological sequences 213-216.
In uitvoeringsvormen kan de werkwijze worden gebruikt in variant-calling. In het geval van sequentie-uitlijning tussen twee biologische sequenties kan de variant- calling varianten (bv. mutaties) tussen een opvraagsequentie en een referentiesequentie identificeren. In het geval van een meervoudige sequentie- uitlijning kan de variant-calling de mogelijke variaties (die het bepalen van hun frequentie van optreden kunnen bevatten) in een set gerelateerde sequenties identificeren; optioneel ten opzichte van een referentiesequentie. Het identificeren van varianten kan verder worden uitgevoerd op basis van de primaire structuur, maar kan ook rekening houden met de secundaire/tertiaire/quaternaire structuur.In embodiments, the method can be used in variant calling. In the case of sequence alignment between two biological sequences, the variant calling can identify variants (e.g., mutations) between a query sequence and a reference sequence. In the case of multiple sequence alignment, the variant calling can identify the possible variations (which may include determining their occurrence frequency) in a set of related sequences; optional over a reference sequence. Identifying variants can further be performed based on the primary structure, but can also take into account the secondary / tertiary / quaternary structure.
In een achtste aspect is een werkwijze beschreven voor het uitvoeren van een sequentiemontage, omvattende: (a) het verschaffen van een eerste biologische sequentie, waarbij de eerste biologische sequentie een biologische sequentie van een eerste biopolymeerfragment is, (b)het verschaffen van een tweede biologische sequentie, waarbij de tweede biologische sequentie ofwel een biologische sequentie van een tweede biopolymeerfragment, ofwel een referentie-biologische sequentie is, (c) het uitlijnen van de eerste biologische sequentie met de tweede biologische sequentie door middel van de werkwijze volgens elke uitvoeringsvorm van het zevende aspect, en (d) het samenvoegen van de eerste biologische sequentie met de tweede biologische sequentie om een samengestelde biologische sequentie te verkrijgen.In an eighth aspect, a method of performing a sequence montage is disclosed, comprising: (a) providing a first biological sequence, wherein the first biological sequence is a biological sequence of a first biopolymer fragment, (b) providing a second biological sequence, wherein the second biological sequence is either a biological sequence of a second biopolymer fragment or a reference biological sequence, (c) aligning the first biological sequence with the second biological sequence by the method of any embodiment of the seventh aspect, and (d) joining the first biological sequence with the second biological sequence to obtain a composite biological sequence.
Fig.5 toont schematisch een sequentie-samenstellingseenheid 340 die een samengestelde biologische sequentie 510 uitvoert door eerste uitlijning (door hun vingerafdrukmerkers) en vervolgens het samenvoegen van een willekeurig aantal biologische sequenties 500 (omvattende ten minste een eerste biologische sequentie 501 en tweede biologische sequentie 502).Fig. 5 schematically shows a sequence building unit 340 that executes a composite biological sequence 510 by first aligning (through their fingerprint markers) and then joining any number of biological sequences 500 (comprising at least a first biological sequence 501 and second biological sequence 502 ).
In uitvoeringsvormen kunnen de werkwijzestappen a tot en met d worden herhaald om een willekeurig aantal biopolymeerfragmenten uit te lijnen en samen te voegen.In embodiments, process steps a through d can be repeated to align and assemble any number of biopolymer fragments.
Om rangschikking te vergemakkelijken kunnen langere biopolymeren worden gefragmenteerd, doordat de individuele fragmenten sneller en gemakkelijker kunnen worden gerangschikt (bv. ze kunnen parallel worden gerangschikt}; zoals bekend is in het vakgebied.To facilitate alignment, longer biopolymers can be fragmented by allowing the individual fragments to be arranged more quickly and more easily (eg, they can be arranged in parallel}, as is known in the art.
Sequentiesamenstelling wordt vervolgens kenmerkend gebruikt voor het uitlijnen en samenvoegen van fragmentsequenties voor het reconstrueren van de originele sequentie; dit kan ook worden omschreven als ‘lees-mapping’, waar ‘aflezingen’ van een fragmentsequentie worden ‘gemapt’ naar een tweede biopolymeersequentie.Sequence assembly is then typically used to align and assemble fragment sequences to reconstruct the original sequence; this can also be described as "read mapping", where "reads" of a fragment sequence are "mapped" to a second biopolymer sequence.
Afhankelijk van het type van sequentiesamenstelling dat wordt uitgevoerd, bv. een de-novo samenstelling vs. een mapping-samenstelling, kan de tweede biopolymeersequentie worden gekozen om, zoals gepast, een tweede biopolymeerfragment of een referentiesequentie te zijn.Depending on the type of sequence assembly being performed, e.g. a de-novo assembly vs. a mapping composition, the second biopolymer sequence can be selected to be, as appropriate, a second biopolymer fragment or a reference sequence.
Hierin is een de-novo samenstel een samenstel dat van nul begint, zonder gebruik van een sjabloon (bv. een hoofdketensequentie). Een mapping-samenstelling daarentegen is een samenstelling door mapping van één of meer biopolymeerfragmentsequenties tot een bestaande hoofdketensequentie (bv. een referentiesequentie), die kenmerkend overeenkomt met (maar niet noodzakelijk identiek is aan) de te reconstrueren sequentie.Here, a de-novo assembly is an assembly that starts from scratch, without the use of a template (e.g. a backbone sequence). In contrast, a mapping composition is a composition by mapping one or more biopolymer fragment sequences to an existing backbone sequence (e.g., a reference sequence), which typically corresponds to (but is not necessarily identical to) the sequence to be reconstructed.
Een referentiesequentie kan, bijvoorbeeld, gebaseerd zijn op (een deel van) een volledig genoom of transcriptoom, of kan verkregen zijn uit een vroegere de-novo samenstelling.A reference sequence may, for example, be based on (part of) a complete genome or transcriptome, or may be obtained from an earlier de-novo composition.
In uitvoeringsvormen kan de werkwijze een verdere stap (e), na stap (d), omvatten van het uitlijnen van de samengestelde biologische sequentie met de tweede biologische sequentie door middel van de werkwijze volgens elke uitvoeringsvorm van het achtste aspect.In embodiments, the method may include a further step (e), after step (d), of aligning the assembled biological sequence with the second biological sequence by the method of any embodiment of the eighth aspect.
Deze additionele uitlijning kan worden gebruikt voor het uitvoeren van variant-calling van de samengestelde biologische sequentie ten opzichte van de tweede biologische sequentie (bv. de referentiesequentie). In een negende aspect is een systeem omvattende middelen voor het uitvoeren vande werkwijze volgens elke uitvoeringsvorm van het tweede, vierde, zesde, zevende of achtste aspect beschreven.This additional alignment can be used to perform variant calling of the assembled biological sequence relative to the second biological sequence (e.g., the reference sequence). In a ninth aspect, a system comprising means for performing the method according to any embodiment of the second, fourth, sixth, seventh or eighth aspect is described.
Het systeem kan kenmerkend een verschillende vorm aannemen, afhankelijk van de werkwijze(n) die het moet uitvoeren. In uitvoeringsvormen kan het systeem een sequentieverwerkingseenheid (zie tweede aspect), een depot-opbouweenheid (zie vierde aspect), een vergelijkingseenheid (zie zesde aspect), een uitlijningseenheid (zie zevende aspect), een sequentiesamenstellingseenheid (zie achtste aspect) zijn. In uitvoeringsvormen kan een generisch gegevensverwerkingsmiddel (bv. een persoonlijke computer of een smartphone) of een gedistribueerde computeromgeving (bv. cloud-gebaseerd systeem) worden geconfigureerd voor het uitvoeren van één of meer van deze functies. De gedistribueerde computeromgeving kan, bijvoorbeeld, een serverinrichting en een aan een netwerk aangesloten cliëntinrichting omvatten. Hierin kan de serverinrichting de meeste van één of meer werkwijzen uitvoeren, waaronder het opslaan van het depot van vingerafdruk- datastrings (zie het eerste aspect) en het depot van verwerkte biologische sequenties (zie het vijfde aspect). Anderzijds kan de aan een netwerk aangesloten cliëntinrichting instructie (bv. invoer, zoals een opvraagsequentie, en instellingen, zoals zoekvoorkeuren) communiceren met de serverinrichting en kan de werkwijze-uitvoer ontvangen.Typically, the system can take a different form depending on the method (s) it is to perform. In embodiments, the system may be a sequence processor (see second aspect), a depot builder unit (see fourth aspect), a comparison unit (see sixth aspect), an alignment unit (see seventh aspect), a sequence builder unit (see eighth aspect). In embodiments, a generic data processing resource (e.g., a personal computer or a smartphone) or a distributed computing environment (e.g., cloud-based system) can be configured to perform one or more of these functions. The distributed computing environment may include, for example, a server device and a networked client device. Herein, the server device can perform most of one or more methods, including storing the fingerprint data strings deposit (see the first aspect) and the processed biological sequences deposit (see the fifth aspect). On the other hand, the networked client device can communicate instruction (e.g., input, such as a query sequence, and settings, such as search preferences) with the server device and receive the method output.
In een tiende aspect is een computerprogrammaproduct beschreven omvattende instructies die, wanneer het programma wordt uitgevoerd door een computersysteem, het computersysteem aanzet tot het uitvoeren van de werkwijze volgens elke uitvoeringsvorm van het tweede, vierde, zesde, zevende of achtste aspect.In a tenth aspect, a computer program product is described comprising instructions that, when the program is executed by a computer system, causes the computer system to perform the method according to any embodiment of the second, fourth, sixth, seventh or eighth aspect.
In een elfde aspect is een computerleesbaar medium beschreven omvattende instructies die, wanneer uitgevoerd door een computersysteem, het computersysteem aanzet tot het uitvoeren van de werkwijze volgens elke uitvoeringsvorm van het tweede, vierde, zesde, zevende of achtste aspect.In an eleventh aspect, a computer readable medium is described comprising instructions that, when executed by a computer system, cause the computer system to perform the method according to any embodiment of the second, fourth, sixth, seventh or eighth aspect.
In een twaalfde aspect is gebruik van een bibliotheek van biologische sequentie-vingerafdrukken zoals gedefinieerd in elke uitvoeringsvorm van het eerste aspect beschreven, voor één of meer gekozen uit: het verwerken van een biologische sequentie, het bouwen van een depot van verwerkte biologische sequenties, het vergelijken van een eerste biologische sequentie met een tweede biologische sequentie, het uitlijnen van een eerste biologische sequentie met een tweedebiologische sequentie, het uitvoeren van een meervoudige sequentie-uitlijning, het uitvoeren van een zoekopdracht naar sequentie-overeenkomst en het uitvoeren van een variant-calling.In a twelfth aspect, use of a biological sequence fingerprint library as defined in any embodiment of the first aspect is described for one or more selected from: processing a biological sequence, building a repository of processed biological sequences, the comparing a first biological sequence with a second biological sequence, aligning a first biological sequence with a second biological sequence, performing a multiple sequence alignment, performing a sequence identity search, and performing a variant calling .
In een dertiende aspect is gebruik van een verwerkte biologische sequentie zoals gedefinieerd in elke uitvoeringsvorm van het derde aspect of een bibliotheek van verwerkte biologische sequenties zoals gedefinieerd in elke uitvoeringsvorm van het vijfde aspect beschreven, voor één of meer gekozen uit: het vergelijken van een eerste biologische sequentie met een tweede biologische sequentie, het uitlijnen van een eerste biologische sequentie met een tweede biologische sequentie, het uitvoeren van een meervoudige sequentie-uitlijning, het uitvoeren van een zoekopdracht naar sequentie-overeenkomst en het uitvoeren van een variant-calling.In a thirteenth aspect, use of a processed biological sequence as defined in any embodiment of the third aspect or a library of processed biological sequences as defined in any embodiment of the fifth aspect is one or more selected from: comparing a first biological sequence with a second biological sequence, aligning a first biological sequence with a second biological sequence, performing a multiple sequence alignment, performing a sequence identity search, and performing a variant calling.
In uitvoeringsvormen kan elk kenmerk van elke uitvoeringsvorm van elke van de bovenstaande aspecten onafhankelijk zijn zoals overeenkomstig beschreven voor elke uitvoeringsvorm van elke van de andere aspecten.In embodiments, each feature of each embodiment may be independent of each of the above aspects as described for each embodiment of each of the other aspects accordingly.
Een gedetailleerde beschrijving van diverse uitvoeringsvormen wordt nu getoond. Het is duidelijk dat andere uitvoeringsvormen kunnen worden geconfigureerd overeenkomstig de kennis van de ervaren deskundige zonder af te wijken van de werkelijke technische omschrijving van dergelijke uitvoeringsvormen, waarbij de uitvoeringsvormen uitsluitend beperkt zijn door de termen van de bijgevoegde conclusies.A detailed description of various embodiments is now shown. It is understood that other embodiments may be configured according to the knowledge of the skilled artisan without departing from the actual technical description of such embodiments, the embodiments being limited only by the terms of the appended claims.
Example 1: Vergelijking tussen een sequentie-zoekopdracht zoals bekend in de voorgaande stand der techniek en een volgens de onderhavige beschrijving Example 1a: Gebruik van een korte zoekstring Er werden twee afzonderlijke zoekopdrachten uitgevoerd op basis van de zoekstring “AVFPSIVGRPRHQGVMVGMGOQKDSY”. Dit komt overeen met een relatief korte eiwitsequentie van 25 eenheden lang, dat, bijvoorbeeld, een eiwitfragment in eiwitsequentiebepaling zou kunnen zijn.Example 1: Comparison between a sequence search as known in the prior art and one according to the present description Example 1a: Use of a short search string Two separate searches were performed based on the search string “AVFPSIVGRPRHQGVMVGMGOQKDSY”. This corresponds to a relatively short protein sequence of 25 units in length, which could be, for example, a protein fragment in protein sequencing.
De eerste zoekopdracht werd uitgevoerd met behulp van BLAST (Basic Local Alignment Search Tool); meer specifiek ‘Protein BLAST’ (beschikbaar via URL: https://blast.ncbi.nlm.nih.gov/Blast.cgiPPROGRAM=blastp&PAGE TYPE=BlastSearch& LINK LOC=blasthome). De volgende zoekparameters werden gebruikt: Databank =The first search was performed using BLAST (Basic Local Alignment Search Tool); more specifically "Protein BLAST" (available from URL: https://blast.ncbi.nlm.nih.gov/Blast.cgiPPROGRAM=blastp&PAGE TYPE = BlastSearch & LINK LOC = blasthome). The following search parameters were used: Database =
Protein Data Bank-eiwitten (pdb); Algoritme = blastp (protein-protein BLAST); Max targetsequenties = 1000; Korte opvragingen = Automatisch parameters bijstellen voor korte invoersequenties; Verwachte drempelwaarde = 20000; Woordgrootte =2; Matrix = PAM30; Compositionele bijstelling = Geen bijstelling. BLAST vereist over 30seconden voor deze zoekopdracht, waarna 604 zoekresultaten werden teruggevoerd.Protein Data Bank proteins (pdb); Algorithm = blastp (protein-protein BLAST); Max target sequences = 1000; Short polls = Automatically adjust parameters for short input sequences; Expected Threshold = 20000; Word size = 2; Matrix = PAM30; Compositional adjustment = No adjustment. BLAST required about 30 seconds for this search, after which 604 search results were returned.
Anderzijds werd, op basis van de principes van de onderhavige uitvoeringsvorm, bepaald dat “IVGRPRHQGVM” een kenmerkende biologische subsequentie (d.w.z. een ‘vingerafdruk’) opgenomen in de bovenstaande korte eiwitsequentie is. Zo werd de tweede zoekopdracht uitgevoerd in een depot van verwerkte biologische sequenties op basis van de zoekstring “IVGRPRHQGVM”. Dit depot was gebaseerd op dezelfde eiwitdatabank zoals die gebruikt in BLAST (d.w.z. Protein Data Bank; PDB), die eerder werd verwerkt aan de hand van een depot van vingerafdruk-datastrings; d.w.z. kenmerkende biologische subsequenties voorgesteld door de vingerafdruk-datastrings werden geïdentificeerd en gemarkeerd in een set algemeen beschikbare biologische sequenties. Deze zoekopdracht verschafte 661 resultaten. In tegenstelling tot BLAST was het tijdskader dat in dit geval nodig was slechts 196 milliseconden. Zo werd waargenomen dat, zelfs voor een dergelijke relatief korte sequentie, de onderhavige werkwijze in staat was tot het verminderen van de vereiste tijd met een factor van meer dan 150 in vergelijking met de bekende werkwijze uit de huidige stand der techniek.On the other hand, based on the principles of the present embodiment, it was determined that "IVGRPRHQGVM" is a characteristic biological subsequence (i.e., a "fingerprint") included in the above short protein sequence. Thus, the second search was performed in a repository of processed biological sequences based on the search string “IVGRPRHQGVM”. This deposit was based on the same protein database as that used in BLAST (i.e. Protein Data Bank; PDB), previously processed from a pool of fingerprint data strings; i.e., characteristic biological subsequences represented by the fingerprint data strings were identified and marked in a set of publicly available biological sequences. This search returned 661 results. Unlike BLAST, the time frame required in this case was only 196 milliseconds. Thus, it was observed that even for such a relatively short sequence, the present method was able to reduce the required time by a factor of more than 150 as compared to the known prior art method.
We verwijzen u naar Figuren 6, 7 en 8, die de resultaten tonen van beide zoekopdrachten (BLAST = stippellijn; onderhavige werkwijze = ononderbroken lijn} in termen van hun totale lengte (fig. 6), hun Levenshtein-afstand (fig. 7) en langste gezamenlijke substring (fig. 8). Voor elke grafiek zijn de zoekresultaten van laag naar hoog weergegeven ten opzichte van de uitgezette parameter (d.w.z. totale lengte, Levenshtein-afstand of langste gezamenlijke substring) gerangschikt. Verder werd één van de zoekresultaten, namelijk de eiwitsequentie 5SNW4_V (d.w.z. het eerste resultaat weergegeven door BLAST), geselecteerd als een referentie ten opzichte van dewelke de Levenshtein-afstand en de langste gezamenlijke substring werden berekend. Zoals men in deze figuren kan waarnemen verschafte de onderhavige werkwijze, over hetvolledige bereik van zoekresultaten, een kleinere variatie in totale lengte (gekenmerkt door een relatieve plateau-overspanning over een significant gedeelte van de resultaten), een aanzienlijk lagere Levenshtein-afstand en een aanzienlijk grotere langste gezamenlijke substring, in vergelijking met de BLAST-resultaten.We refer you to Figures 6, 7 and 8, which show the results of both searches (BLAST = dashed line; present method = solid line} in terms of their total length (fig. 6), their Levenshtein distance (fig. 7) and longest joint substring (Fig. 8) For each graph, the search results are listed from lowest to highest relative to the plotted parameter (ie total length, Levenshtein distance, or longest joint substring). Furthermore, one of the search results, namely the protein sequence 5SNW4_V (ie the first result represented by BLAST), selected as a reference against which the Levenshtein distance and longest common substring were calculated. As can be seen in these figures, the present method provided, over the full range of search results , a smaller variation in total length (characterized by a relative plateau span over a significant portion of the results ), a significantly lower Levenshtein distance, and a significantly greater longest joint substring, compared to the BLAST results.
De combinatie hiervan suggereert dat de werkwijze van de onderhavige uitvoeringsvorm in staat was tot het identificeren van resultaten die meer relevant zijn voor de uitgevoerde zoekopdracht.The combination of these suggests that the method of the present embodiment was able to identify results more relevant to the query performed.
Example 1b: Gebruik van een langer eiwit als zoekstring Het vorige voorbeeld werd herhaald, maar ditmaal werd een volledige eiwitsequentie, 3MN5 A (met een lengte van 359 eenheden) gezocht.Example 1b: Using a longer protein as the search string The previous example was repeated, but this time a complete protein sequence, 3MN5 A (359 units in length) was searched.
De eerste zoekopdracht, met behulp van BLAST, verschafte 88 zoekresultaten.The first search, using BLAST, returned 88 search results.
Anderzijds werd, op basis van de principes van de onderhavige uitvoeringsvorm, bepaald dat zes kenmerkende biologische subsequenties (d.w.z. ‘vingerafdrukken’) konden worden gevonden in de sequentie 3MN5_A; deze werden aangeduid als: +4641474444415052415646 1, +495647525052485147564d 1, +4949544e5744444d454b49 1, +494d464554464e5650414d 1, +494b454b4c435956414c44_1 en +49474d4553414749484554 1, waarbij bv. ‘49474d4553414749484554’ overeenkomt met de respectieve subsequentie in hexadecimaal formaat.On the other hand, based on the principles of the present embodiment, it was determined that six characteristic biological subsequences (i.e., "fingerprints") could be found in the sequence 3MN5_A; these were labeled as: +4641474444415052415646 1, + 495647525052485147564d 1, + 4949544e5744444d454b49 1, + 494d464554464e5650414d 1, + 494b454b4c435956414c44_1 and +491414494d4845534, for example, 4974744845534, 144974744845534, respectively
Zo werd de tweede zoekopdracht uitgevoerd, in dezelfde depot van verwerkte biologische sequenties als in het vorige voorbeeld, om die eiwitsequenties te vinden die dezelfde zes kenmerkende biologische subsequenties in dezelfde volgorde omvatten.Thus, the second search was performed, in the same repository of processed biological sequences as in the previous example, to find those protein sequences comprising the same six characteristic biological subsequences in the same sequence.
Deze zoekopdracht verschafte 661 resultaten.This search returned 661 results.
We verwijzen nu naar Fig. 9, 10 en 11, die de resultaten tonen van beide zoekopdrachten (BLAST = stippellijn; onderhavige werkwijze = ononderbroken lijn) in termen van hun totale lengte (Fig. 9), hun Levenshtein-afstand (Fig. 10) en langste gezamenlijke substring (Fig. 11). Voor elke grafiek zijn de zoekresultaten van laag naar hoog weergegeven ten opzichte van de uitgezette parameter (d.w.z. totale lengte, Levenshtein-afstand of langste gezamenlijke substring) gerangschikt.We now refer to Fig. 9, 10 and 11, showing the results of both queries (BLAST = dashed line; present method = solid line) in terms of their total length (Fig. 9), their Levenshtein distance (Fig. 10), and longest common substring ( Fig. 11). For each graph, the search results are listed from lowest to highest relative to the plotted parameter (i.e. total length, Levenshtein distance, or longest joint substring).
In dit geval werden de Levenshtein-afstand en de langste gezamenlijke substring ten opzichte van de originele opvraagsequentie 3MN5 A berekend.In this case, the Levenshtein distance and the longest shared substring relative to the original query sequence 3MN5 A were calculated.
Zoals men kan zien in deze figurenzijn de kenmerken van de zoekresultaten voor beide werkwijzen relatief vergelijkbaar aan de extremen. De onderhavige werkwijze verschafte in het intermediaire bereik een plateau van resultaten met weinig variatie in totale lengte, een lage Levenshtein- afstand en een tamelijk hoge langste gezamenlijke substring. De combinatie hiervan suggereert dat de werkwijze van de onderhavige uitvoeringsvorm in staat was tot het identificeren van een groter aantal relevante resultaten.As can be seen from these figures, the characteristics of the search results for both methods are relatively similar to the extremes. The present method provided a plateau of results in the intermediate range with little variation in total length, a low Levenshtein distance, and a fairly high longest common substring. The combination of these suggests that the method of the present embodiment was able to identify a greater number of relevant results.
Het dient vermeld dat hoewel voorkeursuitvoeringsvormen, specifieke constructies en configuraties, evenals materialen hierin werden besproken voor inrichtingen volgens de onderhavige uitvoeringsvorm, er diverse veranderingen of modificaties in vorm en detail kunnen worden aangebracht zonder af te wijken van de doelstelling en technische omschrijvingen van deze beschrijving. Alle bovenstaande formules zijn louter representatief voor procedures die kunnen worden gebruikt. Functionaliteit kan worden toegevoegd aan of verwijderd van de blokdiagrammen en operaties kunnen tussen functionele blokken onderling verwisseld worden. Er kunnen stappen worden toegevoegd aan of verwijderd van werkwijzen die werden beschreven binnen de doelstelling van de onderhavige uitvoeringsvormen.It should be noted that while preferred embodiments, specific constructions and configurations, as well as materials have been discussed herein for devices according to the present embodiment, various changes or modifications in shape and detail can be made without departing from the scope and technical specifications of this disclosure. All of the above formulas are merely representative of procedures that can be used. Functionality can be added to or removed from the block diagrams and operations can be switched between functional blocks. Steps can be added to or removed from methods described within the scope of the present embodiments.
Claims (12)
Priority Applications (22)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| BE20195077A BE1027035B1 (en) | 2019-02-07 | 2019-02-07 | Depot of fingerprint data strings |
| EP23164752.0A EP4250300A3 (en) | 2019-02-07 | 2020-02-07 | Biological sequence information handling |
| CA3129095A CA3129095A1 (en) | 2019-02-07 | 2020-02-07 | Biological information handling |
| JP2021546006A JP7602264B2 (en) | 2019-02-07 | 2020-02-07 | Handling of biological information |
| US17/428,478 US20220254449A1 (en) | 2019-02-07 | 2020-02-07 | Biological information handling |
| KR1020217027614A KR102902195B1 (en) | 2019-02-07 | 2020-02-07 | Biological information handling |
| CN202080012591.8A CN113454726B (en) | 2019-02-07 | 2020-02-07 | Biological information processing |
| EP20704821.6A EP3881326B1 (en) | 2019-02-07 | 2020-02-07 | Biological sequence information handling |
| PCT/EP2020/053223 WO2020161346A1 (en) | 2019-02-07 | 2020-02-07 | Biological information handling |
| IL285393A IL285393B2 (en) | 2019-02-07 | 2020-02-07 | Information management of biological sequences |
| AU2020218104A AU2020218104B2 (en) | 2019-02-07 | 2020-02-07 | Biological sequence information handling |
| US17/428,357 US20220199199A1 (en) | 2019-02-07 | 2020-02-07 | Biological sequence information handling |
| JP2021569592A JP7352985B2 (en) | 2019-02-07 | 2020-02-07 | Handling of biological sequence information |
| KR1020217027414A KR102614401B1 (en) | 2019-02-07 | 2020-02-07 | Biological sequence information handling |
| CA3129108A CA3129108C (en) | 2019-02-07 | 2020-02-07 | Biological sequence information handling |
| PCT/EP2020/053220 WO2020161344A1 (en) | 2019-02-07 | 2020-02-07 | Biological sequence information handling |
| CN202080015463.9A CN113454727A (en) | 2019-02-07 | 2020-02-07 | Biological sequence information processing |
| EP20704823.2A EP3921835A1 (en) | 2019-02-07 | 2020-02-07 | Biological information handling |
| AU2020219429A AU2020219429B2 (en) | 2019-02-07 | 2020-02-07 | Biological information handling |
| IL285443A IL285443A (en) | 2019-02-07 | 2021-08-08 | Biological information handling |
| ZA2021/06380A ZA202106380B (en) | 2019-02-07 | 2021-09-01 | Biological sequence information handling |
| ZA2021/06381A ZA202106381B (en) | 2019-02-07 | 2021-09-01 | Biological information handling |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| BE20195077A BE1027035B1 (en) | 2019-02-07 | 2019-02-07 | Depot of fingerprint data strings |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| BE1027035A1 true BE1027035A1 (en) | 2020-08-31 |
| BE1027035B1 BE1027035B1 (en) | 2020-09-07 |
Family
ID=66439819
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| BE20195077A BE1027035B1 (en) | 2019-02-07 | 2019-02-07 | Depot of fingerprint data strings |
Country Status (1)
| Country | Link |
|---|---|
| BE (1) | BE1027035B1 (en) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP7560885B2 (en) * | 2019-02-07 | 2024-10-03 | バイオクルー ビーブイ | Biological Sequencing |
Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20060020397A1 (en) | 2004-07-21 | 2006-01-26 | Kermani Bahram G | Methods for nucleic acid and polypeptide similarity search employing content addressable memories |
-
2019
- 2019-02-07 BE BE20195077A patent/BE1027035B1/en active IP Right Grant
Patent Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20060020397A1 (en) | 2004-07-21 | 2006-01-26 | Kermani Bahram G | Methods for nucleic acid and polypeptide similarity search employing content addressable memories |
Non-Patent Citations (1)
| Title |
|---|
| MUIR, PAUL ET AL.: "The real cost of sequencing: scaling computation to keep pace with data generation", GENOME BIOLOGY, vol. 17.1, 2016, pages 53 |
Also Published As
| Publication number | Publication date |
|---|---|
| BE1027035B1 (en) | 2020-09-07 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Cattaneo et al. | An effective extension of the applicability of alignment-free biological sequence comparison algorithms with Hadoop | |
| US20240355426A1 (en) | Functional protein classification for pandemic research | |
| Friedberg et al. | Using an alignment of fragment strings for comparing protein structures | |
| Pibiri et al. | Meta-colored compacted de Bruijn graphs | |
| BE1027035B1 (en) | Depot of fingerprint data strings | |
| Cenzato et al. | BWT for string collections | |
| JP7560885B2 (en) | Biological Sequencing | |
| JP7602264B2 (en) | Handling of biological information | |
| EP3693970A1 (en) | Biological sequence information handling | |
| KR102902195B1 (en) | Biological information handling | |
| Fernández | OrfViralScan 3.0: An intuitive tool for the identification and tracking of open reading frames in viral genomes | |
| KR102614401B1 (en) | Biological sequence information handling | |
| EP3693971B1 (en) | Biological sequencing | |
| Parmentier et al. | Cache-based parallelization of multiple sequence alignment problem | |
| Torkamanian-Afshar et al. | RPINaptaBASE: a Database for RNA-Protein Interaction Network Analysis and Aptamer Design | |
| HK40061633B (en) | Biological sequence information handling | |
| HK40061633A (en) | Biological sequence information handling |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| FG | Patent granted |
Effective date: 20200907 |