JP2025530659A - Method and system for kinship assessment for missing persons and disaster/conflict victims - Google Patents
Method and system for kinship assessment for missing persons and disaster/conflict victimsInfo
- Publication number
- JP2025530659A JP2025530659A JP2025508470A JP2025508470A JP2025530659A JP 2025530659 A JP2025530659 A JP 2025530659A JP 2025508470 A JP2025508470 A JP 2025508470A JP 2025508470 A JP2025508470 A JP 2025508470A JP 2025530659 A JP2025530659 A JP 2025530659A
- Authority
- JP
- Japan
- Prior art keywords
- snps
- plex
- dna
- person
- interest
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B10/00—ICT specially adapted for evolutionary bioinformatics, e.g. phylogenetic tree construction or analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/40—Population genetics; Linkage disequilibrium
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6806—Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6888—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/156—Polymorphic or mutational markers
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biotechnology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Genetics & Genomics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Physiology (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Public Health (AREA)
- Ecology (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Bioethics (AREA)
- Artificial Intelligence (AREA)
- Animal Behavior & Ethology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
いくつかの態様における本開示は、サンプル調製および配列決定技術、ならびに関心のある人(例えば、行方不明者または紛争もしくは災害の犠牲者)からのDNAプロファイルと関心のある人の血縁者からの少なくとも1つのDNAプロファイルを含むDNAプロファイルの参照セット内の1つまたはそれを超える参照DNAプロファイルとの関連度を計算するために使用され得る方法を含む、2,000~50,000個の間のSNPの解析を含むDNAベースの血縁関係解析を行うことに関する。
The present disclosure in some aspects relates to performing DNA-based kinship analysis involving the analysis of between 2,000 and 50,000 SNPs, including sample preparation and sequencing techniques and methods that can be used to calculate the degree of relatedness of a DNA profile from a person of interest (e.g., a missing person or a victim of conflict or disaster) to one or more reference DNA profiles in a reference set of DNA profiles that includes at least one DNA profile from a relative of the person of interest.
Description
関連出願の相互参照
本出願は、2022年8月16日に出願された「METHODS AND SYSTEMS FOR KINSHIP EVALUATION FOR MISSING PERSONS AND DISASTER/CONFLICT VICTIMS」と題する米国仮出願第63/398,512号、および2023年2月14日に出願された「METHODS AND SYSTEMS FOR KINSHIP EVALUATION FOR MISSING PERSONS AND DISASTER/CONFLICT VICTIMS」と題する米国仮出願第63/445,541号の優先権を主張し、その内容は参照によりその全体が組み込まれる。
分野
CROSS-REFERENCE TO RELATED APPLICATIONS This application claims priority to U.S. Provisional Application No. 63/398,512, entitled "METHODS AND SYSTEMS FOR KINSHIP EVALUATION FOR MISSING PERSONS AND DISASTER/CONFLICT VICTIMS," filed August 16, 2022, and to U.S. Provisional Application No. 63/445,541, entitled "METHODS AND SYSTEMS FOR KINSHIP EVALUATION FOR MISSING PERSONS AND DISASTER/CONFLICT VICTIMS," filed February 14, 2023, the contents of which are incorporated by reference in their entireties.
Field
本開示は、いくつかの態様において、行方不明者ならびに紛争および災害の犠牲者などの関心のある人のDNAベースの血縁関係評価のための方法およびシステムに関する。 The present disclosure, in some aspects, relates to methods and systems for DNA-based kinship assessment of persons of interest, such as missing persons and victims of conflict and disasters.
背景
遺伝子データベースにおける比較のためのDNAプロファイルを生成する現在の方法には、高密度SNPマイクロアレイおよび全ゲノム配列決定(WGS)を使用した遺伝子型判定、続いてデータベース内の遠い血縁者との証拠サンプルの関連付けが含まれ、これらは大量かつ高品質のDNAサンプルを必要とし、家族検索または法医学目的のために設計されていない。法医学的ケースワークのサンプルは、一般に少量および低品質のサンプルであり、典型的には、家族関係を確認するために公的にアクセス可能なデータベース遺伝子データベースに照会する必要がある。しかしながら、行方不明者または災害もしくは紛争の犠牲者の状況では、家族構成員は、公的にアクセス可能なデータベースに彼らの遺伝子サンプルがアップロードされることになる場合、そのような人を確認するのに役立つであろう遺伝子サンプルを提供することに躊躇する可能性がある。したがって、公的にアクセス可能な遺伝子データベースの使用を必要とせずに、行方不明者または災害もしくは紛争の犠牲者などの関心のある人の家族関係を確認することを可能にする、DNAベースのプロファイル解析を生成するための新規かつ改良された方法が必要とされている。
BACKGROUND Current methods for generating DNA profiles for comparison in genetic databases include genotyping using high-density SNP microarrays and whole genome sequencing (WGS), followed by linking evidentiary samples to distant relatives in the database. These require large amounts of high-quality DNA samples and are not designed for family search or forensic purposes. Forensic casework samples are generally small and low-quality and typically require querying publicly accessible genetic databases to confirm family relationships. However, in the context of missing persons or victims of disasters or conflicts, family members may be hesitant to provide genetic samples that would help identify such persons if their genetic samples were to be uploaded to publicly accessible databases. Therefore, there is a need for new and improved methods for generating DNA-based profile analyses that enable confirmation of family relationships of persons of interest, such as missing persons or victims of disasters or conflicts, without requiring the use of publicly accessible genetic databases.
要旨
DNAベースの血縁関係解析を行うための方法であって、関心のある人からの核酸サンプルを提供すること、複数の少なくとも2,000~50,000個の間または約2,000~50,000個の間の一塩基多型(SNP)を集合的に含む複数の標的配列に特異的にハイブリダイズする複数のプライマーを用いて核酸サンプルを増幅させ、それによって増幅産物を生成することであって、増幅を1つまたはそれを超えるマルチプレックスPCR反応で行うことと、増幅産物から核酸ライブラリーを生成することと、増幅産物から生成された核酸ライブラリーを配列決定すること、増幅産物の配列を解析することと、複数のSNPの遺伝子型を決定し、それによってDNAプロファイルを生成することと、DNAプロファイルと1つまたはそれを超える参照DNAプロファイルとの関連度を計算することであって、1つまたはそれを超える参照DNAプロファイルが、関心のある人の血縁者からの1つまたはそれを超える参照DNAプロファイルを含むDNAプロファイルの参照セット内に含まれる、計算することと、を含む方法が本明細書に提供される。
SUMMARY Provided herein are methods for performing DNA-based kinship analysis, the method comprising: providing a nucleic acid sample from a person of interest; amplifying the nucleic acid sample with a plurality of primers that specifically hybridize to a plurality of target sequences collectively comprising a plurality of between at least or between about 2,000 and 50,000 single nucleotide polymorphisms (SNPs), thereby generating amplified products, wherein the amplification is performed in one or more multiplex PCR reactions; generating a nucleic acid library from the amplified products; sequencing the nucleic acid library generated from the amplified products; analyzing the sequences of the amplified products; genotyping the plurality of SNPs, thereby generating a DNA profile; and calculating a degree of relatedness between the DNA profile and one or more reference DNA profiles, wherein the one or more reference DNA profiles are included in a reference set of DNA profiles that comprises one or more reference DNA profiles from relatives of the person of interest.
DNAベースの血縁関係解析を行うための方法であって、関心のある人からの核酸サンプルを提供すること、複数の少なくとも2,000~50,000個の間または約2,000~50,000個の間の一塩基多型(SNP)を集合的に含む複数の標的配列に特異的にハイブリダイズする複数のプライマーを用いて核酸サンプルを増幅させ、それによって増幅産物を生成することであって、増幅を1つまたはそれを超えるマルチプレックスPCR反応で行うことと、増幅産物から核酸ライブラリーを生成することと、増幅産物から生成された核酸ライブラリーを配列決定すること、複数のSNPの遺伝子型を決定し、それによってDNAプロファイルを生成することと、DNAプロファイルと1つまたはそれを超える参照DNAプロファイルとの関連度を計算することであって、1つまたはそれを超える参照DNAプロファイルが、関心のある人の血縁者からの1つまたはそれを超える参照DNAプロファイルを含むDNAプロファイルの参照セット内に含まれる、計算することと、を含む方法も本明細書に提供される。 Also provided herein is a method for performing DNA-based kinship analysis, comprising: providing a nucleic acid sample from a person of interest; amplifying the nucleic acid sample with a plurality of primers that specifically hybridize to a plurality of target sequences collectively comprising at least or about 2,000 to 50,000 single nucleotide polymorphisms (SNPs), thereby generating amplified products, wherein the amplification is performed in one or more multiplex PCR reactions; generating a nucleic acid library from the amplified products; sequencing the nucleic acid library generated from the amplified products; genotyping the plurality of SNPs, thereby generating a DNA profile; and calculating a degree of relatedness between the DNA profile and one or more reference DNA profiles, wherein the one or more reference DNA profiles are included in a reference set of DNA profiles that includes one or more reference DNA profiles from relatives of the person of interest.
そのような実施形態のいずれかの一部では、配列決定は、大規模並列処理配列決定(MPS)を使用して行われる。そのような実施形態のいずれかの一部では、配列決定は、全ゲノム配列決定(WGS)を含まない。 In some of any such embodiments, the sequencing is performed using massively parallel sequencing (MPS). In some of any such embodiments, the sequencing does not include whole genome sequencing (WGS).
そのような実施形態のいずれかの一部では、方法は、1つまたはそれを超えるDNAプロファイルに関連するDNAプロファイルを含む家系図を生成することをさらに含む。 In some of any of such embodiments, the method further includes generating a family tree that includes DNA profiles related to the one or more DNA profiles.
関心のある人についての核酸ライブラリーを構築する方法であって、関心のある人からの核酸サンプルを提供すること、複数の少なくとも2,000~50,000個の間または約2,000~50,000個の間の一塩基多型(SNP)を集合的に含む複数の標的配列に特異的にハイブリダイズする複数のプライマーを用いて核酸サンプルを増幅させ、それによって増幅産物を含む核酸ライブラリーを生成することであって、増幅を1つまたはそれを超えるマルチプレックスPCR反応で行うことと、を含む方法も本明細書に提供される。一部の実施形態では、方法は、増幅産物を配列決定して、関心のある人のDNAプロファイルを産生するステップをさらに含む。 Also provided herein are methods for constructing a nucleic acid library for a person of interest, comprising: providing a nucleic acid sample from the person of interest; amplifying the nucleic acid sample with a plurality of primers that specifically hybridize to a plurality of target sequences collectively comprising at least or about 2,000-50,000 single nucleotide polymorphisms (SNPs), thereby generating a nucleic acid library comprising amplified products, wherein the amplification is performed in one or more multiplex PCR reactions. In some embodiments, the method further comprises sequencing the amplified products to produce a DNA profile of the person of interest.
参照DNAサンプルについての核酸ライブラリーを構築する方法であって、関心のある人の血縁者からの核酸サンプルを提供すること、複数の少なくとも2,000~50,000個の間または約2,000~50,000個の間の一塩基多型(SNP)を集合的に含む複数の標的配列に特異的にハイブリダイズする複数のプライマーを用いて核酸サンプルを増幅させ、それによって増幅産物を含む核酸ライブラリーを生成することであって、増幅を1つまたはそれを超えるマルチプレックスPCR反応で行うことと、を含む方法も本明細書に提供される。 Also provided herein is a method for constructing a nucleic acid library for a reference DNA sample, the method comprising: providing a nucleic acid sample from a relative of a person of interest; amplifying the nucleic acid sample with a plurality of primers that specifically hybridize to a plurality of target sequences collectively comprising at least or about 2,000 to 50,000 single nucleotide polymorphisms (SNPs), thereby generating a nucleic acid library comprising the amplified products, wherein the amplification is performed in one or more multiplex PCR reactions.
一部の実施形態では、血縁者は、関心のある人の1親等、2親等、3親等、4親等、または5親等の血縁者である。そのような実施形態のいずれかの一部では、血縁者は、関心のある人の1親等、2親等、または3親等の血縁者である。 In some embodiments, the relative is a first-, second-, third-, fourth-, or fifth-degree relative of the person of interest. In some of any of such embodiments, the relative is a first-, second-, or third-degree relative of the person of interest.
そのような実施形態のいずれかの一部では、核酸サンプルはゲノムDNAを含む。そのような実施形態のいずれかの一部では、核酸サンプルは1つまたはそれを超える酵素阻害剤を含む。そのような実施形態のいずれかの一部では、1つまたはそれを超える酵素阻害剤は、ヘマチン、ヘム、フミン酸、インディゴ、タンニン酸、コラーゲン、カルシウムおよびヒドロキシアパタイトからなる群から選択される1つまたはそれを超える阻害剤を含む。そのような実施形態のいずれかの一部では、核酸サンプルは、低品質核酸分子および/または少量の核酸分子を含む。そのような実施形態のいずれかの一部では、低品質核酸分子は、劣化ゲノムDNAおよび/または断片化されたゲノムDNAである。そのような実施形態のいずれかの一部では、低品質核酸分子は、1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、185、190、195もしくは200の劣化指数(DI)、または少なくとも1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、185、190、195もしくは200の劣化指数(DI)を有する。そのような実施形態のいずれかの一部では、低品質核酸分子は、少なくとも1および最大158.3またはそれ未満のDIを有する。そのような実施形態のいずれかの一部では、核酸サンプルは高品質核酸分子を含む。そのような実施形態のいずれかの一部では、高品質核酸分子は1未満のDIを有する。 In some of such embodiments, the nucleic acid sample comprises genomic DNA. In some of such embodiments, the nucleic acid sample comprises one or more enzyme inhibitors. In some of such embodiments, the one or more enzyme inhibitors comprise one or more inhibitors selected from the group consisting of hematin, heme, humic acid, indigo, tannic acid, collagen, calcium, and hydroxyapatite. In some of such embodiments, the nucleic acid sample comprises low-quality and/or low-abundance nucleic acid molecules. In some of such embodiments, the low-quality nucleic acid molecules are degraded and/or fragmented genomic DNA. In some of any of such embodiments, the low quality nucleic acid molecules are 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 105, 110, 115, 120, 125, 130, 135, 140, 145, 150, 155, 160, 165, 170, 175, 180, 185, 190, 195, or 200 or a Degradation Index (DI) of at least 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 105, 110, 115, 120, 125, 130, 135, 140, 145, 150, 155, 160, 165, 170, 175, 180, 185, 190, 195, or 200. In some of any such embodiments, low quality nucleic acid molecules have a DI of at least 1 and up to 158.3 or less. In some of any such embodiments, the nucleic acid sample comprises high quality nucleic acid molecules. In some of such embodiments, high quality nucleic acid molecules have a DI of less than 1.
そのような実施形態のいずれかの一部では、関心のある人は行方不明者である。そのような実施形態のいずれかの一部では、関心のある人は、災害または紛争の犠牲者である。 In some of such embodiments, the person of interest is a missing person. In some of such embodiments, the person of interest is a victim of a disaster or conflict.
そのような実施形態のいずれかの一部では、核酸サンプルは、唾液、血液、精液、毛髪、歯、骨または皮膚に由来する。そのような実施形態のいずれかの一部では、核酸サンプルは、唾液、血液または精液に由来する。そのような実施形態のいずれかの一部では、核酸サンプルは、骨または毛髪に由来する。そのような実施形態のいずれかの一部では、核酸サンプルは、唾液、血液、精液もしくは他の体液で含浸された、または毛髪もしくは皮膚細胞を含む、頬側スワブ、紙、布地または他の基材または物体に由来する。 In some of such embodiments, the nucleic acid sample is derived from saliva, blood, semen, hair, teeth, bone, or skin. In some of such embodiments, the nucleic acid sample is derived from saliva, blood, or semen. In some of such embodiments, the nucleic acid sample is derived from bone or hair. In some of such embodiments, the nucleic acid sample is derived from a buccal swab, paper, fabric, or other substrate or object impregnated with saliva, blood, semen, or other bodily fluid, or containing hair or skin cells.
そのような実施形態のいずれかの一部では、核酸サンプルは、3pg~100ngまたは約3pg~100ngのゲノムDNAを含む。そのような実施形態のいずれかの一部では、核酸サンプルは、100pg~5ngの間もしくは約100pg~5ngの間のゲノムDNA、50pg~5ngの間もしくは約50pg~5ngの間のゲノムDNA、または3pg~5ngの間もしくは約3pg~5ngの間のゲノムDNAを含む。そのような実施形態のいずれかの一部では、核酸サンプルは1ngまたは約1ngのゲノムDNAを含む。 In some of any of such embodiments, the nucleic acid sample comprises 3 pg to 100 ng or about 3 pg to 100 ng of genomic DNA. In some of such embodiments, the nucleic acid sample comprises between 100 pg to 5 ng or about 100 pg to 5 ng of genomic DNA, between 50 pg to 5 ng or about 50 pg to 5 ng of genomic DNA, or between 3 pg to 5 ng or about 3 pg to 5 ng of genomic DNA. In some of such embodiments, the nucleic acid sample comprises 1 ng or about 1 ng of genomic DNA.
そのような実施形態のいずれかの一部では、複数のSNPは血縁関係SNP(kiSNP)を含む。そのような実施形態のいずれかの一部では、複数のSNPはY染色体SNP(Y-SNP)を含む。そのような実施形態のいずれかの一部では、複数のSNPは、kiSNPおよびY-SNPを含む。そのような実施形態のいずれかの一部では、複数のSNPは、kiSNP、生物地理学的祖先SNP(aiSNP)、同一性SNP(iiSNP)、表現型SNP(piSNP)、X染色体SNP(X-SNP)およびY染色体SNP(Y-SNP)を含む。そのような実施形態のいずれかの一部では、複数のSNPは、kiSNP、aiSNP、iiSNP、piSNP、X-SNPおよびY-SNPからなる群の1つまたはそれを超えるものから選択されるSNPを含む。そのような実施形態のいずれかの一部では、複数のSNPの少なくとも80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%もしくは99%、または少なくとも約80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%もしくは99%が血縁関係SNPである。 In some of any such embodiments, the plurality of SNPs comprises kinship SNPs (kiSNPs). In some of any such embodiments, the plurality of SNPs comprises Y-chromosome SNPs (Y-SNPs). In some of such embodiments, the plurality of SNPs comprises kiSNPs and Y-SNPs. In some of such embodiments, the plurality of SNPs comprises kiSNPs, biogeographic ancestry SNPs (aiSNPs), identity SNPs (iiSNPs), phenotype SNPs (piSNPs), X-chromosome SNPs (X-SNPs), and Y-chromosome SNPs (Y-SNPs). In some of such embodiments, the plurality of SNPs comprises SNPs selected from one or more of the group consisting of kiSNPs, aiSNPs, iiSNPs, piSNPs, X-SNPs, and Y-SNPs. In some of any of such embodiments, at least or at least about 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, or 99% of the plurality of SNPs are related SNPs.
そのような実施形態のいずれかの一部では、DNAプロファイルの参照セットは、最大5、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175、200、300、400、500、600、700、800、900、または1000個の参照DNAプロファイルを含む。そのような実施形態のいずれかの一部では、DNAプロファイルの参照セット内の参照DNAプロファイルの少なくとも5%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、または95%が、関心のある人の血縁者からのものである。そのような実施形態のいずれかの一部では、DNAプロファイルの参照セット内の参照DNAプロファイルの少なくとも5%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、または95%が関心のある人の血縁者からのものであり、DNAプロファイルの参照セット内の参照DNAプロファイルの少なくとも5%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、または95%の各々が、1親等、2親等、3親等、4親等、または5親等の血縁者である。そのような実施形態のいずれかの一部では、DNAプロファイルの参照セット内の参照DNAプロファイルの少なくとも50%が、関心のある人の血縁者からのものである。 In some of any of such embodiments, the reference set of DNA profiles includes up to 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 125, 150, 175, 200, 300, 400, 500, 600, 700, 800, 900, or 1000 reference DNA profiles. In some of any of such embodiments, at least 5%, 10%, 15%, 20%, 25%, 30%, 35%, 40%, 45%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, or 95% of the reference DNA profiles in the reference set of DNA profiles are from relatives of the person of interest. In some of any of such embodiments, at least 5%, 10%, 15%, 20%, 25%, 30%, 35%, 40%, 45%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, or 95% of the reference DNA profiles in the reference set of DNA profiles are from relatives of the person of interest, and at least 5%, 10%, 15%, 20%, 25%, 30%, 35%, 40%, 45%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, or 95% of the reference DNA profiles in the reference set of DNA profiles are each first-, second-, third-, fourth-, or fifth-degree relatives. In some of any such embodiments, at least 50% of the reference DNA profiles in the reference set of DNA profiles are from relatives of the person of interest.
そのような実施形態のいずれかの一部では、DNAプロファイルの参照セット内の関心のある人の各血縁者は、それぞれ、関心のある人の1親等、2親等、3親等、4親等、または5親等の血縁者である。そのような実施形態のいずれかの一部では、DNAプロファイルの参照セット内の関心のある人の各血縁者は、それぞれ、関心のある人の1親等、2親等、または3親等の血縁者である。そのような実施形態のいずれかの一部では、DNAプロファイルの参照セット内の関心のある人の各血縁者の同一性は既知である。そのような実施形態のいずれかの一部では、DNAプロファイルの参照セット内の1つまたはそれを超える参照DNAプロファイルの各々の同一性は既知である。そのような実施形態のいずれかの一部では、DNAプロファイルの参照セットはデータベース内にある。一部の実施形態では、データベースは公的にアクセス可能ではない。 In some of any such embodiments, each relative of the person of interest in the reference set of DNA profiles is a first-, second-, third-, fourth-, or fifth-degree relative of the person of interest, respectively. In some of any such embodiments, each relative of the person of interest in the reference set of DNA profiles is a first-, second-, or third-degree relative of the person of interest, respectively. In some of any such embodiments, the identity of each relative of the person of interest in the reference set of DNA profiles is known. In some of any such embodiments, the identity of each of the one or more reference DNA profiles in the reference set of DNA profiles is known. In some of any such embodiments, the reference set of DNA profiles is in a database. In some embodiments, the database is not publicly accessible.
そのような実施形態のいずれかの一部では、配列決定することは、最大40プレックスの配列決定プレキシティを含む。そのような実施形態のいずれかの一部では、配列決定することは、最大32プレックスの配列決定プレキシティを含む。そのような実施形態のいずれかの一部では、配列決定することは、12プレックス~32プレックスの配列決定プレキシティを含む。そのような実施形態のいずれかの一部では、配列決定することは、24プレックス~32プレックスの配列決定プレキシティを含む。そのような実施形態のいずれかの一部では、配列決定することは、10プレックス、11プレックス、12プレックス、13プレックス、14プレックス、15プレックス、16プレックス、17プレックス 18プレックス、19プレックス、20プレックス、21プレックス、22プレックス、23プレックス、24プレックス、25プレックス、26プレックス、27プレックス、28プレックス、29プレックス、30プレックス、31プレックス、32プレックス、33プレックス、34プレックスもしくは35プレックス、または約10プレックス、11プレックス、12プレックス、13プレックス、14プレックス、15プレックス、16プレックス、17プレックス 18プレックス、19プレックス、20プレックス、21プレックス、22プレックス、23プレックス、24プレックス、25プレックス、26プレックス、27プレックス、28プレックス、29プレックス、30プレックス、31プレックス、32プレックス、33プレックス、34プレックスもしくは35プレックスの配列決定プレキシティを含む。そのような実施形態のいずれかの一部では、配列決定することは、死後サンプルについては8~16プレックスまたは約8~16プレックスの配列決定プレキシティを含み、および/または、配列決定することは、生前サンプルについては24~40プレックスまたは約24~40プレックスの配列決定プレキシティを含む。そのような実施形態のいずれかの一部では、配列決定することは、死後サンプルについては12プレックスまたは約12プレックスの配列決定プレキシティを含み、および/または、配列決定することは、生前サンプルについては32プレックスまたは約32プレックスの配列決定プレキシティを含む。そのような実施形態のいずれかの一部では、配列決定することは、30プレックス、31プレックスもしくは32プレックス、または約30プレックス、31プレックスもしくは32プレックスの配列決定プレキシティを含む。 In some of such embodiments, the sequencing comprises a sequencing plexity of up to 40-plex. In some of such embodiments, the sequencing comprises a sequencing plexity of up to 32-plex. In some of such embodiments, the sequencing comprises a sequencing plexity of 12-plex to 32-plex. In some of such embodiments, the sequencing comprises a sequencing plexity of 24-plex to 32-plex. In some of any of such embodiments, the sequencing is at or about 10-plex, 11-plex, 12-plex, 13-plex, 14-plex, 15-plex, 16-plex, 17-plex 18-plex, 19-plex, 20-plex, 21-plex, 22-plex, 23-plex, 24-plex, 25-plex, 26-plex, 27-plex, 28-plex, 29-plex, 30-plex, 31-plex, 32-plex, 33-plex, 34-plex, or 35-plex. In some embodiments, the sequencing comprises a sequencing plex of 18-plex, 19-plex, 20-plex, 21-plex, 22-plex, 23-plex, 24-plex, 25-plex, 26-plex, 27-plex, 28-plex, 29-plex, 30-plex, 31-plex, 32-plex, 33-plex, 34-plex, or 35-plex. In some embodiments, the sequencing comprises a sequencing plex of 8-16-plex or about 8-16-plex for post-mortem samples, and/or the sequencing comprises a sequencing plex of 24-40-plex or about 24-40-plex for ante-mortem samples. In some embodiments, the sequencing comprises a sequencing plex of 12-plex or about 12-plex for post-mortem samples, and/or the sequencing comprises a sequencing plex of 32-plex or about 32-plex for ante-mortem samples. In some of any of such embodiments, the sequencing comprises a sequencing complexity of 30-plex, 31-plex, or 32-plex, or about 30-plex, 31-plex, or 32-plex.
そのような実施形態のいずれかの一部では、方法は、関心のある人を身元確認することをさらに含む。 In some of any such embodiments, the method further includes verifying the identity of the person of interest.
血縁度を計算するための方法であって、少なくとも2,000~50,000個の間または約2,000~50,000個の間のSNPの遺伝子型を含むDNAプロファイルを得ることであって、DNAプロファイルが関心のある人からのものである、得ることと、DNAプロファイルと1つまたはそれを超える参照DNAプロファイルとの関連度を計算することであって、1つまたはそれを超える参照DNAプロファイルが、関心のある人の血縁者からの1つまたはそれを超える参照DNAプロファイルを含むDNAプロファイルの参照セット内に含まれる、計算することとを含む、方法も本明細書に提供される。 Also provided herein is a method for calculating degree of relatedness, comprising obtaining a DNA profile comprising genotypes for at least or between about 2,000 and 50,000 SNPs, where the DNA profile is from a person of interest, and calculating a degree of relatedness between the DNA profile and one or more reference DNA profiles, where the one or more reference DNA profiles are included in a reference set of DNA profiles that includes one or more reference DNA profiles from relatives of the person of interest.
血縁度を計算するための方法であって、少なくとも2,000~50,000個の間または約2,000~50,000個の間のSNPの遺伝子型を含むDNAプロファイルを生成することであって、DNAプロファイルが関心のある人からのものである、生成することと、DNAプロファイルと1つまたはそれを超える参照DNAプロファイルとの関連度を計算することであって、1つまたはそれを超える参照DNAプロファイルが、関心のある人の血縁者からの1つまたはそれを超える参照DNAプロファイルを含むDNAプロファイルの参照セット内に含まれる、計算することとを含む、方法も本明細書に提供される。 Also provided herein is a method for calculating degree of relatedness, the method comprising generating a DNA profile comprising genotypes for at least or between about 2,000 and 50,000 SNPs, where the DNA profile is from a person of interest, and calculating a degree of relatedness between the DNA profile and one or more reference DNA profiles, where the one or more reference DNA profiles are included in a reference set of DNA profiles that includes one or more reference DNA profiles from relatives of the person of interest.
そのような実施形態のいずれかの一部では、関連度は、血縁関係モデルを使用して計算される。そのような実施形態のいずれかの一部では、関連度は、PCA法を使用して訓練される血縁関係モデルを使用して計算される。一部の実施形態では、血縁関係モデルを訓練するためのPCA法は、PCAであるか、またはPCAを含む。そのような実施形態のいずれかの一部では、PCA法はPC-AiRである。一部の実施形態では、PC-AiRは、(1)訓練データベースの、必要に応じて訓練DNAプロファイルのサンプルの全ペア間の血縁係数を推定するステップであって、>0.025の血縁係数を有するペアリングは近縁であると確認され、<-0.025の血縁係数を有するペアリングは祖先分岐したものとして確認される、血縁係数を推定するステップと、(2)全てのサンプルを含む無関係なサンプルセットを初期化するステップと、(3)反復的に:(i)無関係なサンプルセット内の最も関連のあるサンプルを有する無関係なサンプルセット内のセットを特定し、それによってXと指定し、(ii)無関係なサンプルセット内のサンプルと比較して、最も少ない祖先分岐ペアリングを有するX内のサンプルのセットを特定し、それによってYと指定し、(iii)Yが0個のサンプルを有する場合、プロセスを終了するか、またはYが少なくとも1個のサンプルを有する場合、Yから1個のサンプルをランダムに選択してUから除去し、ステップ(3)(i)で開始して繰り返すステップと、を含む。 In some of any such embodiments, the relatedness is calculated using a kinship model. In some of such embodiments, the relatedness is calculated using a kinship model that is trained using a PCA method. In some embodiments, the PCA method for training the kinship model is or includes PCA. In some of such embodiments, the PCA method is PC-AiR. In some embodiments, PC-AiR includes the steps of: (1) estimating relatedness coefficients between all pairs of samples in a training database, and optionally, in a training DNA profile, where pairings with a relatedness coefficient >0.025 are confirmed as closely related and pairings with a relatedness coefficient <-0.025 are confirmed as ancestrally diverged; (2) initializing an unrelated sample set containing all samples; and (3) iteratively: (i) identifying a set in the unrelated sample set that has the most related samples in the unrelated sample set, thereby designating this set as X; (ii) identifying a set of samples in X that has the fewest ancestrally diverged pairings compared to the samples in the unrelated sample set, thereby designating this set as Y; and (iii) terminating the process if Y has 0 samples, or randomly selecting one sample from Y and removing it from U if Y has at least one sample, and repeating beginning with step (3)(i).
そのような実施形態のいずれかの一部では、PCA法は修正PC-Airである。そのような実施形態のいずれかの一部では、修正PC-AiRは、(1)訓練データベースの、必要に応じて訓練DNAプロファイルのサンプルの全ペア間の血縁係数を推定するステップであって、>0.01の血縁係数を有するペアリングは近縁であると確認され、<-0.025の血縁係数を有するペアリングは祖先分岐したものとして確認される、血縁係数を推定するステップと、(2)≧5%の欠測データを有する全てのDNAプロファイルを除去するステップと、(3)各DNAプロファイルをランキング値で特定することによって全てのDNAプロファイルをランク付けするステップと、を含む方法。いくつかの実施形態では、ランキング値は、最小~最大にランク付けされた完全なデータベース内の関連するDNAプロファイルの数に基づいて決定され、最大~最小にランク付けされた完全なデータベース内の祖先分岐したDNAプロファイルの数によって関係が絶たれる。いくつかの実施形態では、ステップ(3)は、ランク付けされたDNAプロファイルを繰り返すこと、および各DNAプロファイルについて、(i)DNAプロファイルがまだ関連するサンプルセットにない場合、それを無関係なサンプルセットに追加し、全ての関連するDNAプロファイルを関連するサンプルセットに追加すること、および(ii)DNAプロファイルが既に関連するサンプルセットにある場合、次のDNAプロファイルにスキップし、ステップ(3)(i)で開始して繰り返すことを含む。 In some of such embodiments, the PCA method is a modified PC-Air. In some of such embodiments, the modified PC-Air includes: (1) estimating relatedness coefficients between all pairs of samples of training DNA profiles, as appropriate, in a training database, where pairings with relatedness coefficients >0.01 are identified as closely related and pairings with relatedness coefficients <-0.025 are identified as ancestrally diverged; (2) removing all DNA profiles with ≥5% missing data; and (3) ranking all DNA profiles by assigning each DNA profile a ranking value. In some embodiments, the ranking value is determined based on the number of related DNA profiles in the complete database ranked from smallest to largest, broken down by the number of ancestrally diverged DNA profiles in the complete database ranked from largest to smallest. In some embodiments, step (3) includes iterating through the ranked DNA profiles, and for each DNA profile, (i) if the DNA profile is not already in the relevant sample set, adding it to the unrelated sample set and adding all relevant DNA profiles to the relevant sample set, and (ii) if the DNA profile is already in the relevant sample set, skipping to the next DNA profile and repeating starting with step (3)(i).
そのような実施形態のいずれかの一部では、関連度を計算することは、PC-Relateを使用して血縁係数を計算することを含む。そのような実施形態のいずれかの一部では、関連度は、関心のある人のDNAプロファイルをPC-Relateへの入力として提供することによって計算される。そのような実施形態のいずれかの一部では、関連度は、血縁関係モデルおよび関心のある人のDNAプロファイルをPC-Relateへの入力として提供することによって計算される。そのような実施形態のいずれかの一部では、1つまたはそれを超える参照DNAプロファイルは、PC-Relateへの入力としてさらに提供される。 In some of any such embodiments, calculating the degree of relatedness includes calculating the coefficient of relatedness using PC-Relate. In some of such embodiments, the degree of relatedness is calculated by providing a DNA profile of the person of interest as input to PC-Relate. In some of such embodiments, the degree of relatedness is calculated by providing a kinship model and a DNA profile of the person of interest as input to PC-Relate. In some of such embodiments, one or more reference DNA profiles are further provided as input to PC-Relate.
そのような実施形態のいずれかの一部では、関連度を計算することは、以下のように全ゲノム血縁関係アルゴリズムを使用して血縁係数を計算することを含み:
そのような実施形態のいずれかの一部では、関連度を計算することは、尤度比を計算することを含む。一部の実施形態では、尤度比を計算することは、DNAプロファイルと1つまたはそれを超える参照DNAプロファイルとの間で複数のSNPを比較することを含む。一部の実施形態では、尤度比を計算することは、DNAプロファイルと1つまたはそれを超える参照DNAプロファイルとの間で複数のSNPの中からの血縁関係SNPを含むSNPのセットを比較することを含む。 In some of any of such embodiments, calculating the degree of association includes calculating a likelihood ratio. In some embodiments, calculating the likelihood ratio includes comparing a plurality of SNPs between the DNA profile and one or more reference DNA profiles. In some embodiments, calculating the likelihood ratio includes comparing a set of SNPs, including related SNPs, from among the plurality of SNPs between the DNA profile and one or more reference DNA profiles.
そのような実施形態のいずれかの一部では、尤度比を計算することは、複数のSNPの遺伝子型に基づいて、DNAプロファイルおよび1つまたはそれを超える参照DNAプロファイルの中からの参照DNAプロファイルが関連している確率を、DNAプロファイルおよび参照DNAプロファイルが無関係である確率で割ることを含む。 In some of any of such embodiments, calculating the likelihood ratio includes dividing the probability that the DNA profile and a reference DNA profile from among the one or more reference DNA profiles are related by the probability that the DNA profile and the reference DNA profile are unrelated, based on the genotypes of the plurality of SNPs.
そのような実施形態のいずれかの一部では、尤度比(LR)は、以下のように計算され:
そのような実施形態のいずれかの一部では、LRは、以下のように計算され:
そのような実施形態のいずれかの一部では、関心のある人は生物学的に男性であり、方法は、DNAプロファイルと1つまたはそれを超える参照DNAプロファイルとの間でY染色体を共有する尤度比を計算することをさらに含む。一部の実施形態では、Y染色体を共有する尤度比を計算することは、DNAプロファイルと1つまたはそれを超える参照DNAプロファイルとの間で、1つまたはそれを超えるY-SNPを含むSNPのセットを比較することを含む。 In some of any of such embodiments, the person of interest is biologically male, and the method further includes calculating a likelihood ratio of sharing a Y chromosome between the DNA profile and one or more reference DNA profiles. In some embodiments, calculating the likelihood ratio of sharing a Y chromosome includes comparing a set of SNPs, including one or more Y-SNPs, between the DNA profile and one or more reference DNA profiles.
そのような実施形態のいずれかの一部では、1つまたはそれを超えるY-SNPは、複数のSNP内に含まれる。一部の実施形態では、1つまたはそれを超えるY-SNPは、少なくとも20、25、30、35、40、45、50、55、60、65、70、75、80、81、82、83、84、または85個のY-SNPを含む。そのような実施形態のいずれかの一部では、1つまたはそれを超えるY-SNPは85個のY-SNPを含む。 In some of any of such embodiments, the one or more Y-SNPs are included within the plurality of SNPs. In some embodiments, the one or more Y-SNPs include at least 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 81, 82, 83, 84, or 85 Y-SNPs. In some of such embodiments, the one or more Y-SNPs include 85 Y-SNPs.
そのような実施形態のいずれかの一部では、Y染色体を共有する尤度比を計算することは、1つまたはそれを超えるY-SNPの遺伝子型に基づいて、DNAプロファイルおよび1つまたはそれを超える参照DNAプロファイルの中からの参照DNAプロファイルはY染色体を共有する確率を、DNAプロファイルおよび参照DNAプロファイルはY染色体を共有しない確率で割ることを含む。 In some of any of such embodiments, calculating the likelihood ratio of sharing a Y chromosome includes dividing the probability that the DNA profile and a reference DNA profile from among the one or more reference DNA profiles share a Y chromosome by the probability that the DNA profile and the reference DNA profile do not share a Y chromosome, based on the genotypes of the one or more Y-SNPs.
そのような実施形態のいずれかの一部では、DNAプロファイルの参照セット内のDNAプロファイルの少なくとも90%、91%、92%、93%、94%、95%、96%、97%、98%、または99%は、行方不明者または災害もしくは紛争の犠牲者の血縁者からのものである。そのような実施形態のいずれかの一部では、DNAプロファイルの参照セット内のDNAプロファイルの各々は、行方不明者または災害もしくは紛争の犠牲者の血縁者からのものである。 In some of any such embodiments, at least 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, or 99% of the DNA profiles in the reference set of DNA profiles are from relatives of missing persons or victims of the disaster or conflict. In some of any such embodiments, each of the DNA profiles in the reference set of DNA profiles is from a relative of a missing person or victim of the disaster or conflict.
そのような実施形態のいずれかの一部では、DNAプロファイルの参照セットは、最大5、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175、200、300、400、500、600、700、800、900、または1000個の参照DNAプロファイルを含む。そのような実施形態のいずれかの一部では、DNAプロファイルの参照セットは、最大100個の参照DNAプロファイルを含む。 In some of any of such embodiments, the reference set of DNA profiles includes up to 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 125, 150, 175, 200, 300, 400, 500, 600, 700, 800, 900, or 1000 reference DNA profiles. In some of any of such embodiments, the reference set of DNA profiles includes up to 100 reference DNA profiles.
そのような実施形態のいずれかの一部では、DNAプロファイルの参照セット内の参照DNAプロファイルの少なくとも5%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、または95%は、関心のある人の血縁者からのものである。そのような実施形態のいずれかの一部では、DNAプロファイルの参照セット内の参照DNAプロファイルの少なくとも50%は、関心のある人の血縁者からのものである。 In some of any such embodiments, at least 5%, 10%, 15%, 20%, 25%, 30%, 35%, 40%, 45%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, or 95% of the reference DNA profiles in the reference set of DNA profiles are from relatives of the person of interest. In some of any such embodiments, at least 50% of the reference DNA profiles in the reference set of DNA profiles are from relatives of the person of interest.
そのような実施形態のいずれかの一部では、DNAプロファイルの参照セット内の関心のある人の各血縁者は、それぞれ、関心のある人の1親等、2親等、3親等、4親等、または5親等の血縁者である。 In some of any of such embodiments, each relative of the person of interest in the reference set of DNA profiles is a first-, second-, third-, fourth-, or fifth-degree relative of the person of interest, respectively.
そのような実施形態のいずれかの一部では、DNAプロファイルの参照セット内の関心のある人の各血縁者の同一性は既知である。そのような実施形態のいずれかの一部では、DNAプロファイルの参照セット内の関心のある人の各血縁者の同一性は既知である。そのような実施形態のいずれかの一部では、DNAプロファイルの参照セット内の1つまたはそれを超える参照DNAプロファイルの各々の同一性は既知である。 In some of any such embodiments, the identity of each relative of the person of interest in the reference set of DNA profiles is known. In some of such embodiments, the identity of each relative of the person of interest in the reference set of DNA profiles is known. In some of such embodiments, the identity of each of the one or more reference DNA profiles in the reference set of DNA profiles is known.
そのような実施形態のいずれかの一部では、DNAプロファイルの参照セットはデータベース内にある。一部の実施形態では、データベースは公的にアクセス可能ではない。そのような実施形態のいずれかの一部では、データベースは、第三者の系譜サービスによってアクセス可能でない。 In some of any such embodiments, the reference set of DNA profiles is in a database. In some embodiments, the database is not publicly accessible. In some of such embodiments, the database is not accessible by third-party genealogy services.
本明細書に記載の方法のいずれかを使用して構築された核酸ライブラリーも本明細書に提供される。 Also provided herein are nucleic acid libraries constructed using any of the methods described herein.
関心のある人からの核酸サンプル中に少なくとも2,000~50,000個または約2,000~50,000個の一塩基多型(SNP)を含む複数の標的配列に特異的にハイブリダイズする複数のプライマーであって、1つまたはそれを超えるマルチプレックスPCR反応において複数のプライマーを使用して核酸サンプルを増幅すると増幅産物が得られる、複数のプライマーも本明細書に提供される。 Also provided herein are a plurality of primers that specifically hybridize to a plurality of target sequences comprising at least 2,000 to 50,000 or about 2,000 to 50,000 single nucleotide polymorphisms (SNPs) in a nucleic acid sample from a person of interest, where amplification of the nucleic acid sample using the plurality of primers in one or more multiplex PCR reactions results in amplification products.
関心のある人からの核酸サンプルおよび1つまたはそれを超える参照サンプルからの核酸サンプル中に少なくとも2,000~50,000個の間または約2,000~50,000個の間の一塩基多型(SNP)を含む複数の標的配列に特異的にハイブリダイズする複数のプライマーであって、1つまたはそれを超える参照サンプルは、関心のある人の血縁者からのサンプルを含み、1つまたはそれを超えるマルチプレックスPCR反応において複数のプライマーを使用して、関心のある人からの核酸サンプルおよび1つまたはそれを超える参照サンプルからの核酸サンプルを増幅することが、増幅産物をもたらす、複数のプライマーも本明細書に提供される。 Also provided herein are a plurality of primers that specifically hybridize to a plurality of target sequences comprising at least 2,000 to 50,000 or about 2,000 to 50,000 single nucleotide polymorphisms (SNPs) in a nucleic acid sample from a person of interest and a nucleic acid sample from one or more reference samples, wherein the one or more reference samples include samples from relatives of the person of interest, and wherein amplifying the nucleic acid sample from the person of interest and the nucleic acid sample from the one or more reference samples using the plurality of primers in one or more multiplex PCR reactions results in amplification products.
そのような実施形態のいずれかの一部では、関心のある人からの核酸サンプルはゲノムDNAを含む。 In some of any of such embodiments, the nucleic acid sample from the person of interest comprises genomic DNA.
そのような実施形態のいずれかの一部では、関心のある人からの核酸サンプルは1つまたはそれを超える酵素阻害剤を含む。そのような実施形態のいずれかの一部では、1つまたはそれを超える酵素阻害剤は、ヘマチン、ヘム、フミン酸、インディゴ、タンニン酸、コラーゲン、カルシウムおよびヒドロキシアパタイトからなる群から選択される1つまたはそれを超える阻害剤を含む。そのような実施形態のいずれかの一部では、関心のある人からの核酸サンプルは、低品質核酸分子および/または少量の核酸分子を含む。一部の実施形態では、低品質核酸分子は、劣化ゲノムDNAおよび/または断片化されたゲノムDNAである。そのような実施形態のいずれかの一部では、低品質核酸分子は、1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、185、190、195もしくは200の劣化指数(DI)、または少なくとも1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、185、190、195もしくは200の劣化指数(DI)を有する。そのような実施形態のいずれかの一部では、低品質核酸分子は、少なくとも1および最大158.3またはそれ未満のDIを有する。そのような実施形態のいずれかの一部では、関心のある人からの核酸サンプルおよび/または1つまたはそれを超える参照サンプルからの核酸サンプルは、高品質の核酸分子を含む。そのような実施形態のいずれかの一部では、高品質核酸分子は1未満のDIを有する。 In some of any such embodiments, the nucleic acid sample from the person of interest comprises one or more enzyme inhibitors. In some of any such embodiments, the one or more enzyme inhibitors comprise one or more inhibitors selected from the group consisting of hematin, heme, humic acid, indigo, tannic acid, collagen, calcium, and hydroxyapatite. In some of any such embodiments, the nucleic acid sample from the person of interest comprises low-quality and/or low-abundance nucleic acid molecules. In some embodiments, the low-quality nucleic acid molecules are degraded and/or fragmented genomic DNA. In some of any of such embodiments, the low quality nucleic acid molecules are 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 105, 110, 115, 120, 125, 130, 135, 140, 145, 150, 155, 160, 165, 170, 175, 180, 185, 190, 195, or 200 or a Degradation Index (DI) of at least 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 105, 110, 115, 120, 125, 130, 135, 140, 145, 150, 155, 160, 165, 170, 175, 180, 185, 190, 195, or 200. In some of any of such embodiments, the low quality nucleic acid molecules have a DI of at least 1 and up to or below 158.3. In some of any of such embodiments, the nucleic acid sample from the person of interest and/or the nucleic acid sample from the one or more reference samples comprises high quality nucleic acid molecules. In some of any of such embodiments, high-quality nucleic acid molecules have a DI of less than 1.
そのような実施形態のいずれかの一部では、関心のある人は行方不明者である。そのような実施形態のいずれかの一部では、関心のある人は、災害または紛争の犠牲者である。 In some of such embodiments, the person of interest is a missing person. In some of such embodiments, the person of interest is a victim of a disaster or conflict.
そのような実施形態のいずれかの一部では、関心のある人からの核酸サンプルは、唾液、血液もしくは他の体液で含浸された、または毛髪もしくは皮膚細胞を含む、頬側スワブ、紙、布地または他の基材または物体に由来する。 In some of any of such embodiments, the nucleic acid sample from the person of interest is derived from a buccal swab, paper, fabric, or other substrate or object impregnated with saliva, blood, or other bodily fluid, or containing hair or skin cells.
そのような実施形態のいずれかの一部では、関心のある人からの核酸サンプルは、3pg~100ngまたは約3pg~100ngのゲノムDNAを含む。そのような実施形態のいずれかの一部では、関心のある人からの核酸サンプルは、100pg~5ngの間もしくは約100pg~5ngの間のゲノムDNA、50pg~5ngの間もしくは約50pg~5ngの間のゲノムDNA、または3pg~5ngの間もしくは約3pg~5ngの間のゲノムDNAを含む。そのような実施形態のいずれかの一部では、関心のある人からの核酸サンプルは1ngまたは約1ngのゲノムDNAを含む。 In some of any such embodiments, the nucleic acid sample from the person of interest comprises between 3 pg and 100 ng or about 3 pg and 100 ng of genomic DNA. In some of any such embodiments, the nucleic acid sample from the person of interest comprises between 100 pg and 5 ng or about 100 pg and 5 ng of genomic DNA, between 50 pg and 5 ng or about 50 pg and 5 ng of genomic DNA, or between 3 pg and 5 ng or about 3 pg and 5 ng of genomic DNA. In some of any such embodiments, the nucleic acid sample from the person of interest comprises 1 ng or about 1 ng of genomic DNA.
そのような実施形態のいずれかの一部では、複数のSNPは血縁関係SNP(kiSNP)を含む。そのような実施形態のいずれかの一部では、複数のSNPはY染色体SNP(Y-SNP)を含む。そのような実施形態のいずれかの一部では、複数のSNPは、kiSNPおよびY-SNPを含む。そのような実施形態のいずれかの一部では、複数のSNPは、kiSNP、生物地理学的祖先SNP(aiSNP)、同一性SNP(iiSNP)、表現型SNP(piSNP)、X染色体SNP(X-SNP)およびY染色体SNP(Y-SNP)を含む。そのような実施形態のいずれかの一部では、複数のSNPは、kiSNP、aiSNP、iiSNP、piSNP、X-SNPおよびY-SNPからなる群の1つまたはそれを超えるものから選択されるSNPを含む。 In some of such embodiments, the plurality of SNPs includes kinship SNPs (kiSNPs). In some of such embodiments, the plurality of SNPs includes Y-chromosome SNPs (Y-SNPs). In some of such embodiments, the plurality of SNPs includes kiSNPs and Y-SNPs. In some of such embodiments, the plurality of SNPs includes kiSNPs, biogeographic ancestry SNPs (aiSNPs), identity SNPs (iiSNPs), phenotype SNPs (piSNPs), X-chromosome SNPs (X-SNPs), and Y-chromosome SNPs (Y-SNPs). In some of such embodiments, the plurality of SNPs includes SNPs selected from one or more of the group consisting of kiSNPs, aiSNPs, iiSNPs, piSNPs, X-SNPs, and Y-SNPs.
そのような実施形態のいずれかの一部では、複数のSNPの少なくとも80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%もしくは99%、または少なくとも約80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%もしくは99%が血縁関係SNPである。そのような実施形態のいずれかの一部では、DNAプロファイルの参照セット内のDNAプロファイルの少なくとも90%、91%、92%、93%、94%、95%、96%、97%、98%、または99%が、行方不明者または災害もしくは紛争の犠牲者の血縁者からのものである。 In some of any of such embodiments, at least 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, or 99% of the plurality of SNPs are, or at least about 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, or 99% of the SNPs are related SNPs. In some of any of such embodiments, at least 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, or 99% of the DNA profiles in the reference set of DNA profiles are from relatives of missing persons or victims of the disaster or conflict.
そのような実施形態のいずれかの一部では、1つまたはそれを超える参照サンプルの各々は、行方不明者または災害もしくは紛争の犠牲者の血縁者からのものである。そのような実施形態のいずれかの一部では、1つまたはそれを超える参照サンプルは、最大5、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175、200、300、400、500、600、700、800、900、または1000個の参照サンプルを含む。そのような実施形態のいずれかの一部では、1つまたはそれを超える参照サンプルの少なくとも5%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、または95%が、関心のある人の血縁者からのものである。そのような実施形態のいずれかの一部では、DNAプロファイルの参照セット内の参照DNAプロファイルの少なくとも5%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、または95%が関心のある人の血縁者からのものであり、DNAプロファイルの参照セット内の参照DNAプロファイルの少なくとも5%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、または95%の各々が、1親等、2親等、3親等、4親等、または5親等の血縁者である。そのような実施形態のいずれかの一部では、1つまたはそれを超える参照サンプルの少なくとも50%が、関心のある人の血縁者からのものである。そのような実施形態のいずれかの一部では、1つまたはそれを超える参照サンプル内の関心のある人の各血縁者は、それぞれ、関心のある人の1親等、2親等、3親等、4親等、または5親等の血縁者である。そのような実施形態のいずれかの一部では、1つまたはそれを超える参照サンプル内の関心のある人の各血縁者は、それぞれ、関心のある人の1親等、2親等、または3親等の血縁者である。そのような実施形態のいずれかの一部では、1つまたはそれを超える参照サンプル内の関心のある人の各血縁者の同一性は既知である。そのような実施形態のいずれかの一部では、1つまたはそれを超える参照サンプルの各々の同一性は既知である。 In some of any such embodiments, each of the one or more reference samples is from a relative of a missing person or a victim of a disaster or conflict. In some of such embodiments, the one or more reference samples include up to 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 125, 150, 175, 200, 300, 400, 500, 600, 700, 800, 900, or 1000 reference samples. In some of any of such embodiments, at least 5%, 10%, 15%, 20%, 25%, 30%, 35%, 40%, 45%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, or 95% of the one or more reference samples are from relatives of the person of interest. In some of any of such embodiments, at least 5%, 10%, 15%, 20%, 25%, 30%, 35%, 40%, 45%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, or 95% of the reference DNA profiles in the reference set of DNA profiles are from relatives of the person of interest, and at least 5%, 10%, 15%, 20%, 25%, 30%, 35%, 40%, 45%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, or 95% of the reference DNA profiles in the reference set of DNA profiles are each from first-, second-, third-, fourth-, or fifth-degree relatives. In some of any of such embodiments, at least 50% of the one or more reference samples are from relatives of the person of interest. In some of any such embodiments, each relative of the person of interest in the one or more reference samples is a first-, second-, third-, fourth-, or fifth-degree relative of the person of interest, respectively. In some of any such embodiments, each relative of the person of interest in the one or more reference samples is a first-, second-, or third-degree relative of the person of interest, respectively. In some of any such embodiments, the identity of each relative of the person of interest in the one or more reference samples is known. In some of such embodiments, the identity of each of the one or more reference samples is known.
DNAプロファイルを構築するための方法であって、関心のある人からの核酸サンプルを提供すること、複数の少なくとも2,000~50,000個の間または約2,000~50,000個の間の一塩基多型(SNP)を集合的に含む複数の標的配列に特異的にハイブリダイズする複数のプライマーを用いて、核酸サンプルを増幅させ、それによって増幅産物を生成することであって、増幅を1つまたはそれを超えるマルチプレックスPCR反応で行うことと、増幅産物を配列決定することと、複数のSNPの遺伝子型を決定し、それによってDNAプロファイルを生成することと、を含む方法も本明細書に提供される。 Also provided herein is a method for constructing a DNA profile, comprising: providing a nucleic acid sample from a person of interest; amplifying the nucleic acid sample with a plurality of primers that specifically hybridize to a plurality of target sequences collectively comprising at least or about 2,000 to 50,000 single nucleotide polymorphisms (SNPs), thereby generating amplified products, wherein the amplification is performed in one or more multiplex PCR reactions; sequencing the amplified products; and genotyping the plurality of SNPs, thereby generating a DNA profile.
DNAプロファイルを構築するための方法であって、関心のある人からの核酸サンプルを提供すること、関心のある人の血縁者からの核酸サンプルを提供することと、複数の少なくとも2,000~50,000個の間または約2,000~50,000個の間の一塩基多型(SNP)を集合的に含む複数の標的配列に特異的にハイブリダイズする複数のプライマーを用いて、関心のある人からの核酸サンプルおよび血縁者からの核酸サンプルを増幅させ、それによって増幅産物を生成することであって、増幅を1つまたはそれを超えるマルチプレックスPCR反応で行うことと、増幅産物を配列決定することと、複数のSNPの遺伝子型を決定し、それによって、関心のある人および関心のある人の血縁者のDNAプロファイルを生成することと、を含む方法も本明細書に提供される。 Also provided herein is a method for constructing a DNA profile, the method comprising: providing a nucleic acid sample from a person of interest; providing a nucleic acid sample from a relative of the person of interest; amplifying the nucleic acid sample from the person of interest and the nucleic acid sample from the relative with a plurality of primers that specifically hybridize to a plurality of target sequences collectively comprising at least or about 2,000 to 50,000 single nucleotide polymorphisms (SNPs), thereby generating amplification products, wherein the amplification is performed in one or more multiplex PCR reactions; sequencing the amplification products; and genotyping the plurality of SNPs, thereby generating a DNA profile for the person of interest and the relative of the person of interest.
そのような実施形態のいずれかの一部では、配列決定することは全ゲノム配列決定(WGS)を含まない。そのような実施形態のいずれかの一部では、核酸サンプルはゲノムDNAを含む。そのような実施形態のいずれかの一部では、関心のある人の核酸サンプルおよび/または関心のある人の血縁者の核酸サンプルは、ゲノムDNAを含む。 In some of any such embodiments, the sequencing does not include whole genome sequencing (WGS). In some of such embodiments, the nucleic acid sample comprises genomic DNA. In some of such embodiments, the nucleic acid sample of the person of interest and/or the nucleic acid sample of a relative of the person of interest comprises genomic DNA.
そのような実施形態のいずれかの一部では、核酸サンプル、関心のある人の核酸サンプルおよび/または血縁者の核酸サンプルは、1つまたはそれを超える酵素阻害剤を含む。一部の実施形態では、1つまたはそれを超える酵素阻害剤は、ヘマチン、ヘム、フミン酸、インディゴ、タンニン酸、コラーゲン、カルシウムおよびヒドロキシアパタイトからなる群から選択される1つまたはそれを超える阻害剤を含む。 In some of any of such embodiments, the nucleic acid sample, the nucleic acid sample of the person of interest, and/or the nucleic acid sample of the relative comprises one or more enzyme inhibitors. In some embodiments, the one or more enzyme inhibitors comprise one or more inhibitors selected from the group consisting of hematin, heme, humic acid, indigo, tannic acid, collagen, calcium, and hydroxyapatite.
そのような実施形態のいずれかの一部では、核酸サンプル、関心のある人の核酸サンプルおよび/または血縁者の核酸サンプルは、低品質の核酸分子および/または少量の核酸分子を含む。一部の実施形態では、低品質核酸分子は、劣化ゲノムDNAおよび/または断片化されたゲノムDNAである。そのような実施形態のいずれかの一部では、低品質核酸分子は、1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、185、190、195もしくは200の劣化指数(DI)、または少なくとも1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、185、190、195もしくは200の劣化指数(DI)を有する。そのような実施形態のいずれかの一部では、低品質核酸分子は、少なくとも1および最大158.3またはそれ未満のDIを有する。そのような実施形態のいずれかの一部では、核酸サンプル、関心のある人の核酸サンプルおよび/または血縁者の核酸サンプルは高品質核酸分子を含む。一部の実施形態では、高品質核酸分子は1未満のDIを有する。 In some of any of such embodiments, the nucleic acid sample, the nucleic acid sample of the person of interest, and/or the nucleic acid sample of the relative, comprises low quality and/or low abundance nucleic acid molecules. In some embodiments, the low quality nucleic acid molecules are degraded and/or fragmented genomic DNA. In some of such embodiments, the low quality nucleic acid molecules comprise 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 105, 110, 115, 120, 125, 130, 135, 140, 145, 150, 155, 160, 165, 170, 175, 180, 185, 190, 195, or 200 or a Degradation Index (DI) of at least 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 105, 110, 115, 120, 125, 130, 135, 140, 145, 150, 155, 160, 165, 170, 175, 180, 185, 190, 195, or 200. In some of any of such embodiments, the low quality nucleic acid molecules have a DI of at least 1 and up to 158.3 or less. In some of such embodiments, the nucleic acid sample, the nucleic acid sample of the person of interest, and/or the nucleic acid sample of the relative comprises high quality nucleic acid molecules. In some embodiments, the high quality nucleic acid molecules have a DI of less than 1.
そのような実施形態のいずれかの一部では、関心のある人は行方不明者である。そのような実施形態のいずれかの一部では、関心のある人は、災害または紛争の犠牲者である。 In some of such embodiments, the person of interest is a missing person. In some of such embodiments, the person of interest is a victim of a disaster or conflict.
そのような実施形態のいずれかの一部では、関心のある人の血縁者は、1親等、2親等、3親等、4親等、または5親等の血縁者である。そのような実施形態のいずれかの一部では、関心のある人の血縁者は、1親等、2親等、または3親等の血縁者である。 In some of any such embodiments, the blood relatives of the person of interest are first-, second-, third-, fourth-, or fifth-degree relatives. In some of any such embodiments, the blood relatives of the person of interest are first-, second-, or third-degree relatives.
そのような実施形態のいずれかの一部では、核酸サンプル、関心のある人の核酸サンプルおよび/または血縁者の核酸サンプルは、唾液、血液もしくは他の体液で含浸された、または毛髪もしくは皮膚細胞を含む、頬側スワブ、紙、布地または他の基材または物体に由来する。 In some of any of such embodiments, the nucleic acid sample, the nucleic acid sample of the person of interest and/or the nucleic acid sample of the relative is derived from a buccal swab, paper, fabric or other substrate or object impregnated with saliva, blood or other bodily fluid, or containing hair or skin cells.
そのような実施形態のいずれかの一部では、核酸サンプル、関心のある人の核酸サンプルおよび/または血縁者の核酸サンプルは、3pg~100ngまたは約3pg~100ngのゲノムDNAを含む。そのような実施形態のいずれかの一部では、核酸サンプル、関心のある人の核酸サンプルおよび/または血縁者の核酸サンプルは、100pg~5ngの間もしくは約100pg~5ngの間のゲノムDNA、50pg~5ngの間もしくは約50pg~5ngの間のゲノムDNA、または3pg~5ngの間もしくは約3pg~5ngの間のゲノムDNAを含む。そのような実施形態のいずれかの一部では、核酸サンプル、関心のある人の核酸サンプルおよび/または血縁者の核酸サンプルは1ngまたは約1ngのゲノムDNAを含む。 In some of any such embodiments, the nucleic acid sample, the nucleic acid sample of the person of interest, and/or the nucleic acid sample of the relative comprises between 3 pg and 100 ng or between about 3 pg and 100 ng of genomic DNA. In some of any such embodiments, the nucleic acid sample, the nucleic acid sample of the person of interest, and/or the nucleic acid sample of the relative comprises between 100 pg and 5 ng or between about 100 pg and 5 ng of genomic DNA, between 50 pg and 5 ng or between about 50 pg and 5 ng of genomic DNA, or between 3 pg and 5 ng or between about 3 pg and 5 ng of genomic DNA. In some of any such embodiments, the nucleic acid sample, the nucleic acid sample of the person of interest, and/or the nucleic acid sample of the relative comprises 1 ng or about 1 ng of genomic DNA.
そのような実施形態のいずれかの一部では、複数のSNPは血縁関係SNPを含む。そのような実施形態のいずれかの一部では、複数のSNPはY染色体SNP(Y-SNP)を含む。そのような実施形態のいずれかの一部では、複数のSNPは、kiSNPおよびY-SNPを含む。そのような実施形態のいずれかの一部では、複数のSNPは、kiSNP、生物地理学的祖先SNP(aiSNP)、同一性SNP(iiSNP)、表現型SNP(piSNP)、X染色体SNP(X-SNP)およびY染色体SNP(Y-SNP)を含む。そのような実施形態のいずれかの一部では、複数のSNPは、kiSNP、aiSNP、iiSNP、piSNP、X-SNPおよびY-SNPからなる群の1つまたはそれを超えるものから選択されるSNPを含む。そのような実施形態のいずれかの一部では、複数のSNPの少なくとも80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%もしくは99%、または少なくとも約80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%もしくは99%が血縁関係SNPである。 In some of such embodiments, the plurality of SNPs includes kinship SNPs. In some of such embodiments, the plurality of SNPs includes Y-chromosome SNPs (Y-SNPs). In some of such embodiments, the plurality of SNPs includes kiSNPs and Y-SNPs. In some of such embodiments, the plurality of SNPs includes kiSNPs, biogeographic ancestry SNPs (aiSNPs), identity SNPs (iiSNPs), phenotype SNPs (piSNPs), X-chromosome SNPs (X-SNPs), and Y-chromosome SNPs (Y-SNPs). In some of such embodiments, the plurality of SNPs includes SNPs selected from one or more of the group consisting of kiSNPs, aiSNPs, iiSNPs, piSNPs, X-SNPs, and Y-SNPs. In some of any of such embodiments, at least or at least about 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, or 99% of the plurality of SNPs are related SNPs.
そのような実施形態のいずれかの一部では、配列決定することは、最大40プレックスの配列決定プレキシティを含む。そのような実施形態のいずれかの一部では、配列決定することは、最大32プレックスの配列決定プレキシティを含む。そのような実施形態のいずれかの一部では、配列決定することは、12プレックス~32プレックスの配列決定プレキシティを含む。そのような実施形態のいずれかの一部では、配列決定することは、24プレックス~32プレックスの配列決定プレキシティを含む。そのような実施形態のいずれかの一部では、配列決定することは、4プレックス、5プレックス、6プレックス、7プレックス、8プレックス、9プレックス、10プレックス、11プレックス、12プレックス、13プレックス、14プレックス、15プレックス、16プレックス、17プレックス 18プレックス、19プレックス、20プレックス、21プレックス、22プレックス、23プレックス、24プレックス、25プレックス、26プレックス、27プレックス、28プレックス、29プレックス、30プレックス、31プレックス、32プレックス、33プレックス、34プレックス、35プレックス、36プレックス、37プレックス、38プレックス、39プレックス、40プレックス、41プレックス、42プレックス、43プレックス、44プレックスもしくは45プレックス、または約4プレックス、5プレックス、6プレックス、7プレックス、8プレックス、9プレックス、10プレックス、11プレックス、12プレックス、13プレックス、14プレックス、15プレックス、16プレックス、17プレックス 18プレックス、19プレックス、20プレックス、21プレックス、22プレックス、23プレックス、24プレックス、25プレックス、26プレックス、27プレックス、28プレックス、29プレックス、30プレックス、31プレックス、32プレックス、33プレックス、34プレックス、35プレックス、36プレックス、37プレックス、38プレックス、39プレックス、40プレックス、41プレックス、42プレックス、43プレックス、44プレックスもしくは45プレックスの配列決定プレキシティを含む。そのような実施形態のいずれかの一部では、配列決定することは、10プレックス、11プレックス、12プレックス、13プレックス、14プレックス、15プレックス、16プレックス、17プレックス 18プレックス、19プレックス、20プレックス、21プレックス、22プレックス、23プレックス、24プレックス、25プレックス、26プレックス、27プレックス、28プレックス、29プレックス、30プレックス、31プレックス、32プレックス、33プレックス、34プレックスもしくは35プレックス、または約10プレックス、11プレックス、12プレックス、13プレックス、14プレックス、15プレックス、16プレックス、17プレックス 18プレックス、19プレックス、20プレックス、21プレックス、22プレックス、23プレックス、24プレックス、25プレックス、26プレックス、27プレックス、28プレックス、29プレックス、30プレックス、31プレックス、32プレックス、33プレックス、34プレックスもしくは35プレックスの配列決定プレキシティを含む。そのような実施形態のいずれかの一部では、配列決定することは、死後サンプルについては8~16プレックスまたは約8~16プレックスの配列決定プレキシティを含み、および/または、配列決定することは、生前サンプルについては24~40プレックスまたは約24~40プレックスの配列決定プレキシティを含む。そのような実施形態のいずれかの一部では、配列決定することは、死後サンプルについては12プレックスまたは約12プレックスの配列決定プレキシティを含み、および/または、配列決定することは、生前サンプルについては32プレックスまたは約32プレックスの配列決定プレキシティを含む。そのような実施形態のいずれかの一部では、配列決定することは、30プレックス、31プレックスもしくは32プレックス、または約30プレックス、31プレックスもしくは32プレックスの配列決定プレキシティを含む。 In some of such embodiments, the sequencing comprises a sequencing plexity of up to 40-plex. In some of such embodiments, the sequencing comprises a sequencing plexity of up to 32-plex. In some of such embodiments, the sequencing comprises a sequencing plexity of 12-plex to 32-plex. In some of such embodiments, the sequencing comprises a sequencing plexity of 24-plex to 32-plex. In some of such embodiments, the sequencing comprises a sequencing plexity of 4-plex, 5-plex, 6-plex, 7-plex, 8-plex, 9-plex, 10-plex, 11-plex, 12-plex, 13-plex, 14-plex, 15-plex, 16-plex, 17-plex, 18-plex, 19-plex, 20-plex, 21-plex, 22-plex, 23-plex, 24-plex, 25-plex, 26-plex, 27-plex, 28-plex, 29-plex, 30-plex, 31-plex, 32-plex, 33-plex, 34-plex, 35-plex, 36-plex, 37-plex, 38-plex, 39-plex, 40-plex, 41-plex, 42-plex, 43-plex, 44-plex or 45-plex, or about 4-plex, 5-plex, 6-plex, 7-plex, 8-plex, 9-plex, 10-plex, 11-plex, 12-plex, 13-plex, 14-plex, 15-plex, 16-plex, 17-plex including a sequencing complexity of 18-plex, 19-plex, 20-plex, 21-plex, 22-plex, 23-plex, 24-plex, 25-plex, 26-plex, 27-plex, 28-plex, 29-plex, 30-plex, 31-plex, 32-plex, 33-plex, 34-plex, 35-plex, 36-plex, 37-plex, 38-plex, 39-plex, 40-plex, 41-plex, 42-plex, 43-plex, 44-plex or 45-plex. In some of any of such embodiments, the sequencing is at or about 10-plex, 11-plex, 12-plex, 13-plex, 14-plex, 15-plex, 16-plex, 17-plex 18-plex, 19-plex, 20-plex, 21-plex, 22-plex, 23-plex, 24-plex, 25-plex, 26-plex, 27-plex, 28-plex, 29-plex, 30-plex, 31-plex, 32-plex, 33-plex, 34-plex, or 35-plex. In some embodiments, the sequencing comprises a sequencing plex of 18-plex, 19-plex, 20-plex, 21-plex, 22-plex, 23-plex, 24-plex, 25-plex, 26-plex, 27-plex, 28-plex, 29-plex, 30-plex, 31-plex, 32-plex, 33-plex, 34-plex, or 35-plex. In some embodiments, the sequencing comprises a sequencing plex of 8-16-plex or about 8-16-plex for post-mortem samples, and/or the sequencing comprises a sequencing plex of 24-40-plex or about 24-40-plex for ante-mortem samples. In some embodiments, the sequencing comprises a sequencing plex of 12-plex or about 12-plex for post-mortem samples, and/or the sequencing comprises a sequencing plex of 32-plex or about 32-plex for ante-mortem samples. In some of any of such embodiments, the sequencing comprises a sequencing complexity of 30-plex, 31-plex, or 32-plex, or about 30-plex, 31-plex, or 32-plex.
DNAプロファイルの遺伝的血縁者を身元確認する方法であって、請求項127~161のいずれか1項に記載のDNAプロファイルと1つまたはそれを超える参照DNAプロファイルとの関連度を計算することであって、1つまたはそれを超える参照DNAプロファイルは、関心のある人の血縁者からの1つまたはそれを超える参照DNAプロファイルを含むDNAプロファイルの参照セット内に含まれる、計算することと、1つまたはそれを超える参照DNAプロファイルに関連してDNAプロファイルを含む家系図を生成することと、を含む方法も本明細書に提供される。 Also provided herein is a method for identifying genetic relatives of a DNA profile, the method comprising: calculating a degree of relatedness between a DNA profile according to any one of claims 127 to 161 and one or more reference DNA profiles, the one or more reference DNA profiles being included within a reference set of DNA profiles comprising one or more reference DNA profiles from relatives of the person of interest; and generating a pedigree comprising the DNA profile in relation to the one or more reference DNA profiles.
一部の実施形態では、1つまたはそれを超える参照DNAプロファイルはデータベースの一部である。 In some embodiments, one or more reference DNA profiles are part of a database.
そのような実施形態のいずれかの一部では、DNAプロファイルの参照セットは、最大5、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175、200、300、400、500、600、700、800、900、または1000個の参照DNAプロファイルを含む。そのような実施形態のいずれかの一部では、DNAプロファイルの参照セット内の参照DNAプロファイルの少なくとも5%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、または95%が、関心のある人の血縁者からのものである。そのような実施形態のいずれかの一部では、DNAプロファイルの参照セット内の参照DNAプロファイルの少なくとも50%が、関心のある人の血縁者からのものである。そのような実施形態のいずれかの一部では、関心のある人の各血縁者は、それぞれ、関心のある人の1親等、2親等、3親等、4親等、または5親等の血縁者である。 In some of any of such embodiments, the reference set of DNA profiles includes up to 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 125, 150, 175, 200, 300, 400, 500, 600, 700, 800, 900, or 1000 reference DNA profiles. In some of any of such embodiments, at least 5%, 10%, 15%, 20%, 25%, 30%, 35%, 40%, 45%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, or 95% of the reference DNA profiles in the reference set of DNA profiles are from relatives of the person of interest. In some of any such embodiments, at least 50% of the reference DNA profiles in the reference set of DNA profiles are from relatives of the person of interest. In some of any such embodiments, each relative of the person of interest is a first-, second-, third-, fourth-, or fifth-degree relative of the person of interest, respectively.
そのような実施形態のいずれかの一部では、DNAプロファイルの参照セット内の関心のある人の各血縁者の同一性は既知である。そのような実施形態のいずれかの一部では、DNAプロファイルの参照セット内の1つまたはそれを超える参照DNAプロファイルの各々の同一性は既知である。 In some of such embodiments, the identity of each relative of the person of interest in the reference set of DNA profiles is known. In some of such embodiments, the identity of each of the one or more reference DNA profiles in the reference set of DNA profiles is known.
そのような実施形態のいずれかの一部では、DNAプロファイルの参照セットはデータベース内にある。一部の実施形態では、データベースは公的にアクセス可能ではない。そのような実施形態のいずれかの一部では、データベースは、第三者の系譜サービスによってアクセス可能でない。 In some of any such embodiments, the reference set of DNA profiles is in a database. In some embodiments, the database is not publicly accessible. In some of such embodiments, the database is not accessible by third-party genealogy services.
DNAプロファイルの同一性を確認する方法であって、少なくとも2,000~50,000個の間または約2,000~50,000個の間のSNPの遺伝子型を含むDNAプロファイルと1つまたはそれを超える参照DNAプロファイルとの関連度を計算することであって、DNAプロファイルが関心のある人からのものであり、1つまたはそれを超える参照DNAプロファイルが、関心のある人の血縁者からの1つまたはそれを超える参照DNAプロファイルを含むDNAプロファイルの参照セット内に含まれる、計算することと、1つまたはそれを超える参照DNAプロファイルに関連してDNAプロファイルを含む家系図を生成することと、を含む方法も本明細書に提供される。 Also provided herein is a method for confirming the identity of a DNA profile, the method comprising: calculating a degree of relatedness between a DNA profile comprising genotypes for at least or between about 2,000 and 50,000 SNPs and one or more reference DNA profiles, where the DNA profile is from a person of interest and the one or more reference DNA profiles are included within a reference set of DNA profiles that includes one or more reference DNA profiles from relatives of the person of interest; and generating a pedigree that includes the DNA profile in relation to the one or more reference DNA profiles.
一部の実施形態では、DNAプロファイルは、本明細書に記載のDNAプロファイルを生成する方法のいずれかによって生成される。 In some embodiments, the DNA profile is generated by any of the methods for generating a DNA profile described herein.
そのような実施形態のいずれかの一部では、関連度は、血縁関係モデルを使用して計算される。そのような実施形態のいずれかの一部では、関連度は、PCA法を使用して訓練される血縁関係モデルを使用して計算される。一部の実施形態では、血縁関係モデルを訓練するためのPCA法は、PCAであるか、またはPCAを含む。そのような実施形態のいずれかの一部では、PCA法はPC-AiRである。そのような実施形態のいずれかの一部では、PC-AiRは、(1)訓練データベースの、必要に応じて訓練DNAプロファイルのサンプルの全ペア間の血縁係数を推定するステップであって、>0.025の血縁係数を有するペアリングは近縁であると確認され、<-0.025の血縁係数を有するペアリングは祖先分岐したものとして確認される、血縁係数を推定するステップと、(2)全てのサンプルを含む無関係なサンプルセットを初期化するステップと、(3)反復的に:(i)無関係なサンプルセット内の最も関連のあるサンプルを有する無関係なサンプルセット内のセットを特定し、それによってXと指定し、(ii)無関係なサンプルセット内のサンプルと比較して、最も少ない祖先分岐ペアリングを有するX内のサンプルのセットを特定し、それによってYと指定し、(iii)Yが0個のサンプルを有する場合、プロセスを終了するか、またはYが少なくとも1個のサンプルを有する場合、Yから1個のサンプルをランダムに選択してUから除去し、ステップ(3)(i)で開始して繰り返すステップと、を含む。 In some of any such embodiments, the relatedness is calculated using a kinship model. In some of such embodiments, the relatedness is calculated using a kinship model that is trained using a PCA method. In some embodiments, the PCA method for training the kinship model is or includes PCA. In some of such embodiments, the PCA method is PC-AiR. In some of such embodiments, PC-AiR includes: (1) estimating relatedness coefficients between all pairs of samples in a training database, and optionally in a training DNA profile, where pairings with a relatedness coefficient >0.025 are identified as closely related and pairings with a relatedness coefficient <-0.025 are identified as ancestrally diverged; (2) initializing an unrelated sample set containing all samples; and (3) iteratively: (i) identifying a set in the unrelated sample set that has the most related samples in the unrelated sample set, thereby designating this set as X; (ii) identifying a set of samples in X that has the fewest ancestrally diverged pairings compared to the samples in the unrelated sample set, thereby designating this set as Y; and (iii) terminating the process if Y has 0 samples, or randomly selecting one sample from Y and removing it from U if Y has at least one sample, and repeating beginning with step (3)(i).
そのような実施形態のいずれかの一部では、PCA法は修正PC-Airである。一部の実施形態では、修正PC-AiRは、(1)訓練データベースの、必要に応じて訓練DNAプロファイルのサンプルの全ペア間の血縁係数を推定するステップであって、>0.01の血縁係数を有するペアリングは近縁であると確認され、<-0.025の血縁係数を有するペアリングは祖先分岐したものとして確認される、血縁係数を推定するステップと、(2)≧5%の欠測データを有する全てのDNAプロファイルを除去するステップと、(3)各DNAプロファイルをランキング値で特定することによって全てのDNAプロファイルをランク付けするステップと、を含む方法。いくつかの実施形態では、ランキング値は、最小~最大にランク付けされた完全なデータベース内の関連するDNAプロファイルの数に基づいて決定され、最大~最小にランク付けされた完全なデータベース内の祖先分岐したDNAプロファイルの数によって関係が絶たれる。いくつかの実施形態では、ステップ(3)は、ランク付けされたDNAプロファイルを繰り返すこと、および各DNAプロファイルについて、(i)DNAプロファイルがまだ関連するサンプルセットにない場合、それを無関係なサンプルセットに追加し、全ての関連するDNAプロファイルを関連するサンプルセットに追加すること、および(ii)DNAプロファイルが既に関連するサンプルセットにある場合、次のDNAプロファイルにスキップし、ステップ(3)(i)で開始して繰り返すことを含む。 In some of such embodiments, the PCA method is a modified PC-Air. In some embodiments, the modified PC-Air includes: (1) estimating relatedness coefficients between all pairs of samples, optionally training DNA profiles, in a training database, where pairings with a relatedness coefficient >0.01 are identified as closely related and pairings with a relatedness coefficient <-0.025 are identified as ancestrally diverged; (2) removing all DNA profiles with ≥5% missing data; and (3) ranking all DNA profiles by assigning each DNA profile a ranking value. In some embodiments, the ranking value is determined based on the number of related DNA profiles in the complete database ranked from smallest to largest, broken down by the number of ancestrally diverged DNA profiles in the complete database ranked from largest to smallest. In some embodiments, step (3) includes iterating through the ranked DNA profiles, and for each DNA profile, (i) if the DNA profile is not already in the relevant sample set, adding it to the unrelated sample set and adding all relevant DNA profiles to the relevant sample set, and (ii) if the DNA profile is already in the relevant sample set, skipping to the next DNA profile and repeating starting with step (3)(i).
そのような実施形態のいずれかの一部では、関連度を計算することは、PC-Relateを使用して血縁係数を計算することを含む。一部の実施形態では、関連度は、関心のある人のDNAプロファイルをPC-Relateへの入力として提供することによって計算される。そのような実施形態のいずれかの一部では、関連度は、血縁関係モデルおよび関心のある人のDNAプロファイルをPC-Relateへの入力として提供することによって計算される。 In some of such embodiments, calculating the degree of relatedness includes calculating the coefficient of relatedness using PC-Relate. In some embodiments, the degree of relatedness is calculated by providing a DNA profile of the person of interest as input to PC-Relate. In some of such embodiments, the degree of relatedness is calculated by providing a kinship model and a DNA profile of the person of interest as input to PC-Relate.
そのような実施形態のいずれかの一部では、1つまたはそれを超える参照DNAプロファイルは、PC-Relateへの入力としてさらに提供される。 In some of any of such embodiments, one or more reference DNA profiles are further provided as input to PC-Relate.
そのような実施形態のいずれかの一部では、関連度を計算することは、以下のように全ゲノム血縁関係アルゴリズムを使用して血縁係数を計算することを含み:
そのような実施形態のいずれかの一部では、関連度を計算することは、尤度比を計算することを含む。一部の実施形態では、尤度比を計算することは、DNAプロファイルと1つまたはそれを超える参照DNAプロファイルとの間で複数のSNPを比較することを含む。一部の実施形態では、尤度比を計算することは、DNAプロファイルと1つまたはそれを超える参照DNAプロファイルとの間で複数のSNPの中からの血縁関係SNPを含むSNPのセットを比較することを含む。 In some of any of such embodiments, calculating the degree of association includes calculating a likelihood ratio. In some embodiments, calculating the likelihood ratio includes comparing a plurality of SNPs between the DNA profile and one or more reference DNA profiles. In some embodiments, calculating the likelihood ratio includes comparing a set of SNPs, including related SNPs, from among the plurality of SNPs between the DNA profile and one or more reference DNA profiles.
そのような実施形態のいずれかの一部では、尤度比を計算することは、複数のSNPの遺伝子型に基づいて、DNAプロファイルおよび1つまたはそれを超える参照DNAプロファイルの中からの参照DNAプロファイルが関連している確率を、DNAプロファイルおよび参照DNAプロファイルが無関係である確率で割ることを含む。 In some of any of such embodiments, calculating the likelihood ratio includes dividing the probability that the DNA profile and a reference DNA profile from among the one or more reference DNA profiles are related by the probability that the DNA profile and the reference DNA profile are unrelated, based on the genotypes of the plurality of SNPs.
そのような実施形態のいずれかの一部では、尤度比(LR)は、以下のように計算され:
そのような実施形態のいずれかの一部では、関心のある人は生物学的に男性であり、方法は、DNAプロファイルと1つまたはそれを超える参照DNAプロファイルとの間でY染色体を共有する尤度比を計算することをさらに含む。一部の実施形態では、Y染色体を共有する尤度比を計算することは、DNAプロファイルと1つまたはそれを超える参照DNAプロファイルとの間で、1つまたはそれを超えるY-SNPを含むSNPのセットを比較することを含む。一部の実施形態では、1つまたはそれを超えるY-SNPは、複数のSNP内に含まれる。そのような実施形態のいずれかの一部では、1つまたはそれを超えるY-SNPは、少なくとも20、25、30、35、40、45、50、55、60、65、70、75、80、81、82、83、84、または85個のY-SNPを含む。そのような実施形態のいずれかの一部では、1つまたはそれを超えるY-SNPは85個のY-SNPを含む。 In some of any such embodiments, the person of interest is biologically male, and the method further comprises calculating a likelihood ratio of sharing a Y chromosome between the DNA profile and one or more reference DNA profiles. In some embodiments, calculating the likelihood ratio of sharing a Y chromosome comprises comparing a set of SNPs comprising one or more Y-SNPs between the DNA profile and one or more reference DNA profiles. In some embodiments, the one or more Y-SNPs are included within a plurality of SNPs. In some of any such embodiments, the one or more Y-SNPs include at least 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 81, 82, 83, 84, or 85 Y-SNPs. In some of any such embodiments, the one or more Y-SNPs include 85 Y-SNPs.
そのような実施形態のいずれかの一部では、Y染色体を共有する尤度比を計算することは、1つまたはそれを超えるY-SNPの遺伝子型に基づいて、DNAプロファイルおよび1つまたはそれを超える参照DNAプロファイルの中からの参照DNAプロファイルがY染色体を共有する確率を、DNAプロファイルおよび参照DNAプロファイルがY染色体を共有しない確率で割ることを含む。 In some of any of such embodiments, calculating the likelihood ratio of sharing a Y chromosome includes dividing the probability that the DNA profile and a reference DNA profile from among the one or more reference DNA profiles share a Y chromosome, based on the genotypes of the one or more Y-SNPs, by the probability that the DNA profile and the reference DNA profile do not share a Y chromosome.
そのような実施形態のいずれかの一部では、DNAプロファイルの参照セット内のDNAプロファイルの少なくとも90%、91%、92%、93%、94%、95%、96%、97%、98%、または99%が、行方不明者または災害もしくは紛争の犠牲者の血縁者からのものである。 In some of any of such embodiments, at least 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, or 99% of the DNA profiles in the reference set of DNA profiles are from relatives of missing persons or victims of the disaster or conflict.
そのような実施形態のいずれかの一部では、1つまたはそれを超える参照サンプルの各々が、行方不明者または災害もしくは紛争の犠牲者の血縁者からのものである。そのような実施形態のいずれかの一部では、1つまたはそれを超える参照サンプルは、最大5、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175、200、300、400、500、600、700、800、900、または1000個の参照DNAサンプルを含む。 In some of any such embodiments, each of the one or more reference samples is from a relative of a missing person or a victim of the disaster or conflict. In some of such embodiments, the one or more reference samples include up to 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 125, 150, 175, 200, 300, 400, 500, 600, 700, 800, 900, or 1000 reference DNA samples.
そのような実施形態のいずれかの一部では、1つまたはそれを超える参照サンプルの少なくとも5%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、または95%が、関心のある人の血縁者からのものである。そのような実施形態のいずれかの一部では、DNAプロファイルの参照セット内の参照DNAプロファイルの少なくとも5%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、または95%が、関心のある人の血縁者からのものであり、DNAプロファイルの参照セット内の参照DNAプロファイルの少なくとも5%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、または95%のそれぞれが、1親等、2親等、3親等、4親等、または5親等の血縁者である。そのような実施形態のいずれかの一部では、1つまたはそれを超える参照サンプル内の参照DNAプロファイルの少なくとも50%が、関心のある人の血縁者からのものである。そのような実施形態のいずれかの一部では、1つまたはそれを超える参照サンプル内の関心のある人の各血縁者は、それぞれ、関心のある人の1親等、2親等、3親等、4親等、または5親等の血縁者である。そのような実施形態のいずれかの一部では、1つまたはそれを超える参照サンプル内の関心のある人の各血縁者は、それぞれ、関心のある人の1親等、2親等、または3親等の血縁者である。 In some of any of such embodiments, at least 5%, 10%, 15%, 20%, 25%, 30%, 35%, 40%, 45%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, or 95% of the one or more reference samples are from relatives of the person of interest. In some of any of such embodiments, at least 5%, 10%, 15%, 20%, 25%, 30%, 35%, 40%, 45%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, or 95% of the reference DNA profiles in the reference set of DNA profiles are from relatives of the person of interest, and at least 5%, 10%, 15%, 20%, 25%, 30%, 35%, 40%, 45%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, or 95% of the reference DNA profiles in the reference set of DNA profiles, respectively, are first-, second-, third-, fourth-, or fifth-degree relatives. In some of any such embodiments, at least 50% of the reference DNA profiles in the one or more reference samples are from relatives of the person of interest. In some of any such embodiments, each relative of the person of interest in the one or more reference samples is a first-, second-, third-, fourth-, or fifth-degree relative of the person of interest, respectively. In some of any such embodiments, each relative of the person of interest in the one or more reference samples is a first-, second-, or third-degree relative of the person of interest, respectively.
そのような実施形態のいずれかの一部では、1つまたはそれを超える参照サンプル内の関心のある人の各血縁者の同一性は既知である。そのような実施形態のいずれかの一部では、1つまたはそれを超える参照サンプルの各々の同一性は既知である。 In some of any such embodiments, the identity of each relative of the person of interest in one or more reference samples is known. In some of any such embodiments, the identity of each of the one or more reference samples is known.
少なくとも1つの容器手段を含むキットであって、少なくとも1つの容器手段は、本明細書に記載の複数のプライマーのいずれかを含む、キットも本明細書に提供される。そのような実施形態のいずれかの一部では、複数のSNPは、2,000~11,000個の間のSNP、3,000~11,000個の間のSNP、4,000~11,000個の間のSNP、5,000~11,000個の間のSNP、5,500~11,000個の間のSNP、6,000~11,000個の間のSNP、7,000~15,000個の間のSNP、7,000~14,000個の間のSNP、7,000~13,000個の間のSNP、7,000~12,000個の間のSNP、7,000~11,000個の間のSNP、8,000~15,000個の間のSNP、8,000~14,000個の間のSNP、8,000~13,000個の間のSNP、8,000~12,000個の間のSNP、8,000~11,000個の間のSNP、9,000~15,000個の間のSNP、9,000~14,000個の間のSNP、9,000~13,000個の間のSNP、9,000~12,000個の間のSNPもしくは9,000~11,000個の間のSNP、または約2,000~11,000個の間のSNP、3,000~11,000個の間のSNP、4,000~11,000個の間のSNP、5,000~11,000個の間のSNP、5,500~11,000個の間のSNP、6,000~11,000個の間のSNP、7,000~15,000個の間のSNP、7,000~14,000個の間のSNP、7,000~13,000個の間のSNP、7,000~12,000個の間のSNP、7,000~11,000個の間のSNP、8,000~15,000個の間のSNP、8,000~14,000個の間のSNP、8,000~13,000個の間のSNP、8,000~12,000個の間のSNP、8,000~11,000個の間のSNP、9,000~15,000個の間のSNP、9,000~14,000個の間のSNP、9,000~13,000個の間のSNP、9,000~12,000個の間のSNPもしくは9,000~11,000個の間のSNPを含む。そのような実施形態のいずれかの一部では、複数のSNPは、10,230個のSNPを含む。そのような実施形態のいずれかの一部では、複数のSNPは、2,000~11,000個の間のSNP、3,000~11,000個の間のSNP、4,000~11,000個の間のSNP、5,000~11,000個の間のSNP、5,500~11,000個の間のSNP、6,000~11,000個の間のSNP、7,000~15,000個の間のSNP、7,000~14,000個の間のSNP、7,000~13,000個の間のSNP、7,000~12,000個の間のSNP、7,000~11,000個の間のSNP、8,000~15,000個の間のSNP、8,000~14,000個の間のSNP、8,000~13,000個の間のSNP、8,000~12,000個の間のSNP、8,000~11,000個の間のSNP、9,000~15,000個の間のSNP、9,000~14,000個の間のSNP、9,000~13,000個の間のSNP、9,000~12,000個の間のSNPもしくは9,000~11,000個の間のSNP、または約2,000~11,000個の間のSNP、3,000~11,000個の間のSNP、4,000~11,000個の間のSNP、5,000~11,000個の間のSNP、5,500~11,000個の間のSNP、6,000~11,000個の間のSNP、7,000~15,000個の間のSNP、7,000~14,000個の間のSNP、7,000~13,000個の間のSNP、7,000~12,000個の間のSNP、7,000~11,000個の間のSNP、8,000~15,000個の間のSNP、8,000~14,000個の間のSNP、8,000~13,000個の間のSNP、8,000~12,000個の間のSNP、8,000~11,000個の間のSNP、9,000~15,000個の間のSNP、9,000~14,000個の間のSNP、9,000~13,000個の間のSNP、9,000~12,000個の間のSNPもしくは9,000~11,000個の間のSNPを含む。そのような実施形態のいずれかの一部では、複数のSNPは、10,230個のSNPを含む。 Also provided herein are kits comprising at least one container means, wherein the at least one container means comprises any of a plurality of primers described herein. In some of any of such embodiments, the plurality of SNPs is selected from the group consisting of between 2,000 and 11,000 SNPs, between 3,000 and 11,000 SNPs, between 4,000 and 11,000 SNPs, between 5,000 and 11,000 SNPs, between 5,500 and 11,000 SNPs, between 6,000 and 11,000 SNPs, between 7,000 and 15,000 SNPs, between 7,000 and 14,000 SNPs, between 7,000 and 13,000 SNPs, between 7,000 and 12,000 SNPs, and between 8,000 and 13,000 SNPs. SNPs between 7,000 and 11,000, SNPs between 8,000 and 15,000, SNPs between 8,000 and 14,000, SNPs between 8,000 and 13,000, SNPs between 8,000 and 12,000, SNPs between 8,000 and 11,000, SNPs between 9,000 and 15,000, SNPs between 9,000 and 14,000, SNPs between 9,000 and 13,000, SNPs between 9,000 and 12,000, or SNPs between 9,000 and 11, 000 SNPs, or between about 2,000 and 11,000 SNPs, between 3,000 and 11,000 SNPs, between 4,000 and 11,000 SNPs, between 5,000 and 11,000 SNPs, between 5,500 and 11,000 SNPs, between 6,000 and 11,000 SNPs, between 7,000 and 15,000 SNPs, between 7,000 and 14,000 SNPs, between 7,000 and 13,000 SNPs, between 7,000 and 12,000 SNPs, 7,000 In some of such embodiments, the plurality of SNPs comprises between 10,230 SNPs. In some of any of such embodiments, the plurality of SNPs is between 2,000 and 11,000 SNPs, between 3,000 and 11,000 SNPs, between 4,000 and 11,000 SNPs, between 5,000 and 11,000 SNPs, between 5,500 and 11,000 SNPs, between 6,000 and 11,000 SNPs, between 7,000 and 15,000 SNPs, between 7,000 and 14,000 SNPs, between 7,000 and 13,000 SNPs, between 7,000 and 12,000 SNPs, SNPs between 7,000 and 11,000, SNPs between 8,000 and 15,000, SNPs between 8,000 and 14,000, SNPs between 8,000 and 13,000, SNPs between 8,000 and 12,000, SNPs between 8,000 and 11,000, SNPs between 9,000 and 15,000, SNPs between 9,000 and 14,000, SNPs between 9,000 and 13,000, SNPs between 9,000 and 12,000, or SNPs between 9,000 and 11, 000 SNPs, or between about 2,000 and 11,000 SNPs, between 3,000 and 11,000 SNPs, between 4,000 and 11,000 SNPs, between 5,000 and 11,000 SNPs, between 5,500 and 11,000 SNPs, between 6,000 and 11,000 SNPs, between 7,000 and 15,000 SNPs, between 7,000 and 14,000 SNPs, between 7,000 and 13,000 SNPs, between 7,000 and 12,000 SNPs, 7,000 The plurality of SNPs may include between 10,230 SNPs and 11,000 SNPs, between 8,000 and 15,000 SNPs, between 8,000 and 14,000 SNPs, between 8,000 and 13,000 SNPs, between 8,000 and 12,000 SNPs, between 8,000 and 11,000 SNPs, between 9,000 and 15,000 SNPs, between 9,000 and 14,000 SNPs, between 9,000 and 13,000 SNPs, between 9,000 and 12,000 SNPs, or between 9,000 and 11,000 SNPs. In some of any of such embodiments, the plurality of SNPs includes 10,230 SNPs.
そのような実施形態のいずれかの一部では、方法は、DNAプロファイルの参照セット内に含まれる1つまたはそれを超えるDNAプロファイルに関連してDNAプロファイルを含む家系図を生成することをさらに含む。一部の実施形態では、家系図は、関心のある人の血縁者からの1つまたはそれを超えるDNAプロファイルに関連してDNAプロファイルを含む。 In some of any of such embodiments, the method further includes generating a pedigree tree that includes the DNA profile in relation to one or more DNA profiles included in the reference set of DNA profiles. In some embodiments, the pedigree tree includes the DNA profile in relation to one or more DNA profiles from blood relatives of the person of interest.
詳細な説明
本明細書に記載される技術の実施は、特に明記しない限り、分子生物学、細胞生物学、生化学および配列決定技術の従来の技術および説明を用いることができ、これらは当業者の技能の範囲内である。適切な技法の具体的な例示は、本明細書の実施例を参照することによって得ることができる。
DETAILED DESCRIPTION The practice of the techniques described herein may employ, unless otherwise indicated, conventional techniques and descriptions of molecular biology, cell biology, biochemistry, and sequencing techniques, which are within the skill of those in the art. Specific illustrations of suitable techniques can be had by reference to the examples herein.
本出願で言及される特許文献、科学論文およびデータベースを含む全ての刊行物は、あたかも個々の刊行物が参照により個別に組み込まれる場合と同じ程度まで、あらゆる目的のためにその全体が参照により組み込まれる。本明細書に記載される定義が、参照により本明細書に組み込まれる特許、出願、公開出願および他の刊行物に記載される定義に反するか、またはさもなければ矛盾する場合、本明細書に記載される定義は、参照により本明細書に組み込まれる定義に優先する。 All publications, including patent documents, scientific articles, and databases, referred to in this application are incorporated by reference in their entirety for all purposes to the same extent as if each individual publication was individually incorporated by reference. To the extent that a definition set forth herein contradicts or otherwise conflicts with a definition set forth in a patent, application, published application, or other publication incorporated herein by reference, the definition set forth herein shall take precedence over the definition incorporated herein by reference.
本明細書で使用されるセクションの見出しは、構成上の目的のためだけであり、記載される主題を限定するものと解釈されるべきではない。
概要
The section headings used herein are for organizational purposes only and are not to be construed as limiting the subject matter described.
overview
行方不明者または災害もしくは紛争の犠牲者からのサンプルは高度に劣化する可能性があり、全ゲノム配列決定(WGS)、マイクロアレイ、またはショートタンデムリピート(STR)解析には適していない可能性がある。ミトコンドリア解析は感度が高く、特定の状況に適している可能性があるが、母系遺伝のみを考慮しており、それによって血縁関係解析に使用するには欠点がある。さらに、遺伝子データベースにおける比較のためのDNAプロファイルを生成する現在の方法は、高密度SNPマイクロアレイおよびWGSを使用した遺伝子型決定、その後のデータベースにおける遠い血縁者との証拠サンプルの関連付けを含み、これらは、大量および高品質のDNAサンプルを必要とし、家族検索のために、あるいは行方不明者または災害もしくは紛争の犠牲者の身元確認に使用するために設計されていない。これらのサンプルは、少量および低品質のサンプルであり得、例えば、劣化したDNAを含み、現在の方法からのデータは、検索データベースにアップロードすることができる結果を生成するために広範な補完を必要とする。最後に、行方不明者または災害もしくは紛争の犠牲者の血縁者は、公共データベースに自分の遺伝データをアップロードされることを望まないことが多い。本明細書で提供される新規かつ改良された方法は、WGSまたはSNPマイクロアレイのような代替アプローチよりも効率的な遺伝子解析のために、公的にアクセス可能な遺伝子データベースに遺伝子データをアップロードする必要なく、核酸プロファイルの生成のための少量および低品質、例えば劣化したDNAの使用を可能にすることによって、これらの制限を克服する。さらに、本明細書で提供される新規かつ改良された方法はまた、正確な血縁関係を計算するために必要な計算がより少ない、血縁関係解析を行う改良された方法を含む。 Samples from missing persons or victims of disasters or conflicts can be highly degraded and may not be suitable for whole genome sequencing (WGS), microarray, or short tandem repeat (STR) analysis. While mitochondrial analysis is sensitive and may be suitable in certain situations, it only considers maternal inheritance, thereby limiting its use in kinship analysis. Furthermore, current methods for generating DNA profiles for comparison in genetic databases, including genotyping using high-density SNP microarrays and WGS followed by linking of evidentiary samples to distant relatives in databases, require large amounts of high-quality DNA samples and are not designed for use in family searches or for identifying missing persons or victims of disasters or conflicts. These samples may be small and of low quality, for example, containing degraded DNA, and data from current methods require extensive imputation to generate results that can be uploaded to search databases. Finally, relatives of missing persons or victims of disasters or conflicts often do not want their genetic data uploaded to public databases. The new and improved methods provided herein overcome these limitations by enabling the use of small amounts and low-quality, e.g., degraded, DNA for the generation of nucleic acid profiles, without the need to upload genetic data to publicly accessible genetic databases, for more efficient genetic analysis than alternative approaches such as WGS or SNP microarrays. Furthermore, the new and improved methods provided herein also include improved methods for performing kinship analysis that require fewer computations to calculate accurate kinship.
死亡事故の犠牲者の身元確認は、人道的および法的な理由の両方で必要とされる:死亡が民事および刑事事件のように偶発的ではない場合、行方不明の家族構成員を探す家族に、家族にとっての解決策および正当性を与える。多数の犠牲者および犠牲者の身体の完全性に対する災害の影響を考えると、大量の死亡事故(MFI)の犠牲者の身元確認は困難であり得る。MFIは、疾患/飢饉、地震/津波/ハリケーン、飛行機/列車/自動車のクラッシュ、または火災などの偶発的な出来事によって、または戦争、テロ攻撃、または人権侵害/大量虐殺などの人為的意図によって引き起こされる。2001年9月11日のニューヨーク市における世界貿易センターのテロ攻撃またはスマトラ島北部の西海岸沖の地震によって引き起こされた2004年12月26日のボクシングデー津波などの最近の事象は、想像もできないほどの人命喪失を引き起こし、犠牲者の遺体の回収および目録作成、遺体に関する情報の保管、ならびに身元確認のための効率的な手順および方法の必要性を示した。 Identification of victims of fatal accidents is necessary for both humanitarian and legal reasons: when deaths are not accidental, as in civil and criminal cases, it provides families with a sense of resolution and legitimacy in their search for missing family members. Identification of victims of mass fatality incidents (MFIs) can be difficult given the large number of victims and the impact of the disaster on the victims' physical integrity. MFIs can be caused by accidental events such as disease/famine, earthquakes/tsunamis/hurricanes, plane/train/car crashes, or fires, or by human intent such as war, terrorist attacks, or human rights violations/genocide. Recent events such as the September 11, 2001, terrorist attacks at the World Trade Center in New York City or the December 26, 2004, Boxing Day tsunami caused by an earthquake off the west coast of northern Sumatra, caused unimaginable loss of life and demonstrated the need for efficient procedures and methods for recovering and cataloging the remains of victims, preserving information about the remains, and identifying them.
身元確認(災害犠牲者身元確認またはDVIと呼ばれる)のための最も一般的な方法は、指紋採取、歯の比較(歯の検査または放射線学)、所持品の内訳、手術痕/手技および刺青の証拠のための剖検検査、ならびにDNAの解析である。指紋採取および歯の比較などの従来の方法は、必要とされる労力およびコストならびに手順速度が低いため、最初の一連の措置として利用されることが多いが、これらの方法は、身元確認のために指紋および歯科画像の生前の記録を必要とする。犠牲者が同様の宝飾品または他の個人用品を持っている可能性があるため、所持品は誤解を招く可能性がある。手術手技と刺青との比較はまた、刺青または他の変更の生前の医療記録または文書調べを必要とする。最後に、これらの方法は、犠牲者の遺体が比較的無傷であることを必要とする。一部のMFIは、遺体の断片化ならびに混じり合いをもたらし得る。断片化の場合、死後(PM)サンプルのDNA解析は、行方不明者の身元確認を助けるだけでなく、複数の遺体または身体部分を特定の個体に割り当てるのを助けることができる。DNA解析は、比較のために、行方不明者からのカミソリ、シェーバー、歯ブラシ、またはヘアブラシなどの生前(AM)サンプルを必要とする。行方不明者からのAMサンプルが入手できない場合、近い家族構成員から寄付されたサンプルが身元確認を支援する。DNA解析は、従来の方法よりも時間がかかり、解析されるサンプルについての実験室の清浄度および管理の連鎖の追跡に対する特定の要件を有し、これは現場の状況では困難であり得る。 The most common methods for identification (called disaster victim identification, or DVI) are fingerprinting, dental comparison (dental examination or radiology), item breakdown, autopsy examination for evidence of surgical scars/procedures and tattoos, and DNA analysis. Traditional methods such as fingerprinting and dental comparison are often utilized as a first line of defense due to the low labor and cost required and speed of the procedure; however, these methods require antemortem records of fingerprints and dental images for identification. Items can be misleading, as victims may have similar jewelry or other personal items. Comparison of surgical procedures and tattoos also requires antemortem medical records or documentation of tattoos or other alterations. Finally, these methods require the victim's remains to be relatively intact. Some MFIs can result in fragmentation and commingling of remains. In cases of fragmentation, DNA analysis of postmortem (PM) samples can not only aid in the identification of missing persons but also help assign multiple remains or body parts to specific individuals. DNA analysis requires an ante-mortem (AM) sample, such as a razor, shaver, toothbrush, or hairbrush, from the missing person for comparison. If an AM sample from the missing person is unavailable, samples donated by close family members can assist in identification. DNA analysis takes longer than traditional methods and has specific requirements for laboratory cleanliness and chain of custody tracking for the samples analyzed, which can be difficult in field situations.
従来の方法がうまくいかない場合、または遺体が無傷でない場合、DNA解析の成功は、サンプルの収集、その収集のタイミング、保存条件、および得られるサンプルの量(変質および腐敗の場合に当てはまる)に依存する。DNA同定は、ショートタンデムリピート(STR)、例えば、Combined DNA Index SystemまたはCODISに含まれる20個の常染色体コア遺伝子座のセット、母系系統についてはミトコンドリアDNA、または父系系統についてはY染色体上のSTR(Y-STR)を含む法医学ゲノミクスで使用される非コードDNAマーカーに依拠する。大規模災害においては、同じ母系または父系系統のいずれかを共有する複数の家族構成員が行方不明になり得るという複雑性のため、常染色体マーカーが好ましい。 When traditional methods fail or the remains are not intact, the success of DNA analysis depends on sample collection, the timing of that collection, storage conditions, and the quantity of sample obtained (as is the case in cases of deterioration and decay). DNA identification relies on short tandem repeats (STRs), non-coding DNA markers used in forensic genomics, including the set of 20 autosomal core loci included in the Combined DNA Index System (CODIS), mitochondrial DNA for maternal lineages, or STRs on the Y chromosome (Y-STRs) for paternal lineages. Autosomal markers are preferred in large-scale disasters due to the complexity that multiple family members sharing either the same maternal or paternal lineage may be missing.
STR解析は、犯罪者、行方不明者、および父性判例における身元確認のために長年にわたって首尾よく使用されてきた。このタイプの解析の成功は、これらのマーカーの高度に多型の性質および1つの解析のために一緒に多重化することができるマーカーの数の結果である。これらのマーカーはまた、DVIにもうまく利用されている。MFIの場合、ソフトウェア解決策は、PM(犠牲者)およびAM(自己または血縁者)サンプルからのプロファイルの多数のペアワイズ比較、および血縁度の程度の統計的計算を支援するのに役立つ。常染色体およびY-STRならびにミトコンドリアDNAデータの解析には、いくつかのソフトウェアパッケージが利用可能である。MFIからの全てのサンプルがSTR解析に適しているわけではない。高度に劣化したDNAサンプルは、身元確認を行うために分類されるマーカーの数を制限する、一般的に使用されるキャピラリー電気泳動ベースの(CE)キットにおけるより大きなSTRマーカーを増幅しない。より小さいアンプリコンを利用するCEキットの開発は、劣化したDNAのCE解析を支援した(Butler紙)。次世代配列決定(NGSまたは大規模並列配列決定)STRアッセイは、より小さいアンプリコンサイズを可能にし、1つのアッセイ内のより多くのマーカーを解析することを可能にし、両方とも劣化DNAサンプルからの情報の回収を改良する。 STR analysis has been used successfully for many years for identification in criminal, missing person, and paternity cases. The success of this type of analysis is a result of the highly polymorphic nature of these markers and the number of markers that can be multiplexed together for a single analysis. These markers have also been successfully utilized for DVI. In MFI, software solutions are useful for supporting multiple pairwise comparisons of profiles from PM (victim) and AM (autologous or related) samples and statistical calculations of the degree of relatedness. Several software packages are available for the analysis of autosomal and Y-STR and mitochondrial DNA data. Not all samples from MFI are suitable for STR analysis. Highly degraded DNA samples do not amplify larger STR markers in commonly used capillary electrophoresis-based (CE) kits, limiting the number of markers that can be typed to perform identification. The development of CE kits utilizing smaller amplicons has assisted CE analysis of degraded DNA (Butler, 2014). Next-generation sequencing (NGS or massively parallel sequencing) STR assays allow for smaller amplicon sizes and allow for the analysis of more markers within a single assay, both of which improve the recovery of information from degraded DNA samples.
STRデータを利用することは、AM DNAサンプルが行方不明者または1親等の血縁者(親、子または兄弟姉妹)などの非常に近い家族構成員から入手可能である場合に特に適切である。無関係な個体で起こり得る偽陽性同定の数のために、より遠い家族構成員のみが比較に利用可能である場合、STR解析はあまり成功しない。これは、MFIが何年も前に起こり、行方不明者から非常に近い家族構成員が死亡した場合に特に当てはまる。より遠い血縁者(姪、甥、孫、曾孫などの2親等および3親等の血縁者)からのDNAが比較のために利用可能である場合、一塩基多型(SNP)などのより多くのマーカーを利用することは、身元確認を助けることができる。 Utilizing STR data is particularly appropriate when AM DNA samples are available from the missing person or very close family members, such as first-degree relatives (parents, children, or siblings). Due to the number of false-positive identifications that can occur in unrelated individuals, STR analysis is less successful when only more distant family members are available for comparison. This is particularly true when the MFI occurred many years ago and very close family members from the missing person have died. When DNA from more distant relatives (second- and third-degree relatives, such as nieces, nephews, grandchildren, and great-grandchildren) is available for comparison, utilizing more markers, such as single nucleotide polymorphisms (SNPs), can aid in identification.
本明細書に記載の方法は、行方不明者の身元確認を含む、コールドケースの解決などの目的のために10,230個の法医学的に関連するSNPを調べるために開発された。以前のアプローチは、シーケンシングランあたり最大3つのサンプルについてNGSを利用して増幅DNAを解析することを含んでいた。そのようなアプローチは、最初に、コールドケースを解決する際に法執行を支援するために、GEDmatch PROなどのDNAマイクロアレイデータベースを検索するときに、最大5親等の関係を検出するのに十分なSNPを分類するように設計された。費用効果の高い高スループットの解決策を必要とするDVIを容易にするために、増幅されたDNAをより高いプレキシティで配列決定して、3親等に対する関係を判定するために有意な重複を有する十分なSNPを分類することができる新規かつ改良された方法が開発された。実施例13に示すように、実行あたり12サンプルの多重度で配列決定された模擬PMサンプルおよび実行あたり32サンプルの多重度で配列決定された模擬AMサンプルは、本明細書に記載の方法および血縁関係アルゴリズムを使用して、偽陽性の同定なしに3親等までの関係を確認するのに十分な分類された遺伝子座データを生成した。 The method described herein was developed to interrogate 10,230 forensically relevant SNPs for purposes such as solving cold cases, including identifying missing persons. Previous approaches involved analyzing amplified DNA using NGS for up to three samples per sequencing run. Such approaches were initially designed to classify enough SNPs to detect relationships up to the fifth degree when searching DNA microarray databases, such as GEDmatch PRO, to assist law enforcement in solving cold cases. To facilitate DVI, which requires a cost-effective, high-throughput solution, a new and improved method was developed that can sequence amplified DNA at a higher plexity to classify enough SNPs with significant overlap to determine relationships to the third degree. As shown in Example 13, simulated PM samples sequenced at a multiplicity of 12 samples per run and simulated AM samples sequenced at a multiplicity of 32 samples per run generated enough classified locus data to confirm relationships up to the third degree without false positive identifications using the method and kinship algorithm described herein.
この血縁関係アルゴリズムの目標は3つであった:複数の遺体を単一の個体に割り当てることを試みるとき、または犠牲者の血縁者が入手できない、もしくは知られていないときに重要であり得る、系図または関係の情報がない関係を確認すること;STR(Alonso et al.,Croat Med J 2005,46,540-548(その内容全体が参照により本明細書に組み込まれる))を用いて尤度比を計算するときにしばしば高くなる関係を確認する際の偽陽性率を低減すること;ならびに、Rなどのプログラミング言語、Familiasのような尤度比ソフトウェアのローカル構築(Kling et al.,Forensic Sci Int Genet 2014,13,121-127,doi:10.1016/j.fsigen.2014.07.004、その内容は参照によりその全体が本明細書に組み込まれる)、またはBonaparteの私的アカウント(Slooten et al.,Forensic Science International:Genetics 2011,5,308-315,doi:10.1016/j.fsigen.2010.06.005、その内容は参照によりその全体が本明細書に組み込まれる)の知識を必要とするMFIの犠牲者のプライバシーを維持すること(最大2親等の関係を確認することができるだけである)。MFIの犠牲者や犠牲者の家族は、多くの場合、遺体の身元確認においてプライバシーを要求するため、私的サーバで遺伝子型情報を維持する必要がある。このように、いくつかの実施形態では、本明細書に記載の血縁関係アルゴリズムは、本明細書に記載のように調製されたサンプル間の関係を確認するために私的サーバにローカライズされる。ローカルソフトウェアは、法執行データベースに結果をアップロードしなかった;むしろ、私的サーバでのレビューのために結果を維持した。さらに、いくつかの実施形態では、本明細書に記載の血縁関係アルゴリズムは、12のプレキシティで配列決定された劣化/低入力の模擬PMサンプルおよび32のプレキシティで配列決定された模擬参照またはAMサンプルについて、最大3親等を含む完全な感度および特異性で関係を効率的に確認することができる。 The goals of this kinship algorithm were threefold: to confirm relationships in the absence of genealogical or relationship information, which can be important when attempting to assign multiple remains to a single individual or when the victim's relatives are unavailable or unknown; to reduce the false positive rate in confirming relationships, which is often high when calculating likelihood ratios using STR (Alonso et al., Croat Med J 2005, 46, 540-548, the contents of which are incorporated herein by reference in their entirety); and to reduce the false positive rate when confirming relationships, which is often high when calculating likelihood ratios using programming languages such as R, local builds of likelihood ratio software such as Familias (Kling et al., Forensic Sci Int Genet 2014, 13, 121-127, doi:10.1016/j.fsigen.2014.07.004, the contents of which are incorporated herein by reference in their entirety), or Bonaparte's personal account (Slooten Maintaining the privacy of MFI victims (only up to two degrees of kinship can be confirmed) requires knowledge of the law enforcement database (see, for example, [David] E. et al., Forensic Science International: Genetics 2011, 5, 308-315, doi:10.1016/j.fsigen.2010.06.005, the contents of which are incorporated herein by reference in their entirety). Because MFI victims and their families often require privacy in the identification of remains, maintaining genotype information on a private server is necessary. Thus, in some embodiments, the kinship algorithms described herein are localized on a private server to confirm relationships between samples prepared as described herein. The local software did not upload results to a law enforcement database; rather, it maintained the results for review on the private server. Furthermore, in some embodiments, the kinship algorithms described herein can efficiently confirm relationships with perfect sensitivity and specificity, including up to three degrees of kinship, for degraded/low-input mock PM samples sequenced at a plexity of 12 and mock reference or AM samples sequenced at a plexity of 32.
したがって、本明細書に開示されるのは、関心のある人、例えば、行方不明者または災害もしくは紛争の犠牲者からのDNAプロファイルを使用してDNAベースの血縁関係解析を行い、そのDNAプロファイルと関心のある人の既知の血縁者を含む1つまたはそれを超える参照DNAプロファイルとの間の関連度を決定し、それによって関心のある人を身元確認することによる、関心のある人を身元確認する方法である。 Accordingly, disclosed herein is a method of identifying a person of interest by performing a DNA-based kinship analysis using a DNA profile from the person of interest, e.g., a missing person or a victim of a disaster or conflict, to determine the degree of relatedness between the DNA profile and one or more reference DNA profiles comprising known relatives of the person of interest, thereby identifying the person of interest.
DNAベースの血縁関係解析を行うための方法であって、関心のある人からの核酸サンプルを提供すること、複数の少なくとも2,000~50,000個の間または約2,000~50,000個の間の一塩基多型(SNP)を集合的に含む複数の標的配列に特異的にハイブリダイズする複数のプライマーを用いて核酸サンプルを増幅させ、それによって増幅産物を生成することであって、増幅を1つまたはそれを超えるマルチプレックスPCR反応で行うことと、増幅産物から核酸ライブラリーを生成することと、増幅産物から生成された核酸ライブラリーを配列決定すること、増幅産物の配列を解析することと、複数のSNPの遺伝子型を決定し、それによってDNAプロファイルを生成することと、DNAプロファイルと1つまたはそれを超える参照DNAプロファイルとの関連度を計算することであって、1つまたはそれを超える参照DNAプロファイルが、関心のある人の血縁者からの1つまたはそれを超える参照DNAプロファイルを含むDNAプロファイルの参照セット内に含まれる、計算することと、を含む方法が本明細書に提供される。 Provided herein is a method for performing DNA-based kinship analysis, comprising: providing a nucleic acid sample from a person of interest; amplifying the nucleic acid sample with a plurality of primers that specifically hybridize to a plurality of target sequences collectively comprising at least or about 2,000 to 50,000 single nucleotide polymorphisms (SNPs), thereby generating amplified products, wherein the amplification is performed in one or more multiplex PCR reactions; generating a nucleic acid library from the amplified products; sequencing the nucleic acid library generated from the amplified products; analyzing the sequences of the amplified products; genotyping the plurality of SNPs, thereby generating a DNA profile; and calculating a degree of relatedness between the DNA profile and one or more reference DNA profiles, wherein the one or more reference DNA profiles are included in a reference set of DNA profiles that includes one or more reference DNA profiles from relatives of the person of interest.
DNAベースの血縁関係解析を行うための方法であって、関心のある人からの核酸サンプルを提供すること、複数の少なくとも2,000~50,000個の間または約2,000~50,000個の間の一塩基多型(SNP)を集合的に含む複数の標的配列に特異的にハイブリダイズする複数のプライマーを用いて核酸サンプルを増幅させ、それによって増幅産物を生成することであって、増幅を1つまたはそれを超えるマルチプレックスPCR反応で行うことと、増幅産物から核酸ライブラリーを生成することと、増幅産物から生成された核酸ライブラリーを配列決定すること、複数のSNPの遺伝子型を決定し、それによってDNAプロファイルを生成することと、DNAプロファイルと1つまたはそれを超える参照DNAプロファイルとの関連度を計算することであって、1つまたはそれを超える参照DNAプロファイルが、関心のある人の血縁者からの1つまたはそれを超える参照DNAプロファイルを含むDNAプロファイルの参照セット内に含まれる、計算することと、を含む方法も本明細書に提供される。 Also provided herein is a method for performing DNA-based kinship analysis, comprising: providing a nucleic acid sample from a person of interest; amplifying the nucleic acid sample with a plurality of primers that specifically hybridize to a plurality of target sequences collectively comprising at least or about 2,000 to 50,000 single nucleotide polymorphisms (SNPs), thereby generating amplified products, wherein the amplification is performed in one or more multiplex PCR reactions; generating a nucleic acid library from the amplified products; sequencing the nucleic acid library generated from the amplified products; genotyping the plurality of SNPs, thereby generating a DNA profile; and calculating a degree of relatedness between the DNA profile and one or more reference DNA profiles, wherein the one or more reference DNA profiles are included in a reference set of DNA profiles that includes one or more reference DNA profiles from relatives of the person of interest.
関心のある人の核酸ライブラリーを構築する方法であって、関心のある人からの核酸サンプルを提供すること、複数の少なくとも2,000~50,000個の間または約2,000~50,000個の間の一塩基多型(SNP)を集合的に含む複数の標的配列に特異的にハイブリダイズする複数のプライマーを用いて核酸サンプルを増幅させ、それによって増幅産物を含む核酸ライブラリーを生成することであって、増幅を1つまたはそれを超えるマルチプレックスPCR反応で行うことと、を含む方法も本明細書に提供される。 Also provided herein is a method for constructing a nucleic acid library of a person of interest, comprising: providing a nucleic acid sample from the person of interest; amplifying the nucleic acid sample with a plurality of primers that specifically hybridize to a plurality of target sequences that collectively comprise a plurality of at least or about 2,000 to 50,000 single nucleotide polymorphisms (SNPs), thereby generating a nucleic acid library comprising the amplified products, wherein the amplification is performed in one or more multiplex PCR reactions.
参照DNAサンプルについての核酸ライブラリーを構築する方法であって、関心のある人の血縁者からの核酸サンプルを提供すること、複数の少なくとも2,000~50,000個の間または約2,000~50,000個の間の一塩基多型(SNP)を集合的に含む複数の標的配列に特異的にハイブリダイズする複数のプライマーを用いて核酸サンプルを増幅させ、それによって増幅産物を含む核酸ライブラリーを生成することであって、増幅を1つまたはそれを超えるマルチプレックスPCR反応で行うことと、を含む方法も本明細書に提供される。一部の実施形態では、血縁者は、関心のある人の1親等、2親等、3親等、4親等、または5親等の血縁者である。一部の実施形態では、血縁者は、関心のある人の1親等、2親等、または3親等の血縁者である。 Also provided herein are methods for constructing a nucleic acid library for a reference DNA sample, the method comprising: providing nucleic acid samples from relatives of a person of interest; amplifying the nucleic acid samples with a plurality of primers that specifically hybridize to a plurality of target sequences collectively comprising at least or about 2,000-50,000 single nucleotide polymorphisms (SNPs), thereby generating a nucleic acid library comprising the amplified products; wherein the amplification is performed in one or more multiplex PCR reactions. In some embodiments, the relatives are first-, second-, third-, fourth-, or fifth-degree relatives of the person of interest. In some embodiments, the relatives are first-, second-, or third-degree relatives of the person of interest.
血縁度を計算するための方法であって、少なくとも2,000~50,000個の間または約2,000~50,000個の間のSNPの遺伝子型を含むDNAプロファイルを得ることであって、DNAプロファイルが関心のある人からのものである、得ることと、DNAプロファイルと1つまたはそれを超える参照DNAプロファイルとの関連度を計算することであって、1つまたはそれを超える参照DNAプロファイルが、関心のある人の血縁者からの1つまたはそれを超える参照DNAプロファイルを含むDNAプロファイルの参照セット内に含まれる、計算することとを含む、方法も本明細書に提供される。 Also provided herein is a method for calculating degree of relatedness, comprising obtaining a DNA profile comprising genotypes for at least or between about 2,000 and 50,000 SNPs, where the DNA profile is from a person of interest, and calculating a degree of relatedness between the DNA profile and one or more reference DNA profiles, where the one or more reference DNA profiles are included in a reference set of DNA profiles that includes one or more reference DNA profiles from relatives of the person of interest.
血縁度を計算するための方法であって、少なくとも2,000~50,000個の間または約2,000~50,000個の間のSNPの遺伝子型を含むDNAプロファイルを生成することであって、DNAプロファイルが関心のある人からのものである、生成することと、DNAプロファイルと1つまたはそれを超える参照DNAプロファイルとの関連度を計算することであって、1つまたはそれを超える参照DNAプロファイルが、関心のある人の血縁者からの1つまたはそれを超える参照DNAプロファイルを含むDNAプロファイルの参照セット内に含まれる、計算することとを含む、方法も本明細書に提供される。 Also provided herein is a method for calculating degree of relatedness, comprising generating a DNA profile comprising genotypes for at least or between about 2,000 and 50,000 SNPs, where the DNA profile is from a person of interest, and calculating a degree of relatedness between the DNA profile and one or more reference DNA profiles, where the one or more reference DNA profiles are included in a reference set of DNA profiles that includes one or more reference DNA profiles from relatives of the person of interest.
本明細書に記載の方法のいずれか、例えば、本明細書に記載の核酸ライブラリーを構築するための方法のいずれかを使用して構築された核酸ライブラリーも本明細書で提供される。 Also provided herein are nucleic acid libraries constructed using any of the methods described herein, for example, any of the methods for constructing a nucleic acid library described herein.
関心のある人からの核酸サンプル中に少なくとも2,000~50,000個または約2,000~50,000個の一塩基多型(SNP)を含む複数の標的配列に特異的にハイブリダイズする複数のプライマーであって、1つまたはそれを超えるマルチプレックスPCR反応において複数のプライマーを使用して核酸サンプルを増幅すると増幅産物が得られる、複数のプライマーも本明細書に提供される。 Also provided herein are a plurality of primers that specifically hybridize to a plurality of target sequences comprising at least 2,000 to 50,000 or about 2,000 to 50,000 single nucleotide polymorphisms (SNPs) in a nucleic acid sample from a person of interest, where amplification of the nucleic acid sample using the plurality of primers in one or more multiplex PCR reactions results in amplification products.
関心のある人からの核酸サンプルおよび1つまたはそれを超える参照サンプルからの核酸サンプル中に少なくとも2,000~50,000個の間または約2,000~50,000個の間の一塩基多型(SNP)を含む複数の標的配列に特異的にハイブリダイズする複数のプライマーであって、1つまたはそれを超える参照サンプルは、関心のある人の血縁者からのサンプルを含み、1つまたはそれを超えるマルチプレックスPCR反応において複数のプライマーを使用して、関心のある人からの核酸サンプルおよび1つまたはそれを超える参照サンプルからの核酸サンプルを増幅することが、増幅産物をもたらす、複数のプライマーも本明細書に提供される。 Also provided herein are a plurality of primers that specifically hybridize to a plurality of target sequences comprising at least or about 2,000 to 50,000 single nucleotide polymorphisms (SNPs) in a nucleic acid sample from a person of interest and a nucleic acid sample from one or more reference samples, wherein the one or more reference samples include samples from blood relatives of the person of interest, and wherein amplifying the nucleic acid sample from the person of interest and the nucleic acid sample from the one or more reference samples using the plurality of primers in one or more multiplex PCR reactions results in amplification products.
DNAプロファイルを構築するための方法であって、関心のある人からの核酸サンプルを提供すること、複数の少なくとも2,000~50,000個の間または約2,000~50,000個の間の一塩基多型(SNP)を集合的に含む複数の標的配列に特異的にハイブリダイズする複数のプライマーを用いて、核酸サンプルを増幅させ、それによって増幅産物を生成することであって、増幅を1つまたはそれを超えるマルチプレックスPCR反応で行うことと、増幅産物を配列決定することと、複数のSNPの遺伝子型を決定し、それによってDNAプロファイルを生成することと、を含む方法も本明細書に提供される。 Also provided herein is a method for constructing a DNA profile, comprising: providing a nucleic acid sample from a person of interest; amplifying the nucleic acid sample with a plurality of primers that specifically hybridize to a plurality of target sequences collectively comprising at least or about 2,000 to 50,000 single nucleotide polymorphisms (SNPs), thereby generating amplified products, wherein the amplification is performed in one or more multiplex PCR reactions; sequencing the amplified products; and genotyping the plurality of SNPs, thereby generating a DNA profile.
DNAプロファイルを構築するための方法であって、関心のある人からの核酸サンプルを提供すること、関心のある人の血縁者からの核酸サンプルを提供することと、複数の少なくとも2,000~50,000個の間または約2,000~50,000個の間の一塩基多型(SNP)を集合的に含む複数の標的配列に特異的にハイブリダイズする複数のプライマーを用いて、関心のある人からの核酸サンプルおよび血縁者からの核酸サンプルを増幅させ、それによって増幅産物を生成することであって、増幅を1つまたはそれを超えるマルチプレックスPCR反応で行うことと、増幅産物を配列決定することと、複数のSNPの遺伝子型を決定し、それによって、関心のある人および関心のある人の血縁者のDNAプロファイルを生成することと、を含む方法も本明細書に提供される。 Also provided herein is a method for constructing a DNA profile, the method comprising: providing a nucleic acid sample from a person of interest; providing a nucleic acid sample from a relative of the person of interest; amplifying the nucleic acid sample from the person of interest and the nucleic acid sample from the relative with a plurality of primers that specifically hybridize to a plurality of target sequences collectively comprising at least or about 2,000 to 50,000 single nucleotide polymorphisms (SNPs), thereby generating amplification products, wherein the amplification is performed in one or more multiplex PCR reactions; sequencing the amplification products; and genotyping the plurality of SNPs, thereby generating a DNA profile for the person of interest and the relative of the person of interest.
本明細書に記載の方法のいずれか、例えば、本明細書に記載のDNAプロファイルを構築するための方法のいずれかを使用して構築されたDNAプロファイルも本明細書で提供される。 Also provided herein are DNA profiles constructed using any of the methods described herein, for example, any of the methods for constructing a DNA profile described herein.
DNAプロファイルの遺伝的血縁者を身元確認する方法であって、本明細書に記載のDNAプロファイルのいずれかと1つまたはそれを超える参照DNAプロファイルとの関連度を計算することであって、1つまたはそれを超える参照DNAプロファイルは、関心のある人の血縁者からの1つまたはそれを超える参照DNAプロファイルを含むDNAプロファイルの参照セット内に含まれる、計算することと、1つまたはそれを超える参照DNAプロファイルに関連してDNAプロファイルを含む家系図を生成することと、を含む方法も本明細書に提供される。 Also provided herein is a method for identifying genetic relatives of a DNA profile, the method comprising: calculating a degree of relatedness between any of the DNA profiles described herein and one or more reference DNA profiles, where the one or more reference DNA profiles are included in a reference set of DNA profiles that includes one or more reference DNA profiles from relatives of the person of interest; and generating a pedigree tree that includes the DNA profile in relation to the one or more reference DNA profiles.
DNAプロファイルの同一性を確認する方法であって、少なくとも2,000~50,000個の間または約2,000~50,000個の間のSNPの遺伝子型を含むDNAプロファイルと1つまたはそれを超える参照DNAプロファイルとの関連度を計算することであって、DNAプロファイルが関心のある人からのものであり、1つまたはそれを超える参照DNAプロファイルが、関心のある人の血縁者からの1つまたはそれを超える参照DNAプロファイルを含むDNAプロファイルの参照セット内に含まれる、計算することと、1つまたはそれを超える参照DNAプロファイルに関連してDNAプロファイルを含む家系図を生成することと、を含む方法も本明細書に提供される。 Also provided herein is a method for confirming the identity of a DNA profile, the method comprising: calculating a degree of relatedness between a DNA profile comprising genotypes for at least or between about 2,000 and 50,000 SNPs and one or more reference DNA profiles, where the DNA profile is from a person of interest and the one or more reference DNA profiles are included within a reference set of DNA profiles that includes one or more reference DNA profiles from relatives of the person of interest; and generating a pedigree that includes the DNA profile in relation to the one or more reference DNA profiles.
少なくとも1つの容器手段を含むキットも本明細書で提供され、少なくとも1つの容器手段は、本明細書に記載の複数のプライマーのいずれかを含む。 Also provided herein are kits comprising at least one container means, the at least one container means containing any of the plurality of primers described herein.
そのような実施形態のいずれかの一部では、関連度は、血縁関係モデルを使用して計算される。そのような実施形態のいずれかの一部では、関連度は、PCA法を使用して訓練される血縁関係モデルを使用して計算される。そのような実施形態のいずれかの一部では、血縁関係モデルを訓練するためのPCA法は、PCAであるか、またはPCAを含む。 In some of any such embodiments, the relatedness is calculated using a kinship model. In some of such embodiments, the relatedness is calculated using a kinship model that is trained using a PCA method. In some of such embodiments, the PCA method for training the kinship model is or includes PCA.
そのような実施形態のいずれかの一部では、PCA法はPC-AiRである。一部の実施形態では、PC-AiRは、(1)訓練データベースの、必要に応じて訓練DNAプロファイルのサンプルの全ペア間の血縁係数を推定するステップであって、>0.025の血縁係数を有するペアリングは近縁であると確認され、<-0.025の血縁係数を有するペアリングは祖先分岐したものとして確認される、血縁係数を推定するステップと、(2)全てのサンプルを含む無関係なサンプルセットを初期化するステップと、(3)反復的に:(i)無関係なサンプルセット内の最も関連のあるサンプルを有する無関係なサンプルセット内のセットを特定し、それによってXと指定し、(ii)無関係なサンプルセット内のサンプルと比較して、最も少ない祖先分岐ペアリングを有するX内のサンプルのセットを特定し、それによってYと指定し、(iii)Yが0個のサンプルを有する場合、プロセスを終了するか、またはYが少なくとも1個のサンプルを有する場合、Yから1個のサンプルをランダムに選択してUから除去し、ステップ(3)(i)で開始して繰り返すステップと、を含む。 In some of such embodiments, the PCA method is PC-AiR. In some embodiments, PC-AiR includes the steps of: (1) estimating relatedness coefficients between all pairs of samples in a training database, and optionally, in a training DNA profile, where pairings with a relatedness coefficient >0.025 are confirmed as closely related and pairings with a relatedness coefficient <-0.025 are confirmed as ancestrally diverged; (2) initializing an unrelated sample set containing all samples; and (3) iteratively: (i) identifying a set in the unrelated sample set that has the most related samples in the unrelated sample set, thereby designating this set as X; (ii) identifying a set of samples in X that has the fewest ancestrally diverged pairings compared to the samples in the unrelated sample set, thereby designating this set as Y; and (iii) terminating the process if Y has 0 samples, or randomly selecting one sample from Y and removing it from U if Y has at least one sample, and repeating beginning with step (3)(i).
そのような実施形態のいずれかの一部では、PCA法は修正PC-Airである。一部の実施形態では、修正PC-AiRは、(1)訓練データベースの、必要に応じて訓練DNAプロファイルのサンプルの全ペア間の血縁係数を推定するステップであって、>0.01の血縁係数を有するペアリングは近縁であると確認され、<-0.025の血縁係数を有するペアリングは祖先分岐したものとして確認される、血縁係数を推定するステップと、(2)≧5%の欠測データを有する全てのDNAプロファイルを除去するステップと、(3)各DNAプロファイルをランキング値で特定することによって全てのDNAプロファイルをランク付けするステップと、を含む方法。いくつかの実施形態では、ランキング値は、最小~最大にランク付けされた完全なデータベース内の関連するDNAプロファイルの数に基づいて決定され、最大~最小にランク付けされた完全なデータベース内の祖先分岐したDNAプロファイルの数によって関係が絶たれる。いくつかの実施形態では、ステップ(3)は、ランク付けされたDNAプロファイルを繰り返すこと、および各DNAプロファイルについて、(i)DNAプロファイルがまだ関連するサンプルセットにない場合、それを無関係なサンプルセットに追加し、全ての関連するDNAプロファイルを関連するサンプルセットに追加すること、および(ii)DNAプロファイルが既に関連するサンプルセットにある場合、次のDNAプロファイルにスキップし、ステップ(3)(i)で開始して繰り返すことを含む。 In some of such embodiments, the PCA method is a modified PC-Air. In some embodiments, the modified PC-Air includes: (1) estimating relatedness coefficients between all pairs of samples, optionally training DNA profiles, in a training database, where pairings with a relatedness coefficient >0.01 are identified as closely related and pairings with a relatedness coefficient <-0.025 are identified as ancestrally diverged; (2) removing all DNA profiles with ≥5% missing data; and (3) ranking all DNA profiles by assigning each DNA profile a ranking value. In some embodiments, the ranking value is determined based on the number of related DNA profiles in the complete database ranked from smallest to largest, broken down by the number of ancestrally diverged DNA profiles in the complete database ranked from largest to smallest. In some embodiments, step (3) includes iterating through the ranked DNA profiles, and for each DNA profile, (i) if the DNA profile is not already in the relevant sample set, adding it to the unrelated sample set and adding all relevant DNA profiles to the relevant sample set, and (ii) if the DNA profile is already in the relevant sample set, skipping to the next DNA profile and repeating starting with step (3)(i).
そのような実施形態のいずれかの一部では、関連度を計算することは、PC-Relateを使用して血縁係数を計算することを含む。一部の実施形態では、関連度は、関心のある人のDNAプロファイルをPC-Relateへの入力として提供することによって計算される。そのような実施形態のいずれかの一部では、関連度は、血縁関係モデルおよび関心のある人のDNAプロファイルをPC-Relateへの入力として提供することによって計算される。そのような実施形態のいずれかのいくつかにおいて、関連度を計算することは、尤度比を計算することを含む。いくつかの実施形態では、尤度比を計算することは、DNAプロファイルと1つまたはそれを超える参照DNAプロファイルとの間で複数のSNPを比較することを含む。いくつかの実施形態では、尤度比を計算することは、DNAプロファイルと1つまたはそれを超える参照DNAプロファイルとの間で複数のSNPの中からの血縁関係SNPを含むSNPのセットを比較することを含む。いくつかの実施形態では、関心のある人は生物学的に男性であり、本方法は、DNAプロファイルと1つまたはそれを超える参照DNAプロファイルとの間でY染色体を共有する尤度比を計算することをさらに含む。いくつかの実施形態では、Y染色体を共有する尤度比を計算することは、DNAプロファイルと1つまたはそれを超える参照DNAプロファイルとの間で、1つまたはそれを超えるY-SNPを含むSNPのセットを比較することを含む。一部の実施形態では、1つまたはそれを超えるY-SNPは、複数のSNP内に含まれる。一部の実施形態では、1つまたはそれを超えるY-SNPは、少なくとも20、25、30、35、40、45、50、55、60、65、70、75、80、81、82、83、84、または85個のY-SNPを含む。一部の実施形態では、1つまたはそれを超えるY-SNPは85個のY-SNPを含む。一部の実施形態では、Y染色体を共有する尤度比を計算することは、1つまたはそれを超えるY-SNPの遺伝子型に基づいて、DNAプロファイルおよび1つまたはそれを超える参照DNAプロファイルの中からの参照DNAプロファイルがY染色体を共有する確率を、DNAプロファイルおよび参照DNAプロファイルがY染色体を共有しない確率で割ることを含む。 In some of such embodiments, calculating the degree of relatedness includes calculating a coefficient of relatedness using PC-Relate. In some embodiments, the degree of relatedness is calculated by providing a DNA profile of the person of interest as input to PC-Relate. In some of such embodiments, the degree of relatedness is calculated by providing a kinship model and a DNA profile of the person of interest as input to PC-Relate. In some of such embodiments, calculating the degree of relatedness includes calculating a likelihood ratio. In some embodiments, calculating the likelihood ratio includes comparing a plurality of SNPs between the DNA profile and one or more reference DNA profiles. In some embodiments, calculating the likelihood ratio includes comparing a set of SNPs, including kinship SNPs, from among the plurality of SNPs between the DNA profile and the one or more reference DNA profiles. In some embodiments, the person of interest is biologically male, and the method further includes calculating a likelihood ratio of sharing a Y chromosome between the DNA profile and the one or more reference DNA profiles. In some embodiments, calculating the likelihood ratio of sharing a Y chromosome comprises comparing a set of SNPs comprising one or more Y-SNPs between the DNA profile and one or more reference DNA profiles. In some embodiments, the one or more Y-SNPs are included within the plurality of SNPs. In some embodiments, the one or more Y-SNPs include at least 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 81, 82, 83, 84, or 85 Y-SNPs. In some embodiments, the one or more Y-SNPs include 85 Y-SNPs. In some embodiments, calculating the likelihood ratio of sharing a Y chromosome comprises dividing the probability that the DNA profile and the reference DNA profile from among the one or more reference DNA profiles share a Y chromosome, based on the genotypes of the one or more Y-SNPs, by the probability that the DNA profile and the reference DNA profile do not share a Y chromosome.
いくつかの実施形態では、尤度比を計算することは、複数のSNPの遺伝子型に基づいて、DNAプロファイルおよび1つまたはそれを超える参照DNAプロファイルの中からの参照DNAプロファイルが関連している確率を、DNAプロファイルおよび参照DNAプロファイルが無関係である確率で割ることを含む。 In some embodiments, calculating the likelihood ratio includes dividing the probability that the DNA profile and a reference DNA profile from among the one or more reference DNA profiles are related by the probability that the DNA profile and the reference DNA profile are unrelated, based on the genotypes of the plurality of SNPs.
そのような実施形態のいずれかのいくつかにおいて、染色体Yを共有する尤度を計算することは、関心のある人のDNAプロファイルおよび適合する染色体を同定するための入力としての適合プロファイルを提供することによって対数尤度を計算することを含む。
サンプルおよびサンプル処理
In some of any such embodiments, calculating the likelihood of sharing chromosome Y includes calculating the log-likelihood by providing a DNA profile of the person of interest and a match profile as input to identify matching chromosomes.
Samples and sample processing
いくつかの態様では、本明細書に開示されるサンプルは、任意の適切な生物学的サンプル、またはそれに由来するサンプルであり得るか、またはそれを含み得る。いくつかの態様では、本明細書に記載されるサンプルは、本明細書に記載される方法を補完するために任意の既知の適切な方法を使用して処理および増幅される。例示的なサンプル、サンプルの処理方法およびサンプルの増幅方法を以下に記載する。
A.核酸サンプル
In some embodiments, the samples disclosed herein can be or include any suitable biological sample, or a sample derived therefrom. In some embodiments, the samples described herein are processed and amplified using any known suitable method to complement the methods described herein. Exemplary samples, sample processing methods, and sample amplification methods are described below.
A. Nucleic Acid Samples
本明細書に開示される核酸サンプルは、任意の生物学的サンプル、例えば関心のある人からの任意の生物学的サンプルに由来し得る。生物学的サンプルは、血液、頬側スワブ、毛髪、歯、骨、皮膚、組織および/または精液、または関心のある人のDNAを得るための任意の他の供給源に由来し得る。いくつかの実施形態では、核酸サンプルは、血液、毛髪、歯、骨、精液、皮膚または精子であるか、またはそれらを含む生物学的サンプルに由来する。いくつかの実施形態では、核酸サンプルは、組織サンプルに由来する。いくつかの実施形態では、生物学的サンプルは、DNAサンプルである。いくつかの実施形態では、核酸サンプルは、DNAを含む。いくつかの実施形態では、DNAは、ゲノムDNA(gDNA)である。いくつかの実施形態では、関心のある人からの核酸サンプルはゲノムDNAを含み、および/または、参照DNAサンプル、例えば関心のある人の血縁者からの核酸サンプルはゲノムDNAを含む。いくつかの実施形態では、関心のある人の核酸サンプルおよび/または関心のある人の血縁者の核酸サンプルは、ゲノムDNAを含む。核酸サンプルを得ることができるDNAは、無傷であってもよく、または部分的に分解されてもよい。核酸サンプルを得ることができるDNAは、限定されないが、原材料の劣化、抽出のばらつき、保存手順または環境曝露に起因して、損なわれたり、分解されたり、阻害されたりする可能性がある。いくつかの実施形態では、DNAは、カルシウム阻害、火葬、焼却およびエンバルミングに起因して損なわれている。いくつかの実施形態では、本明細書に記載の方法は、関心のある人からの核酸サンプルを提供することを含む。 The nucleic acid sample disclosed herein can be derived from any biological sample, for example, any biological sample from a person of interest. The biological sample can be derived from blood, buccal swabs, hair, teeth, bone, skin, tissue, and/or semen, or any other source for obtaining DNA from the person of interest. In some embodiments, the nucleic acid sample is derived from a biological sample that is or contains blood, hair, teeth, bone, semen, skin, or sperm. In some embodiments, the nucleic acid sample is derived from a tissue sample. In some embodiments, the biological sample is a DNA sample. In some embodiments, the nucleic acid sample comprises DNA. In some embodiments, the DNA is genomic DNA (gDNA). In some embodiments, the nucleic acid sample from the person of interest comprises genomic DNA, and/or a reference DNA sample, for example, a nucleic acid sample from a relative of the person of interest, comprises genomic DNA. In some embodiments, the nucleic acid sample of the person of interest and/or the nucleic acid sample of a relative of the person of interest comprises genomic DNA. The DNA from which the nucleic acid sample can be derived can be intact or partially degraded. The DNA from which the nucleic acid sample is obtained may be damaged, degraded, or inhibited due to, but not limited to, degradation of raw materials, variations in extraction, storage procedures, or environmental exposure. In some embodiments, the DNA is damaged due to calcium inhibition, cremation, incineration, and embalming. In some embodiments, the methods described herein include providing a nucleic acid sample from a person of interest.
いくつかの実施形態では、核酸サンプルを得ることができるDNAは、少量および/または低品質のDNAサンプルである。いくつかの実施形態では、核酸サンプルを得ることができるDNAは、少量および低品質のDNAサンプルである。いくつかの実施形態では、低品質DNAサンプルは低品質核酸分子を含む。いくつかの実施形態では、低品質核酸分子は、劣化DNA、例えばゲノムDNAであり、および/または断片化DNA、例えばゲノムDNAである。 In some embodiments, the DNA from which the nucleic acid sample can be obtained is a low-quality and/or low-quality DNA sample. In some embodiments, the DNA from which the nucleic acid sample can be obtained is a low-quality and low-quality DNA sample. In some embodiments, the low-quality DNA sample comprises low-quality nucleic acid molecules. In some embodiments, the low-quality nucleic acid molecules are degraded DNA, e.g., genomic DNA, and/or fragmented DNA, e.g., genomic DNA.
核酸、例えばDNAサンプルの品質は、劣化指数(DI)を計算することによって決定することができる。DIは、小さいDNA標的の濃度を大きいDNA標的の濃度で割ることによって計算される(DI=小さいDNA標的の濃度/大きいDNA標的の濃度)。一般に、1未満のDI値は、典型的には、核酸、例えばDNAが劣化していない、低品質サンプルではない、および/または高品質サンプルであることを示し、1~10のDI値は、典型的には、核酸、例えばDNAが少量~中程度量の劣化を有することを示し、10超のDI値は、典型的には、核酸、例えばDNAが高度に劣化していることを示す。 The quality of a nucleic acid, e.g., DNA, sample can be determined by calculating the degradation index (DI). DI is calculated by dividing the concentration of small DNA targets by the concentration of large DNA targets (DI = concentration of small DNA targets / concentration of large DNA targets). In general, a DI value of less than 1 typically indicates that the nucleic acid, e.g., DNA, is not degraded, is not a low-quality sample, and/or is a high-quality sample; a DI value of 1-10 typically indicates that the nucleic acid, e.g., DNA, has a low to moderate amount of degradation; and a DI value of greater than 10 typically indicates that the nucleic acid, e.g., DNA, is highly degraded.
いくつかの実施形態では、低品質核酸分子は、1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、185、190、195もしくは200もしくはそれを超えるDIを有するか、または少なくとも1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、185、190、195もしくは200もしくはそれを超えるDIを有する。いくつかの実施形態では、低品質核酸分子は、少なくとも2および3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、185、190、195もしくは200またはそれを超える値、あるいは、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、185、190、195もしくは200またはそれを超える値未満のDIを有する。いくつかの実施形態では、低品質核酸分子は、2もしくはそれを超えるか、または少なくとも2もしくはそれを超えるDIを有する。いくつかの実施形態では、低品質核酸分子は、5もしくはそれを超えるか、または少なくとも5もしくはそれを超えるDIを有する。いくつかの実施形態では、低品質核酸分子は、10もしくはそれを超えるか、または少なくとも10もしくはそれを超えるDIを有する。いくつかの実施形態では、低品質核酸分子は、20もしくはそれを超えるか、または少なくとも20もしくはそれを超えるDIを有する。いくつかの実施形態では、低品質核酸分子は、1~200の間のDIを有する。いくつかの実施形態では、低品質核酸分子は、1~175の間のDIを有する。いくつかの実施形態では、低品質核酸分子は、少なくとも1および158.3または158.3未満のDIを有する。いくつかの実施形態では、低品質核酸分子は、2~200の間のDIを有する。いくつかの実施形態では、低品質核酸分子は、2~175の間のDIを有する。いくつかの実施形態では、低品質核酸分子は、少なくとも2および158.3または158.3未満のDIを有する。いくつかの実施形態では、低品質核酸分子は、5~200の間のDIを有する。いくつかの実施形態では、低品質核酸分子は、5~175の間のDIを有する。いくつかの実施形態では、低品質核酸分子は、少なくとも5および158.3または158.3未満のDIを有する。いくつかの実施形態では、低品質核酸分子は、10~200の間のDIを有する。いくつかの実施形態では、低品質核酸分子は、10~175の間のDIを有する。いくつかの実施形態では、低品質核酸分子は、少なくとも10および158.3または158.3未満のDIを有する。 In some embodiments, low quality nucleic acid molecules have a D of 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 105, 110, 115, 120, 125, 130, 135, 140, 145, 150, 155, 160, 165, 170, 175, 180, 185, 190, 195, or 200 or more. or has a DI of at least 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 105, 110, 115, 120, 125, 130, 135, 140, 145, 150, 155, 160, 165, 170, 175, 180, 185, 190, 195 or 200 or more. In some embodiments, the low quality nucleic acid molecules are at least 2 and 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 105, 110, 115, 120, 125, 130, 135, 140, 145, 150, 155, 160, 165, 170, 175, 180, 185, 190, 195, or 200 or or greater, or less than 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 105, 110, 115, 120, 125, 130, 135, 140, 145, 150, 155, 160, 165, 170, 175, 180, 185, 190, 195, or 200 or more. In some embodiments, low quality nucleic acid molecules have a DI of 2 or more, or at least 2 or more. In some embodiments, low quality nucleic acid molecules have a DI of 5 or more, or at least 5 or more. In some embodiments, low quality nucleic acid molecules have a DI of 10 or more, or at least 10 or more. In some embodiments, low quality nucleic acid molecules have a DI of 20 or more, or at least 20 or more. In some embodiments, low quality nucleic acid molecules have a DI between 1 and 200. In some embodiments, low quality nucleic acid molecules have a DI between 1 and 175. In some embodiments, low quality nucleic acid molecules have a DI of at least 1 and 158.3 or less than 158.3. In some embodiments, low quality nucleic acid molecules have a DI between 2 and 200. In some embodiments, low quality nucleic acid molecules have a DI between 2 and 175. In some embodiments, low quality nucleic acid molecules have a DI of at least 2 and 158.3 or less than 158.3. In some embodiments, low quality nucleic acid molecules have a DI between 5 and 200. In some embodiments, low quality nucleic acid molecules have a DI between 5 and 175. In some embodiments, low quality nucleic acid molecules have a DI of at least 5 and 158.3 or less than 158.3. In some embodiments, low quality nucleic acid molecules have a DI between 10 and 200. In some embodiments, low quality nucleic acid molecules have a DI between 10 and 175. In some embodiments, low quality nucleic acid molecules have a DI of at least 10 and 158.3 or less than 158.3.
いくつかの実施形態では、低品質核酸分子は、1~10の間または約1~10の間、1~50の間または約1~50の間、1~100の間または約1~100の間、1~200の間または約1~200の間、2~10の間または約2~10の間、2~50の間または約2~50の間、2~100の間または約2~100の間、200の間または約200の間、5~10の間または約5~10の間、5~50の間または約5~50の間、5~100の間または約5~100の間、5~200の間または約5~200の間のDIを有する。 In some embodiments, low-quality nucleic acid molecules have a DI of between or about 1-10, between or about 1-50, between or about 1-50, between or about 1-100, between or about 1-100, between or about 1-200, between or about 2-10, between or about 2-10, between or about 2-50, between or about 2-50, between or about 2-100, between or about 2-100, between or about 200, between or about 5-10, between or about 5-10, between or about 5-50, between or about 5-50, between or about 5-100, between or about 5-100, between or about 5-200.
いくつかの実施形態では、核酸サンプルを得ることができるDNAは、高品質核酸サンプルである。いくつかの実施形態では、高品質核酸サンプルは、1未満のDIを有する。 In some embodiments, the DNA from which the nucleic acid sample is obtained is a high-quality nucleic acid sample. In some embodiments, a high-quality nucleic acid sample has a DI of less than 1.
いくつかの実施形態では、核酸サンプルは、1つまたはそれを超える酵素阻害剤を含む。いくつかの実施形態では、1つまたはそれを超える酵素阻害剤は、ヘマチン、フミン酸(例えば、ヘム)、フミン酸、インディゴ、タンニン酸、コラーゲン、カルシウムおよびヒドロキシアパタイトからなる群から選択される1つまたはそれを超える阻害剤を含む。いくつかの実施形態では、1つまたはそれを超える酵素阻害剤は、ヘムを含む。 In some embodiments, the nucleic acid sample comprises one or more enzyme inhibitors. In some embodiments, the one or more enzyme inhibitors comprise one or more inhibitors selected from the group consisting of hematin, humic acid (e.g., heme), humic acid, indigo, tannic acid, collagen, calcium, and hydroxyapatite. In some embodiments, the one or more enzyme inhibitors comprise heme.
いくつかの実施形態では、核酸サンプルは、関心のある人、例えば、行方不明者または災害もしくは紛争の犠牲者からのものである。いくつかの実施形態では、関心のある人は、行方不明者である。行方不明者は、何らかの理由で行方不明である可能性があり、自発的または不本意に行方不明である可能性がある。例えば、いくつかの実施形態では、行方不明者は、不本意に行方不明になっており、誘拐または拉致されている。いくつかの実施形態では、行方不明者は、自発的に行方不明であり、逃走したか、発見を逃れているか、または別の方法で隠れている。 In some embodiments, the nucleic acid sample is from a person of interest, such as a missing person or a victim of a disaster or conflict. In some embodiments, the person of interest is a missing person. A missing person may be missing for any reason and may be voluntarily or involuntarily missing. For example, in some embodiments, the missing person is involuntarily missing and has been kidnapped or abducted. In some embodiments, the missing person is voluntarily missing and has run away, evaded detection, or is otherwise in hiding.
いくつかの実施形態では、核酸サンプルは、参照DNAサンプルからのものである。いくつかの実施形態では、参照DNAサンプルは、関心のある人の血縁者からのものである。したがって、いくつかの実施形態では、核酸サンプルは、関心のある人の1親等、2親等、3親等、4親等または5親等の血縁者など、関心のある人の血縁者からのものである。いくつかの実施形態では、1つまたはそれを超える参照DNAプロファイルのうちの1つまたはそれを超えるものは、参照DNAサンプル、例えば、関心のある人の血縁者からの参照DNAサンプルに由来する。 In some embodiments, the nucleic acid sample is from a reference DNA sample. In some embodiments, the reference DNA sample is from a blood relative of the person of interest. Thus, in some embodiments, the nucleic acid sample is from a blood relative of the person of interest, such as a first-, second-, third-, fourth-, or fifth-degree relative of the person of interest. In some embodiments, one or more of the one or more reference DNA profiles are derived from a reference DNA sample, e.g., a reference DNA sample from a blood relative of the person of interest.
いくつかの実施形態では、関心のある人は、災害または紛争の犠牲者である。災害または紛争の犠牲者は、任意のタイプの災害または紛争の犠牲者であり得る。例えば、いくつかの実施形態では、災害または紛争の犠牲者は、ハリケーン、竜巻、嵐、山火事/森林火災を含む火災、津波、地震、洪水、火山噴火、雪崩などの災害の犠牲者である。いくつかの実施形態では、災害は自然災害である。本明細書で使用される場合、「自然災害」は、気象および/または地質学的事象、例えば、ハリケーン、洪水、嵐、津波、地震、火山噴火などに関連するものなど、地球の自然プロセスから生じる任意の災害を指す。いくつかの実施形態では、災害は非自然災害である。本明細書で使用される場合、「非自然災害」は、自然災害以外の任意の災害を指し、人間の影響に起因するものを含み、人間の影響に起因する災害の中でも、自動車の車両、飛行機、船舶、および列車が関与する災害、建物、道路、鉱山、および橋の崩壊が関与する災害、建物の焼損が関与する災害を含む。いくつかの実施形態では、災害または紛争の犠牲者は、戦争または人々のグループ間の他の紛争などの紛争の犠牲者である。本明細書で使用される場合、「紛争」とは、異なる国もしくは州間、または国もしくは州内の異なるグループ間の任意の紛争、例えば、軍事紛争、例えば、戦争、またはテロ攻撃、または人の死および/または傷害をもたらすグループ間の任意の他の紛争を指す。 In some embodiments, the person of interest is a victim of a disaster or conflict. The victim of a disaster or conflict can be a victim of any type of disaster or conflict. For example, in some embodiments, the victim of a disaster or conflict is a victim of a disaster such as a hurricane, tornado, storm, fire including wildfire/forest fire, tsunami, earthquake, flood, volcanic eruption, avalanche, etc. In some embodiments, the disaster is a natural disaster. As used herein, "natural disaster" refers to any disaster resulting from the Earth's natural processes, such as those associated with meteorological and/or geological events, e.g., hurricanes, floods, storms, tsunamis, earthquakes, volcanic eruptions, etc. In some embodiments, the disaster is a non-natural disaster. As used herein, "non-natural disaster" refers to any disaster other than a natural disaster, including those caused by human influence, including disasters involving motor vehicles, airplanes, ships, and trains, disasters involving the collapse of buildings, roads, mines, and bridges, and disasters involving the burning of buildings, among other disasters caused by human influence. In some embodiments, the disaster or conflict victim is a victim of a conflict, such as a war or other conflict between groups of people. As used herein, "conflict" refers to any conflict between different countries or states, or between different groups within a country or state, e.g., a military conflict, e.g., war, or a terrorist attack, or any other conflict between groups that results in the death and/or injury of persons.
いくつかの実施形態では、関心のある人は、生物学的に女性である。いくつかの実施形態では、関心のある人は、生物学的に男性である。 In some embodiments, the person of interest is biologically female. In some embodiments, the person of interest is biologically male.
いくつかの実施形態では、核酸サンプルは、頬側スワブ、紙、布地、例えばデニム、または唾液、血液、精子、もしくは他の体液で含浸された、または毛髪もしくは皮膚細胞を含有する他の基材もしくは物体に由来する。いくつかの実施形態では、唾液、血液、精子、もしくは他の体液で含浸されているか、または毛髪もしくは皮膚細胞を含有する物体は、歯ブラシまたはヘアブラシなどの個人の物体である。いくつかの実施形態では、核酸サンプルは、毛髪または皮膚細胞を含有する物体、例えばヘアブラシまたは歯ブラシに由来する。いくつかの実施形態では、核酸サンプルは、個人の物体、例えば歯ブラシまたはヘアブラシに由来する。いくつかの実施形態では、核酸サンプルは、歯ブラシまたはヘアブラシに由来する。いくつかの実施形態では、個人の物体は、人の核酸が物体上または物体内に存在するように、核酸サンプルが由来する人によって使用される、および/または核酸サンプルが由来する人と関連付けられる物体である。 In some embodiments, the nucleic acid sample is derived from a buccal swab, paper, fabric, e.g., denim, or other substrate or object impregnated with saliva, blood, sperm, or other bodily fluids, or containing hair or skin cells. In some embodiments, the object impregnated with saliva, blood, sperm, or other bodily fluids, or containing hair or skin cells, is a personal object, such as a toothbrush or hairbrush. In some embodiments, the nucleic acid sample is derived from an object containing hair or skin cells, e.g., a hairbrush or toothbrush. In some embodiments, the nucleic acid sample is derived from a personal object, e.g., a toothbrush or hairbrush. In some embodiments, the nucleic acid sample is derived from a toothbrush or hairbrush. In some embodiments, the personal object is an object used by and/or associated with the person from whom the nucleic acid sample is derived, such that the person's nucleic acids are present on or within the object.
いくつかの実施形態では、核酸サンプルは、犯罪現場、例えば殺人、暴行、例えば性的暴行、または住居侵入、または参加者の識別が必要とされる任意の他の犯罪からのものである。いくつかの実施形態では、核酸サンプルは、性的暴行からのものである。 In some embodiments, the nucleic acid sample is from a crime scene, e.g., a murder, an assault, e.g., a sexual assault, or a burglary, or any other crime where participant identification is required. In some embodiments, the nucleic acid sample is from a sexual assault.
いくつかの実施形態では、核酸サンプルは、核酸サンプルを含有するサンプルがその供給源、例えばヒト対象によって寄託されてから、30分後もしくは約30分後、1時間もしくは約1時間後、または2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23もしくは24時間もしくはそれを超える時間後もしくは約2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23もしくは24時間もしくはそれを超える時間後に得られる。いくつかの実施形態では、核酸サンプルは、核酸サンプルを含有するサンプルがその供給源、例えばヒト対象によって寄託されてから、約3時間、9時間、12時間、15時間、18時間、21時間、22時間、24時間、36時間、48時間、3日間、4日間、5日間、6日間、7日間、2週間、3週間、4週間、1ヶ月、2ヶ月、3ヶ月、4ヶ月、5ヶ月、6ヶ月、7ヶ月、8ヶ月、9ヶ月、10ヶ月、11ヶ月、1年、2年、3年もしくは4年もしくはそれを超える期間の後、または約3時間、9時間、12時間、15時間、18時間、21時間、22時間、24時間、36時間、48時間、3日間、4日間、5日間、6日間、7日間、2週間、3週間、4週間、1ヶ月、2ヶ月、3ヶ月、4ヶ月、5ヶ月、6ヶ月、7ヶ月、8ヶ月、9ヶ月、10ヶ月、11ヶ月、1年、2年、3年もしくは4年もしくはそれを超える期間未満に得られる。いくつかの実施形態では、核酸サンプルは、核酸サンプルを含有するサンプルがその供給源、例えばヒト対象によって寄託されてから、24時間後または24時間未満、例えば22時間後または22時間未満で得られる。 In some embodiments, the nucleic acid sample is obtained at or about 30 minutes, at or about 1 hour, or at or about 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, or 24 hours or more after the sample containing the nucleic acid sample is deposited by its source, e.g., a human subject. In some embodiments, the nucleic acid sample is purified within about 3 hours, 9 hours, 12 hours, 15 hours, 18 hours, 21 hours, 22 hours, 24 hours, 36 hours, 48 hours, 3 days, 4 days, 5 days, 6 days, 7 days, 2 weeks, 3 weeks, 4 weeks, 1 month, 2 months, 3 months, 4 months, 5 months, 6 months, 7 months, 8 months, 9 months, 10 months, 11 months, 1 year after the sample containing the nucleic acid sample is deposited by its source, e.g., a human subject. , 2, 3, or 4 years or more, or less than about 3 hours, 9 hours, 12 hours, 15 hours, 18 hours, 21 hours, 22 hours, 24 hours, 36 hours, 48 hours, 3 days, 4 days, 5 days, 6 days, 7 days, 2 weeks, 3 weeks, 4 weeks, 1 month, 2 months, 3 months, 4 months, 5 months, 6 months, 7 months, 8 months, 9 months, 10 months, 11 months, 1 year, 2 years, 3 years, or 4 years or more. In some embodiments, the nucleic acid sample is obtained 24 hours or less, e.g., 22 hours or less, after the sample containing the nucleic acid sample is deposited by its source, e.g., a human subject.
いくつかの実施形態では、核酸サンプルは、3pg~100ngまたは約3pg~100ngのDNA、例えばゲノムDNA、または50pg~100ngまたは約50pg~100ngのDNA、例えばゲノムDNAを含む。いくつかの実施形態では、核酸サンプルは、100pg~5ngまたは約100pg~5ngのDNA、例えばゲノムDNAを含む。いくつかの実施形態では、核酸サンプルは、1ngまたは約1ngのDNA、例えばゲノムDNAを含む。いくつかの実施形態では、核酸サンプルは、3pg~100ngの間または約3pg~100ngの間のDNA、例えばゲノムDNAを含む。 In some embodiments, the nucleic acid sample comprises 3 pg to 100 ng or about 3 pg to 100 ng of DNA, e.g., genomic DNA, or 50 pg to 100 ng or about 50 pg to 100 ng of DNA, e.g., genomic DNA. In some embodiments, the nucleic acid sample comprises 100 pg to 5 ng or about 100 pg to 5 ng of DNA, e.g., genomic DNA. In some embodiments, the nucleic acid sample comprises 1 ng or about 1 ng of DNA, e.g., genomic DNA. In some embodiments, the nucleic acid sample comprises between 3 pg to 100 ng or about 3 pg to 100 ng of DNA, e.g., genomic DNA.
いくつかの実施形態では、核酸サンプルは、3pg~100ngまたは約3pg~約100ngのDNA、例えばゲノムDNAを含む。いくつかの実施形態では、核酸サンプルは、10pg~100ngもしくは約10pg~約100ngのDNA、例えばゲノムDNAを含むか、または10pg~5ngもしくは約10pg~約5ngのDNA、例えばゲノムDNAを含む。いくつかの実施形態では、核酸サンプルは、10pg~10ngもしくは約10pg~10ng、10pg~5ngもしくは約10pg~5ng、25pg~10ngもしくは約25pg~10ng、25pg~5ngもしくは約25pg~5ng、50pg~10ngもしくは約50pg~10ng、または50pg~5ngもしくは約50pg~5ngのDNA、例えばゲノムDNAを含む。 In some embodiments, the nucleic acid sample comprises 3 pg to 100 ng or about 3 pg to about 100 ng of DNA, e.g., genomic DNA. In some embodiments, the nucleic acid sample comprises 10 pg to 100 ng or about 10 pg to about 100 ng of DNA, e.g., genomic DNA, or 10 pg to 5 ng or about 10 pg to about 5 ng of DNA, e.g., genomic DNA. In some embodiments, the nucleic acid sample comprises 10 pg to 10 ng or about 10 pg to 10 ng, 10 pg to 5 ng or about 10 pg to 5 ng, 25 pg to 10 ng or about 25 pg to 10 ng, 25 pg to 5 ng or about 25 pg to 5 ng, 50 pg to 10 ng or about 50 pg to 10 ng, or 50 pg to 5 ng or about 50 pg to 5 ng of DNA, e.g., genomic DNA.
いくつかの実施形態では、核酸サンプルは、3pg~5ngまたは約3pg~約5ngのDNA、例えばゲノムDNAを含む。いくつかの実施形態では、核酸サンプルは、50pg~5ngまたは約50pg~約5ngのDNA、例えばゲノムDNAを含む。いくつかの実施形態では、核酸サンプルは、2.5pg、3pg、4pg、5pg、6pg、7pg、8pg、9pg、10pg、15pg、20pg、25pg、30pg、35pg、40pg、45pg、50pg、55pg、60pg、70pg、75pg、80pg、85pg、90pg、95pg、100pg、125pg、150pg、175pg、200pg、225pg、250pg、275pg、300pg、325pg、350pg、375pg、400pg、420pg、425pg、450pg、475pg、500pg、600pg、700pg、800pg、900pg、1ng、1.1ng、1.2ng、1.3ng、1.4ng、1.5ng、1.6ng、1.7ng、1.8ng、1.9ng、2ng、2.1ng、2.2ng、2.3ng、2.4ng、2.5ng、2.6ng、2.7ng、2.8ng、2.9ng、3ng、3.25ng、3.5ng、3.75ng、4ng、4.25ng、4.5ng、4.75ngもしくは5ng、または約2.5pg、3pg、4pg、5pg、6pg、7pg、8pg、9pg、10pg、15pg、20pg、25pg、30pg、35pg、40pg、45pg、50pg、55pg、60pg、70pg、75pg、80pg、85pg、90pg、95pg、100pg、125pg、150pg、175pg、200pg、225pg、250pg、275pg、300pg、325pg、350pg、375pg、400pg、420pg、425pg、450pg、475pg、500pg、600pg、700pg、800pg、900pg、1ng、1.1ng、1.2ng、1.3ng、1.4ng、1.5ng、1.6ng、1.7ng、1.8ng、1.9ng、2ng、2.1ng、2.2ng、2.3ng、2.4ng、2.5ng、2.6ng、2.7ng、2.8ng、2.9ng、3ng、3.25ng、3.5ng、3.75ng、4ng、4.25ng、4.5ng、4.75ngもしくは5ngのDNA、例えばゲノムDNA、または任意の前述の値の間を含む。いくつかの実施形態では、核酸サンプルは、3pg~10ngもしくは約3pg~10ng、3pg~5ngもしくは約3pg~5ng、3pg~4ngもしくは約3pg~4ng、3pg~3ngもしくは約3pg~3ng、3pg~2ngもしくは約3pg~2ng、10pg~10ngもしくは約10pg~10ng、10pg~5ngもしくは約10pg~5ng、10pg~4ngもしくは約10pg~4ng、10pg~3ngもしくは約10pg~3ng、10pg~2ngもしくは約10pg~2ng、25pg~10ngもしくは約25pg~10ng、25pg~5ngもしくは約25pg~5ng、25pg~4ngもしくは約25pg~4ng、25pg~3ngもしくは約25pg~3ng、25pg~2ngもしくは約25pg~2ng、40pg~10ngもしくは約40pg~10ng、40pg~5ngもしくは約40pg~5ng、40pg~4ngもしくは約40pg~4ng、40pg~3ngもしくは約40pg~3ng、40pg~2ngもしくは約40pg~2ng、50pg~10ngもしくは約50pg~10ng、50pg~5ngもしくは約50pg~5ng、50pg~4ngもしくは約50pg~4ng、50pg~3ngもしくは約50pg~3ng、50pg~2ngもしくは約50pg~2ng、10pg~2ngもしくは約10pg~2ng、10pg~1.5ngもしくは約10pg~1.5ng、10pg~1ngもしくは約10pg~1ng、20pg~2ngもしくは約20pg~2ng、20pg~1.5ngもしくは約20pg~1.5ng、20pg~1ngもしくは約20pg~1ng、25pg~2ngもしくは約25pg~2ng、25pg~1.5ngもしくは約25pg~1.5ng、25pg~1ngもしくは約25pg~1ng、30pg~2ngもしくは約30pg~2ng、30pg~1.5ngもしくは約30pg~1.5ng、30pg~1ngもしくは約30pg~1ng、35pg~2ngもしくは約35pg~2ng、35pg~1.5ngもしくは約35pg~1.5ng、35pg~1ngもしくは約35pg~1ng、40pg~2ngもしくは約40pg~2ng、40pg~1.5ngもしくは約40pg~1.5ng、40pg~1ngもしくは約40pg~1ng、45pg~2ngもしくは約45pg~2ng、45pg~1.5ngもしくは約45pg~1.5ng、45pg~1ngもしくは約45pg~1ng、50pg~2ngもしくは約50pg~2ng、50pg~1.5ngもしくは約50pg~1.5ng、50pg~1ngもしくは約50pg~1ngを含む。
B.サンプル処理および増幅
In some embodiments, the nucleic acid sample comprises 3 pg to 5 ng or about 3 pg to about 5 ng of DNA, e.g., genomic DNA, hi some embodiments, the nucleic acid sample comprises 50 pg to 5 ng or about 50 pg to about 5 ng of DNA, e.g., genomic DNA. In some embodiments, the nucleic acid sample contains 2.5 pg, 3 pg, 4 pg, 5 pg, 6 pg, 7 pg, 8 pg, 9 pg, 10 pg, 15 pg, 20 pg, 25 pg, 30 pg, 35 pg, 40 pg, 45 pg, 50 pg, 55 pg, 60 pg, 70 pg, 75 pg, 80 pg, 85 pg, 90 pg, 95 pg, 100 pg, 125 pg, 150 pg, 175 pg, 200 pg, 225 pg, 250 pg, 275 pg, 300 pg, 325 pg, 350 pg, 375 pg, 400 pg, 420 pg, 4 25pg, 450pg, 475pg, 500pg, 600pg, 700pg, 800pg, 900pg, 1ng, 1.1ng, 1.2ng, 1.3ng, 1.4ng, 1.5ng, 1.6ng, 1.7ng, 1.8ng, 1.9ng, 2ng, 2.1ng, 2.2ng, 2.3ng, 2.4ng, 2.5ng, 2.6ng, 2.7ng, 2.8ng, 2.9ng, 3ng, 3.25ng, 3.5ng, 3.75ng, 4ng, 4.25ng, 4.5ng, 4.75ng or 5ng, or about 2.5 pg, 3pg, 4pg, 5pg, 6pg, 7pg, 8pg, 9pg, 10pg, 15pg, 20pg, 25pg, 30pg, 35pg, 40pg, 45pg, 50pg, 55pg, 60pg, 70pg, 75pg, 80pg, 85pg, 90pg, 9 5pg, 100pg, 125pg, 150pg, 175pg, 200pg, 225pg, 250pg, 275pg, 300pg, 325pg, 350pg, 375pg, 400pg, 420pg, 425pg, 450pg, 475pg, 500pg, Including 600pg, 700pg, 800pg, 900pg, 1ng, 1.1ng, 1.2ng, 1.3ng, 1.4ng, 1.5ng, 1.6ng, 1.7ng, 1.8ng, 1.9ng, 2ng, 2.1ng, 2.2ng, 2.3ng, 2.4ng, 2.5ng, 2.6ng, 2.7ng, 2.8ng, 2.9ng, 3ng, 3.25ng, 3.5ng, 3.75ng, 4ng, 4.25ng, 4.5ng, 4.75ng or 5ng of DNA, e.g., genomic DNA, or between any of the aforementioned values. In some embodiments, the nucleic acid sample is at or about 3pg to 10ng, 3pg to 5ng, 3pg to 4ng, 3pg to 3ng, 3pg to 2ng, 10pg to 10ng, 10pg to 5ng, 10pg to 4ng, 10pg to 3ng, 10pg to 3ng, 10pg to 2ng, 25pg to 10ng, 25pg to 5 ... 25pg to 4ng or about 25pg to 4ng, 25pg to 3ng or about 25pg to 3ng, 25pg to 2ng or about 25pg to 2ng, 40pg to 10ng or about 40pg to 10ng, 40pg to 5ng or about 40pg to 5ng, 40pg to 4ng or about 40pg to 4ng, 40pg to 3ng or about 40pg to 3ng, 40pg to 2ng or about 40pg to 2ng, 50pg to 10ng or about 50pg to 10ng, 50pg to 5ng or about 50pg to 5ng, 50pg to 4ng or about 50pg to 4ng, 50pg to 3ng or about 50pg to 3ng, 50pg to 2ng or about 50pg to 2 ng, 10 pg to 2 ng or about 10 pg to 2 ng, 10 pg to 1.5 ng or about 10 pg to 1.5 ng, 10 pg to 1 ng or about 10 pg to 1 ng, 20 pg to 2 ng or about 20 pg to 2 ng, 20 pg to 1.5 ng or about 20 pg to 1.5 ng, 20 pg to 1 ng or about 20 pg to 1 ng, 25 pg to 2 ng or about 25 pg to 2 ng, 25 pg to 1.5 ng or about 25 pg to 1.5 ng, 25 pg to 1 ng or about 25 pg to 1 ng, 30 pg to 2 ng or about 30 pg to 2 ng, 30 pg to 1.5 ng or about 30 pg to 1.5 ng, 30 pg to 1 ng or about 30 pg to 1 ng , 35 pg to 2 ng or about 35 pg to 2 ng, 35 pg to 1.5 ng or about 35 pg to 1.5 ng, 35 pg to 1 ng or about 35 pg to 1 ng, 40 pg to 2 ng or about 40 pg to 2 ng, 40 pg to 1.5 ng or about 40 pg to 1.5 ng, 40 pg to 1 ng or about 40 pg to 1 ng, 4 Including 5 pg to 2 ng or about 45 pg to 2 ng, 45 pg to 1.5 ng or about 45 pg to 1.5 ng, 45 pg to 1 ng or about 45 pg to 1 ng, 50 pg to 2 ng or about 50 pg to 2 ng, 50 pg to 1.5 ng or about 50 pg to 1.5 ng, and 50 pg to 1 ng or about 50 pg to 1 ng.
B. Sample Processing and Amplification
いくつかの実施形態では、本明細書に提供される方法は、DNAベースの血縁関係解析を行うための方法であって、関心のある人からの核酸サンプルを提供すること、複数の少なくとも2,000~50,000個の間または約2,000~50,000個の間の一塩基多型(SNP)を集合的に含む複数の標的配列に特異的にハイブリダイズする複数のプライマーを用いて核酸サンプルを増幅させ、それによって増幅産物を生成するステップを含み、増幅は1つまたはそれを超えるマルチプレックスPCR反応で行う。 In some embodiments, methods provided herein are methods for performing DNA-based kinship analysis, comprising providing a nucleic acid sample from a person of interest; amplifying the nucleic acid sample with a plurality of primers that specifically hybridize to a plurality of target sequences collectively comprising at least or about 2,000 to 50,000 single nucleotide polymorphisms (SNPs), thereby producing amplification products, wherein the amplification is performed in one or more multiplex PCR reactions.
アッセイのためおよび/またはアッセイ中に核酸サンプルを調製または処理するために、様々なステップを行った。別途示される場合を除いて、以下に記載される調製または処理ステップは、一般に、本明細書に開示される解析および/または配列決定のための特定のサンプルを適切に調製または処理するための任意の手法および任意の順序で組み合わせることができる。 Various steps were performed to prepare or process nucleic acid samples for and/or during the assay. Unless otherwise indicated, the preparation or processing steps described below generally can be combined in any manner and in any order to appropriately prepare or process a particular sample for analysis and/or sequencing as disclosed herein.
いくつかの実施形態では、提供される核酸サンプルの量は、1ngのゲノムDNAであるか、約1ngのゲノムDNAであるか、または1ng未満のゲノムDNAである。いくつかの実施形態では、本明細書に開示される方法は、ゲノムDNAの増幅を含む。いくつかの実施形態では、ゲノムDNAの増幅は、複数のプライマーを含む1つまたはそれを超える多重ポリメラーゼ連鎖反応(PCR)を含み、それによって増幅産物が生成される。いくつかの実施形態では、ゲノムDNAの増幅は、単一のマルチプレックスPCR反応を含む。いくつかの実施形態では、ゲノムDNAの増幅は、2つのマルチプレックスPCR反応を含む。いくつかの実施形態では、ゲノムDNAの増幅は、3つのマルチプレックスPCR反応を含む。いくつかの実施形態では、ゲノムDNAの増幅は、4つのマルチプレックスPCR反応を含む。 In some embodiments, the amount of nucleic acid sample provided is 1 ng of genomic DNA, about 1 ng of genomic DNA, or less than 1 ng of genomic DNA. In some embodiments, the methods disclosed herein include amplification of the genomic DNA. In some embodiments, the amplification of the genomic DNA includes one or more multiplex polymerase chain reactions (PCRs) including a plurality of primers, thereby generating an amplification product. In some embodiments, the amplification of the genomic DNA includes a single multiplex PCR reaction. In some embodiments, the amplification of the genomic DNA includes two multiplex PCR reactions. In some embodiments, the amplification of the genomic DNA includes three multiplex PCR reactions. In some embodiments, the amplification of the genomic DNA includes four multiplex PCR reactions.
いくつかの実施形態では、複数のプライマーにおける1つまたはそれを超えるプライマーは、国際公開第2015/126766号に記載されている非典型的な設計戦略に従って設計され、これはその全体が参照により本明細書に組み込まれる。いくつかの実施形態では、複数のプライマーにおける1つまたはそれを超えるプライマーは、少なくとも24ヌクレオチド長であり、および/または60℃未満の融解温度を有し、および/または少なくとも60%のAT含有量でATリッチである。いくつかの実施形態では、複数のプライマーにおける1つまたはそれを超えるプライマーは、標的配列にハイブリダイズする少なくとも24ヌクレオチド長を含み、および/または50℃~60℃の融解温度を有し、および/または少なくとも60%のAT含有量でATリッチである。いくつかの実施形態では、複数のプライマーにおける1つまたはそれを超えるプライマーは、58℃未満または54℃未満の融解温度を有する。 In some embodiments, one or more primers in the plurality of primers are designed according to the atypical design strategy described in WO 2015/126766, which is incorporated herein by reference in its entirety. In some embodiments, one or more primers in the plurality of primers are at least 24 nucleotides in length, and/or have a melting temperature of less than 60°C, and/or are AT-rich with an AT content of at least 60%. In some embodiments, one or more primers in the plurality of primers comprise at least 24 nucleotides in length that hybridize to the target sequence, and/or have a melting temperature of 50°C to 60°C, and/or are AT-rich with an AT content of at least 60%. In some embodiments, one or more primers in the plurality of primers have a melting temperature of less than 58°C or less than 54°C.
いくつかの実施形態では、ゲノムDNAは、複数の少なくとも2,000~50,000個または約2,000~50,000個の一塩基多型(SNP)または少なくとも5,000~50,000個または約5,000~50,000個を集合的に含む複数の標的配列にハイブリダイズおよび/またはタグ付けする複数のプライマーを使用して、多数のサイクルで増幅され得る。いくつかの実施形態では、ゲノムDNAは、少なくとも2,000~15,000個、20,000個、25,000個、30,000個、35,000個、40,000個、45,000個もしくは50,000個の間のSNP、または約2,000~15,000個、20,000個、25,000個、30,000個、35,000個、40,000個、45,000個もしくは50,000個の間のSNPを集合的に含む複数の標的配列にハイブリダイズおよび/またはタグ付けする複数のプライマーを使用して、多数のサイクルで増幅され得る。いくつかの実施形態では、ゲノムDNAは、少なくとも5,000~15,000個、20,000個、25,000個、30,000個、35,000個、40,000個、45,000個もしくは50,000個の間のSNP、または約5,000~15,000個、20,000個、25,000個、30,000個、35,000個、40,000個、45,000個もしくは50,000個の間のSNPを集合的に含む複数の標的配列にハイブリダイズおよび/またはタグ付けする複数のプライマーを使用して、多数のサイクルで増幅され得る。いくつかの実施形態では、ゲノムDNAは、少なくとも10,000~11,000個の間のSNP、または約10,000~11,000個の間のSNPを集合的に含む複数の標的配列にハイブリダイズおよび/またはタグ付けする複数のプライマーを使用して、多数のサイクルで増幅され得る。いくつかの実施形態では、ゲノムDNAは、少なくとも2,000~11,000個の間のSNP、3,000~11,000個の間のSNP、4,000~11,000個の間のSNP、5,000~11,000個の間のSNP、5,500~11,000個の間のSNP、6,000~11,000個の間のSNP、7,000~15,000個の間のSNP、7,000~14,000個の間のSNP、7,000~13,000個の間のSNP、7,000~12,000個の間のSNP、7,000~11,000個の間のSNP、8,000~15,000個の間のSNP、8,000~14,000個の間のSNP、8,000~13,000個の間のSNP、8,000~12,000個の間のSNP、8,000~11,000個の間のSNP、9,000~15,000個の間のSNP、9,000~14,000個の間のSNP、9,000~13,000個の間のSNP、9,000~12,000個の間のSNPもしくは9,000~11,000個の間のSNP、または約2,000~11,000個の間のSNP、3,000~11,000個の間のSNP、4,000~11,000個の間のSNP、5,000~11,000個の間のSNP、5,500~11,000個の間のSNP、6,000~11,000個の間のSNP、7,000~15,000個の間のSNP、7,000~14,000個の間のSNP、7,000~13,000個の間のSNP、7,000~12,000個の間のSNP、7,000~11,000個の間のSNP、8,000~15,000個の間のSNP、8,000~14,000個の間のSNP、8,000~13,000個の間のSNP、8,000~12,000個の間のSNP、8,000~11,000個の間のSNP、9,000~15,000個の間のSNP、9,000~14,000個の間のSNP、9,000~13,000個の間のSNP、9,000~12,000個の間のSNPもしくは9,000~11,000個の間のSNPを集合的に含む複数の標的配列にハイブリダイズおよび/またはタグ付けする複数のプライマーを使用して、多数のサイクルで増幅され得る。いくつかの実施形態では、ゲノムDNAは、少なくとも6,000~11,000個の間のSNP、または約6,000~11,000個の間のSNPを集合的に含む複数の標的配列にハイブリダイズおよび/またはタグ付けする複数のプライマーを使用して、多数のサイクルで増幅され得る。いくつかの実施形態では、複数のSNPは、2,639個または約2,639個のSNPを含む。いくつかの実施形態では、ゲノムDNAは、10,230個または約10,230個のSNPを集合的に含む複数の標的配列にハイブリダイズおよび/またはタグ付けする複数のプライマーを使用して、多数のサイクルで増幅され得る。 In some embodiments, genomic DNA can be amplified multiple times using multiple primers that hybridize to and/or tag multiple target sequences collectively comprising at least 2,000-50,000 or about 2,000-50,000 single nucleotide polymorphisms (SNPs), or at least 5,000-50,000 or about 5,000-50,000 SNPs. In some embodiments, genomic DNA may be amplified for multiple cycles using multiple primers that hybridize to and/or tag multiple target sequences that collectively comprise at least between or about 2,000 and 15,000, 20,000, 25,000, 30,000, 35,000, 40,000, 45,000, or 50,000 SNPs. In some embodiments, genomic DNA may be amplified for multiple cycles using multiple primers that hybridize to and/or tag multiple target sequences that collectively comprise at least between 5,000 and 15,000, 20,000, 25,000, 30,000, 35,000, 40,000, 45,000, or 50,000 SNPs, or between about 5,000 and 15,000, 20,000, 25,000, 30,000, 35,000, 40,000, 45,000, or 50,000 SNPs. In some embodiments, genomic DNA can be amplified for multiple cycles using multiple primers that hybridize to and/or tag multiple target sequences that collectively comprise between at least 10,000-11,000 SNPs, or between about 10,000-11,000 SNPs. In some embodiments, the genomic DNA contains at least between 2,000 and 11,000 SNPs, between 3,000 and 11,000 SNPs, between 4,000 and 11,000 SNPs, between 5,000 and 11,000 SNPs, between 5,500 and 11,000 SNPs, between 6,000 and 11,000 SNPs, between 7,000 and 15,000 SNPs, between 7,000 and 14,000 SNPs, between 7,000 and 13,000 SNPs, between 7,000 and 12,000 SNPs, between 7,000 and 11,000 SNPs. 000 SNPs, 8,000 to 15,000 SNPs, 8,000 to 14,000 SNPs, 8,000 to 13,000 SNPs, 8,000 to 12,000 SNPs, 8,000 to 11,000 SNPs, 9,000 to 15,000 SNPs, 9,000 to 14,000 SNPs, 9,000 to 13,000 SNPs, 9,000 to 12,000 SNPs or 9,000 to 11,000 SNPs, or about 2,000 to 11,000 SNPs. NPs, between 3,000 and 11,000 SNPs, between 4,000 and 11,000 SNPs, between 5,000 and 11,000 SNPs, between 5,500 and 11,000 SNPs, between 6,000 and 11,000 SNPs, between 7,000 and 15,000 SNPs, between 7,000 and 14,000 SNPs, between 7,000 and 13,000 SNPs, between 7,000 and 12,000 SNPs, between 7,000 and 11,000 SNPs, between 8,000 and 15,000 SNPs, between 8,000 and 14,000 SNPs The target sequence may be amplified for multiple cycles using multiple primers that hybridize to and/or tag a plurality of target sequences that collectively comprise between 0 SNPs, between 8,000 and 13,000 SNPs, between 8,000 and 12,000 SNPs, between 8,000 and 11,000 SNPs, between 9,000 and 15,000 SNPs, between 9,000 and 14,000 SNPs, between 9,000 and 13,000 SNPs, between 9,000 and 12,000 SNPs, or between 9,000 and 11,000 SNPs. In some embodiments, genomic DNA can be amplified for multiple cycles using multiple primers that hybridize to and/or tag a plurality of target sequences that collectively comprise at least, or between about, 6,000 and 11,000 SNPs. In some embodiments, the plurality of SNPs comprises 2,639 or about 2,639 SNPs. In some embodiments, genomic DNA can be amplified for multiple cycles using multiple primers that hybridize to and/or tag a plurality of target sequences that collectively comprise at least, or about, 10,230 SNPs.
いくつかの実施形態では、複数のSNPは、少なくとも2,000~15,000、20,000、25,000、30,000、35,000、40,000、45,000もしくは50,000個の間のSNP、または約2,000~15,000、20,000、25,000、30,000、35,000、40,000、45,000もしくは50,000個の間のSNPを含む。いくつかの実施形態では、複数のSNPは、少なくとも5,000~15,000、20,000、25,000、30,000、35,000、40,000、45,000もしくは50,000個の間のSNP、または約5,000~15,000、20,000、25,000、30,000、35,000、40,000、45,000もしくは50,000個の間のSNPを含む。いくつかの実施形態では、複数のSNPは、少なくとも6,000~15,000、20,000、25,000、30,000、35,000、40,000、45,000もしくは50,000個の間のSNP、または約6,000~15,000、20,000、25,000、30,000、35,000、40,000、45,000もしくは50,000個の間のSNPを含む。いくつかの実施形態では、複数のSNPは、少なくとも2,000~11,000個の間のSNP、3,000~11,000個の間のSNP、4,000~11,000個の間のSNP、5,000~11,000個の間のSNP、5,500~11,000個の間のSNP、6,000~11,000個の間のSNP、7,000~15,000個の間のSNP、7,000~14,000個の間のSNP、7,000~13,000個の間のSNP、7,000~12,000個の間のSNP、7,000~11,000個の間のSNP、8,000~15,000個の間のSNP、8,000~14,000個の間のSNP、8,000~13,000個の間のSNP、8,000~12,000個の間のSNP、8,000~11,000個の間のSNP、9,000~15,000個の間のSNP、9,000~14,000個の間のSNP、9,000~13,000個の間のSNP、9,000~12,000個の間のSNPもしくは9,000~11,000個の間のSNP、または約2,000~11,000個の間のSNP、3,000~11,000個の間のSNP、4,000~11,000個の間のSNP、5,000~11,000個の間のSNP、5,500~11,000個の間のSNP、6,000~11,000個の間のSNP、7,000~15,000個の間のSNP、7,000~14,000個の間のSNP、7,000~13,000個の間のSNP、7,000~12,000個の間のSNP、7,000~11,000個の間のSNP、8,000~15,000個の間のSNP、8,000~14,000個の間のSNP、8,000~13,000個の間のSNP、8,000~12,000個の間のSNP、8,000~11,000個の間のSNP、9,000~15,000個の間のSNP、9,000~14,000個の間のSNP、9,000~13,000個の間のSNP、9,000~12,000個の間のSNPもしくは9,000~11,000個の間のSNPを含む。いくつかの実施形態では、複数のSNPは、2,639個または約2,639個のSNPを含む。いくつかの実施形態では、複数のSNPは、10,230個または約10,230個のSNPを含む。いくつかの実施形態では、複数のSNPは、少なくとも2,000~50,000個の間のSNP、5,000~50,000個の間のSNP、5,000~45,000個の間のSNP、5,000~40,000個の間のSNP、5,000~35,000個の間のSNP、5,000~30,000個の間のSNP、5,000~25,000個の間のSNP、5,000~20,000個の間のSNP、6,000~50,000個の間のSNP、6,000~45,000個の間のSNP、6,000~40,000個の間のSNP、6,000~35,000個の間のSNP、6,000~30,000個の間のSNP、6,000~25,000個の間のSNP、6,000~20,000個の間のSNP、7,000~50,000個の間のSNP、7,000~45,000個の間のSNP、7,000~40,000個の間のSNP、7,000~35,000個の間のSNP、7,000~30,000個の間のSNP、7,000~25,000個の間のSNP、7,000~20,000個の間のSNP、8,000~50,000個の間のSNP、8,000~45,000個の間のSNP、8,000~40,000個の間のSNP、8,000~35,000個の間のSNP、8,000~30,000個の間のSNP、8,000~25,000個の間のSNP、8,000~20,000個の間のSNP、9,000~50,000個の間のSNP、9,000~45,000個の間のSNP、9,000~40,000個の間のSNP、9,000~35,000個の間のSNP、9,000~30,000個の間のSNP、9,000~25,000個の間のSNPもしくは9,000~20,000個のSNP、または約2,000~50,000個の間のSNP、5,000~50,000個の間のSNP、5,000~45,000個の間のSNP、5,000~40,000個の間のSNP、5,000~35,000個の間のSNP、5,000~30,000個の間のSNP、5,000~25,000個の間のSNP、5,000~20,000個の間のSNP、6,000~50,000個の間のSNP、6,000~45,000個の間のSNP、6,000~40,000個の間のSNP、6,000~35,000個の間のSNP、6,000~30,000個の間のSNP、6,000~25,000個の間のSNP、6,000~20,000個の間のSNP、7,000~50,000個の間のSNP、7,000~45,000個の間のSNP、7,000~40,000個の間のSNP、7,000~35,000個の間のSNP、7,000~30,000個の間のSNP、7,000~25,000個の間のSNP、7,000~20,000個の間のSNP、8,000~50,000個の間のSNP、8,000~45,000個の間のSNP、8,000~40,000個の間のSNP、8,000~35,000個の間のSNP、8,000~30,000個の間のSNP、8,000~25,000個の間のSNP、8,000~20,000個の間のSNP、9,000~50,000個の間のSNP、9,000~45,000個の間のSNP、9,000~40,000個の間のSNP、9,000~35,000個の間のSNP、9,000~30,000個の間のSNP、9,000~25,000個の間のSNPもしくは9,000~20,000個のSNPを含む。 In some embodiments, the plurality of SNPs includes at least between 2,000 and 15,000, 20,000, 25,000, 30,000, 35,000, 40,000, 45,000, or 50,000 SNPs, or between about 2,000 and 15,000, 20,000, 25,000, 30,000, 35,000, 40,000, 45,000, or 50,000 SNPs. In some embodiments, the plurality of SNPs comprises at least between 5,000 and 15,000, 20,000, 25,000, 30,000, 35,000, 40,000, 45,000, or 50,000 SNPs, or between about 5,000 and 15,000, 20,000, 25,000, 30,000, 35,000, 40,000, 45,000, or 50,000 SNPs. In some embodiments, the plurality of SNPs comprises at least between 6,000 and 15,000, 20,000, 25,000, 30,000, 35,000, 40,000, 45,000, or 50,000 SNPs, or between about 6,000 and 15,000, 20,000, 25,000, 30,000, 35,000, 40,000, 45,000, or 50,000 SNPs. In some embodiments, the plurality of SNPs comprises at least between 2,000 and 11,000 SNPs, between 3,000 and 11,000 SNPs, between 4,000 and 11,000 SNPs, between 5,000 and 11,000 SNPs, between 5,500 and 11,000 SNPs, between 6,000 and 11,000 SNPs, between 7,000 and 15,000 SNPs, between 7,000 and 14,000 SNPs, between 7,000 and 13,000 SNPs, between 7,000 and 12,000 SNPs, SNPs between 7,000 and 11,000, SNPs between 8,000 and 15,000, SNPs between 8,000 and 14,000, SNPs between 8,000 and 13,000, SNPs between 8,000 and 12,000, SNPs between 8,000 and 11,000, SNPs between 9,000 and 15,000, SNPs between 9,000 and 14,000, SNPs between 9,000 and 13,000, SNPs between 9,000 and 12,000 or SNPs between 9,000 and 11,000 0 SNPs, or between about 2,000 and 11,000 SNPs, between 3,000 and 11,000 SNPs, between 4,000 and 11,000 SNPs, between 5,000 and 11,000 SNPs, between 5,500 and 11,000 SNPs, between 6,000 and 11,000 SNPs, between 7,000 and 15,000 SNPs, between 7,000 and 14,000 SNPs, between 7,000 and 13,000 SNPs, between 7,000 and 12,000 SNPs, between 7,000 and In some embodiments, the plurality of SNPs comprises between 11,000 SNPs, between 8,000 and 15,000 SNPs, between 8,000 and 14,000 SNPs, between 8,000 and 13,000 SNPs, between 8,000 and 12,000 SNPs, between 8,000 and 11,000 SNPs, between 9,000 and 15,000 SNPs, between 9,000 and 14,000 SNPs, between 9,000 and 13,000 SNPs, between 9,000 and 12,000 SNPs, or between 9,000 and 11,000 SNPs. In some embodiments, the plurality of SNPs comprises at or about 2,639 SNPs. In some embodiments, the plurality of SNPs comprises 10,230 or about 10,230 SNPs. In some embodiments, the plurality of SNPs comprises at least between 2,000 and 50,000 SNPs, between 5,000 and 50,000 SNPs, between 5,000 and 45,000 SNPs, between 5,000 and 40,000 SNPs, between 5,000 and 35,000 SNPs, between 5,000 and 30,000 SNPs, between 5,000 and 25,000 SNPs, between 5,000 and 20,000 SNPs. , between 6,000 and 50,000 SNPs, between 6,000 and 45,000 SNPs, between 6,000 and 40,000 SNPs, between 6,000 and 35,000 SNPs, between 6,000 and 30,000 SNPs, between 6,000 and 25,000 SNPs, between 6,000 and 20,000 SNPs, between 7,000 and 50,000 SNPs, between 7,000 and 45,000 SNPs, 7,000 Between 7,000 and 40,000 SNPs, Between 7,000 and 35,000 SNPs, Between 7,000 and 30,000 SNPs, Between 7,000 and 25,000 SNPs, Between 7,000 and 20,000 SNPs, Between 8,000 and 50,000 SNPs, Between 8,000 and 45,000 SNPs, Between 8,000 and 40,000 SNPs, Between 8,000 and 35,000 SNPs, Between 8,000 and 3 Between 8,000 and 25,000 SNPs, between 8,000 and 20,000 SNPs, between 9,000 and 50,000 SNPs, between 9,000 and 45,000 SNPs, between 9,000 and 40,000 SNPs, between 9,000 and 35,000 SNPs, between 9,000 and 30,000 SNPs, between 9,000 and 25,000 SNPs or between 9,000 and 20, 000 SNPs, or between about 2,000 and 50,000 SNPs, between 5,000 and 50,000 SNPs, between 5,000 and 45,000 SNPs, between 5,000 and 40,000 SNPs, between 5,000 and 35,000 SNPs, between 5,000 and 30,000 SNPs, between 5,000 and 25,000 SNPs, between 5,000 and 20,000 SNPs, between 6,000 and 50,000 SNPs 0 SNPs, 6,000-45,000 SNPs, 6,000-40,000 SNPs, 6,000-35,000 SNPs, 6,000-30,000 SNPs, 6,000-25,000 SNPs, 6,000-20,000 SNPs, 7,000-50,000 SNPs, 7,000-45,000 SNPs, 7,000-40,000 SNPs SNPs, between 7,000 and 35,000 SNPs, between 7,000 and 30,000 SNPs, between 7,000 and 25,000 SNPs, between 7,000 and 20,000 SNPs, between 8,000 and 50,000 SNPs, between 8,000 and 45,000 SNPs, between 8,000 and 40,000 SNPs, between 8,000 and 35,000 SNPs, between 8,000 and 30,000 SNPs , between 8,000 and 25,000 SNPs, between 8,000 and 20,000 SNPs, between 9,000 and 50,000 SNPs, between 9,000 and 45,000 SNPs, between 9,000 and 40,000 SNPs, between 9,000 and 35,000 SNPs, between 9,000 and 30,000 SNPs, between 9,000 and 25,000 SNPs, or between 9,000 and 20,000 SNPs.
いくつかの実施形態では、複数のSNPは、少なくとも2,000~11,000個の間のSNP、2,500~11,000個の間のSNP、3,000~11,000個の間のSNP、3,500~11,000個の間のSNP、4,000~11,000個の間のSNP、4,500~11,000個の間のSNP、5,000~11,000個の間のSNP、5,550~11,000個の間のSNP、6,000~11,000個の間のSNP、6,500~11,000個の間のSNP、7,000~11,000個の間のSNP、7,500~11,000個の間のSNP、8,000~11,000個の間のSNP、8,500~11,000個の間のSNP、9,000~11,000個の間のSNP、9,500~11,000個の間のSNPもしくは10,000~11,000個の間のSNP、または約2,000~11,000個の間のSNP、2,500~11,000個の間のSNP、3,000~11,000個の間のSNP、3,500~11,000個の間のSNP、4,000~11,000個の間のSNP、4,500~11,000個の間のSNP、5,000~11,000個の間のSNP、5,550~11,000個の間のSNP、6,000~11,000個の間のSNP、6,500~11,000個の間のSNP、7,000~11,000個の間のSNP、7,500~11,000個の間のSNP、8,000~11,000個の間のSNP、8,500~11,000個の間のSNP、9,000~11,000個の間のSNP、9,500~11,000個の間のSNPもしくは10,000~11,000個の間のSNPを含む。 In some embodiments, the plurality of SNPs includes at least between 2,000 and 11,000 SNPs, between 2,500 and 11,000 SNPs, between 3,000 and 11,000 SNPs, between 3,500 and 11,000 SNPs, between 4,000 and 11,000 SNPs, between 4,500 and 11,000 SNPs, between 5,000 and 11,000 SNPs, between 5,550 and 11,000 SNPs SNPs, between 6,000 and 11,000 SNPs, between 6,500 and 11,000 SNPs, between 7,000 and 11,000 SNPs, between 7,500 and 11,000 SNPs, between 8,000 and 11,000 SNPs, between 8,500 and 11,000 SNPs, between 9,000 and 11,000 SNPs, between 9,500 and 11,000 SNPs or between 10,000 and 11,000 SNPs 0 SNPs, or between about 2,000 and 11,000 SNPs, between 2,500 and 11,000 SNPs, between 3,000 and 11,000 SNPs, between 3,500 and 11,000 SNPs, between 4,000 and 11,000 SNPs, between 4,500 and 11,000 SNPs, between 5,000 and 11,000 SNPs, between 5,550 and 11,000 SNPs, between 6,000 and 1 Includes between 1,000 SNPs, between 6,500 and 11,000 SNPs, between 7,000 and 11,000 SNPs, between 7,500 and 11,000 SNPs, between 8,000 and 11,000 SNPs, between 8,500 and 11,000 SNPs, between 9,000 and 11,000 SNPs, between 9,500 and 11,000 SNPs, or between 10,000 and 11,000 SNPs.
いくつかの実施形態では、複数のSNPは、血縁関係SNP、祖先SNP、同一性SNP、表現型SNP、X-SNPおよびY-SNPからなる群の1つまたはそれを超えるものから選択されるSNPを含む。いくつかの実施形態では、複数のSNPは、血縁関係SNP、祖先SNP、同一性SNP、表現型SNP、X-SNPおよびY-SNPを含む。いくつかの実施形態では、複数のSNPは、血縁関係SNPを含む。いくつかの実施形態では、複数のSNPは、Y-SNPを含む。いくつかの実施形態では、複数のSNPは、血縁関係SNPおよびY-SNPを含む。 In some embodiments, the plurality of SNPs includes SNPs selected from one or more of the group consisting of kinship SNPs, ancestry SNPs, identity SNPs, phenotype SNPs, X-SNPs, and Y-SNPs. In some embodiments, the plurality of SNPs includes kinship SNPs, ancestry SNPs, identity SNPs, phenotype SNPs, X-SNPs, and Y-SNPs. In some embodiments, the plurality of SNPs includes kinship SNPs. In some embodiments, the plurality of SNPs includes Y-SNPs. In some embodiments, the plurality of SNPs includes kinship SNPs and Y-SNPs.
任意のそのような実施形態のいくつかにおいて、複数のSNPは、1つまたはそれを超えるマイクロハプロタイプを含む。したがって、いくつかの実施形態では、マイクロハプロタイプは、複数のSNPに含まれるSNPの一種である。いくつかの実施形態では、各マイクロハプロタイプは、単一アンプリコンにおいて共有されるまたはゲノム上で互いに近接して共有される1つまたはそれを超えるSNPを含む。一般に、マイクロハプロタイプは、複数の対立遺伝子の組み合わせ、例えば複数のSNPベースの対立遺伝子マーカーを示す、典型的には300ヌクレオチド長未満のバイオマーカーである。 In some of any such embodiments, the plurality of SNPs comprises one or more microhaplotypes. Thus, in some embodiments, a microhaplotype is a type of SNP included in the plurality of SNPs. In some embodiments, each microhaplotype comprises one or more SNPs shared in a single amplicon or shared close to each other on the genome. Generally, a microhaplotype is a biomarker, typically less than 300 nucleotides in length, that represents a combination of multiple alleles, e.g., multiple SNP-based allelic markers.
いくつかの実施形態では、SNPは、既知の医学的関連を有する、例えば既知の医学的症状に関連するSNP、またはマイナー対立遺伝子頻度が低いSNPを含まない。既知の医学的関連、例えば既知の医学的症状に関連するSNP、またはマイナー対立遺伝子頻度が低いSNPを除外することによって、プライバシーの懸念が制限され、遺伝的健康データが保護される。 In some embodiments, the SNPs do not include SNPs with known medical associations, e.g., SNPs associated with known medical conditions, or SNPs with low minor allele frequency. By excluding SNPs with known medical associations, e.g., SNPs associated with known medical conditions, or SNPs with low minor allele frequency, privacy concerns are limited and genetic health data is protected.
いくつかの実施形態では、SNPは、複数の遺伝子型サンプルでフィルタリングされたSNPを含む。いくつかの実施形態では、SNPは、祖先SNP、同一性SNP、血縁関係SNP、表現型SNP、X-SNPおよびY-SNPを含むカテゴリーから選択される。いくつかの実施形態では、祖先SNPは、10~100個または約10~100個のSNPを含む。いくつかの実施形態では、同一性SNPは、10~200個または約10~200個のSNPを含む。いくつかの実施形態では、血縁関係SNPは、7,000~12,000個または約7,000~12,000個のSNPを含む。いくつかの実施形態では、表現型SNPは、1~50個または約1~50個のSNPを含む。いくつかの実施形態では、X-SNPは、10~200個または約10~200個のSNPを含む。いくつかの実施形態では、Y-SNPは、10~200個または約10~200個のSNPを含む。いくつかの実施形態では、祖先SNPは、SNPの総数の0~10%または約0~10%を含む。いくつかの実施形態では、同一性SNPは、SNPの総数の0~10%または約0~10%を含む。いくつかの実施形態では、血縁関係SNPは、SNPの総数の80~100%または約80~100%を含む。いくつかの実施形態では、複数のSNPの少なくとも80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%もしくは99%、または少なくとも約80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%もしくは99%が血縁関係SNPである。いくつかの実施形態では、複数のSNPの少なくとも85%または少なくとも約85%が血縁関係SNPである。いくつかの実施形態では、複数のSNPの少なくとも90%または少なくとも約90%が血縁関係SNPである。いくつかの実施形態では、複数のSNPの少なくとも95%または少なくとも約95%が血縁関係SNPである。いくつかの実施形態では、複数のSNPの少なくとも99%または少なくとも約99%が血縁関係SNPである。いくつかの実施形態では、複数のSNPの100%が血縁関係SNPである。いくつかの実施形態では、表現型SNPは、SNPの総数の0~5%または約0~5%を含む。いくつかの実施形態では、X-SNPは、SNPの総数の0~5%または約0~5%を含む。いくつかの実施形態では、Y-SNPは、SNPの総数の0~5%または約0~5%を含む。いくつかの実施形態では、SNPは、医学的に有益なSNPまたはマイナー対立遺伝子頻度SNPを含まない。タグ領域は、ユニバーサルタグ領域、キャプチャータグ領域、増幅タグ領域、配列決定タグ領域、UMIタグ領域などの任意の配列であり得る。 In some embodiments, the SNPs include SNPs filtered across multiple genotype samples. In some embodiments, the SNPs are selected from categories including ancestry SNPs, identity SNPs, kinship SNPs, phenotype SNPs, X-SNPs, and Y-SNPs. In some embodiments, the ancestry SNPs include 10-100 or about 10-100 SNPs. In some embodiments, the identity SNPs include 10-200 or about 10-200 SNPs. In some embodiments, the kinship SNPs include 7,000-12,000 or about 7,000-12,000 SNPs. In some embodiments, the phenotype SNPs include 1-50 or about 1-50 SNPs. In some embodiments, the X-SNPs include 10-200 or about 10-200 SNPs. In some embodiments, the Y-SNPs comprise 10-200 or about 10-200 SNPs. In some embodiments, the ancestral SNPs comprise 0-10% or about 0-10% of the total number of SNPs. In some embodiments, the identity SNPs comprise 0-10% or about 0-10% of the total number of SNPs. In some embodiments, the relatedness SNPs comprise 80-100% or about 80-100% of the total number of SNPs. In some embodiments, at least or at least about 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, or 99% of the SNPs are related SNPs. In some embodiments, at least 85% or at least about 85% of the SNPs are related SNPs. In some embodiments, at least 90% or at least about 90% of the SNPs are related SNPs. In some embodiments, at least 95% or at least about 95% of the plurality of SNPs are consanguineous SNPs. In some embodiments, at least 99% or at least about 99% of the plurality of SNPs are consanguineous SNPs. In some embodiments, 100% of the plurality of SNPs are consanguineous SNPs. In some embodiments, phenotypic SNPs comprise 0-5% or about 0-5% of the total number of SNPs. In some embodiments, X-SNPs comprise 0-5% or about 0-5% of the total number of SNPs. In some embodiments, Y-SNPs comprise 0-5% or about 0-5% of the total number of SNPs. In some embodiments, the SNPs do not include medically informative SNPs or minor allele frequency SNPs. The tag region can be any sequence, such as a universal tag region, a capture tag region, an amplification tag region, a sequencing tag region, or a UMI tag region.
いくつかの実施形態では、標的配列を精製および濃縮し、核酸ライブラリーとも呼ばれる元のDNAサンプルのライブラリーを生成する。いくつかの実施形態では、精製は、精製ビーズを酵素と組み合わせて、増幅された標的を他の反応成分から精製する。いくつかの実施形態では、精製した標的配列を、DNAの増幅ならびにUDIアダプターおよびクラスター生成に必要な配列の添加によって濃縮する。UDIアダプターは、解析用の各サンプルを同定する配列の固有の組み合わせでDNAをタグ付けすることができる。 In some embodiments, target sequences are purified and enriched to generate a library of the original DNA sample, also referred to as a nucleic acid library. In some embodiments, purification combines purification beads with enzymes to purify the amplified target from other reaction components. In some embodiments, purified target sequences are enriched by amplifying the DNA and adding UDI adapters and sequences required for cluster generation. The UDI adapters can tag the DNA with a unique combination of sequences that identify each sample for analysis.
いくつかの実施形態では、核酸ライブラリーは、本明細書に記載される方法または実施形態のいずれかによって産生された増幅産物を含む増幅産物から生成される。したがって、いくつかの実施形態では、核酸ライブラリーは、複数の少なくとも5,000~50,000個または約5,000~50,000個または少なくとも2,000~50,000個または約2,000~50,000個のSNPを集合的に含む複数の標的配列に特異的にハイブリダイズする複数のプライマーで核酸サンプルを増幅することによって生成された増幅産物を含む。 In some embodiments, a nucleic acid library is generated from amplification products, including amplification products produced by any of the methods or embodiments described herein. Thus, in some embodiments, the nucleic acid library comprises amplification products generated by amplifying a nucleic acid sample with a plurality of primers that specifically hybridize to a plurality of target sequences that collectively comprise a plurality of at least 5,000-50,000, or about 5,000-50,000, or at least 2,000-50,000, or about 2,000-50,000 SNPs.
いくつかの実施形態では、核酸ライブラリーまたはDNAライブラリーは、定量化および品質のチェックのために正規化され、同一フローセル上で一緒に配列決定可能なライブラリーのプールを作製するために、等量の正規化されたライブラリーを組み合わせることによってプールされる。いくつかの実施形態では、定量化は、蛍光定量化法の使用を含む。いくつかの実施形態では、定量化は、定量的PCR法を含む。DNAライブラリーをプールした後、それらを変性させ、水酸化ナトリウム(NaOH)ベースの方法を用いて希釈することができ、配列決定対照を加えることができる。 In some embodiments, nucleic acid or DNA libraries are normalized for quantification and quality checks and pooled by combining equal amounts of normalized libraries to create a pool of libraries that can be sequenced together on the same flow cell. In some embodiments, quantification involves the use of fluorescent quantification methods. In some embodiments, quantification involves quantitative PCR methods. After the DNA libraries are pooled, they can be denatured and diluted using sodium hydroxide (NaOH)-based methods, and sequencing controls can be added.
いくつかの実施形態では、核酸ライブラリーは、Forenseq Kintelligenceキットユーザーガイド(Verogen PN:V16000120(その内容全体が参照により本明細書に組み込まれる))に記載されている指示に従って定量化、正規化、変性および希釈される。 In some embodiments, the nucleic acid library is quantified, normalized, denatured, and diluted according to the instructions provided in the Forenseq Kintelligence Kit User Guide (Verogen PN: V16000120, the entire contents of which are incorporated herein by reference).
いくつかの実施形態では、DNAライブラリーの核酸ライブラリーは、本明細書に記載される方法を補完するための任意の公知の適切な方法を使用して、超並列配列決定を使用して配列決定のために調製される。 In some embodiments, the nucleic acid library of the DNA library is prepared for sequencing using massively parallel sequencing using any known suitable method to complement the methods described herein.
いくつかの実施形態では、本明細書に記載の方法のいずれかを使用して構築された核酸ライブラリーも本明細書で提供される。 In some embodiments, also provided herein are nucleic acid libraries constructed using any of the methods described herein.
いくつかの実施形態では、本明細書に提供される方法は、増幅産物から核酸ライブラリーを生成するステップを含む。
配列決定および解析
In some embodiments, the methods provided herein include generating a nucleic acid library from the amplification products.
Sequencing and analysis
いくつかの態様では、本明細書に記載される核酸ライブラリーまたはDNAライブラリーは、本明細書に記載される方法を補完するための任意の既知の適切な方法を使用して配列決定することができ、任意の特定の配列決定プラットフォームに限定されない。いくつかの態様では、本明細書に開示されるサンプルは、本明細書に記載される方法を補完するための任意の既知の適切な方法を使用して解析することができる。配列決定および方法解析の例示的な方法を以下に記載する。
A.配列決定
In some aspects, the nucleic acid or DNA libraries described herein can be sequenced using any known suitable method to complement the methods described herein, and are not limited to any particular sequencing platform. In some aspects, the samples disclosed herein can be analyzed using any known suitable method to complement the methods described herein. Exemplary methods of sequencing and analysis are described below.
A. Sequencing
いくつかの実施形態では、本明細書に提供される方法は、増幅産物から生成された核酸ライブラリーを配列決定するステップを含む。 In some embodiments, the methods provided herein include sequencing a nucleic acid library generated from the amplification products.
いくつかの実施形態では、本明細書に記載される方法を実施することによって作製される核酸ライブラリーまたはDNAライブラリーを配列決定するための技術は、合成によるポリメラーゼベースの配列決定、ライゲーションベースの配列決定、パイロ配列決定またはポリメラーゼベースの配列決定法の使用を含む。 In some embodiments, techniques for sequencing nucleic acid or DNA libraries produced by practicing the methods described herein include the use of polymerase-by-synthesis sequencing, ligation-based sequencing, pyrosequencing, or polymerase-based sequencing methods.
いくつかの実施形態では、核酸ライブラリーは、MiSeq FGx配列決定システム参照ガイド(例えば、文書番号VD2018006:その内容全体が参照により本明細書に組み込まれる)の指示に従って配列決定される。いくつかの実施形態では、MiSeq FGx配列決定システム参照ガイド(例えば、文書番号VD2018006)の指示に従って配列決定される核酸ライブラリーは変性される。 In some embodiments, the nucleic acid library is sequenced according to the instructions in the MiSeq FGx Sequencing System Reference Guide (e.g., Document No. VD2018006, the entire contents of which are incorporated herein by reference). In some embodiments, the nucleic acid library to be sequenced according to the instructions in the MiSeq FGx Sequencing System Reference Guide (e.g., Document No. VD2018006) is denatured.
いくつかの態様では、本明細書に開示される配列決定法は、超並列配列決定(MPS)の使用を含む。いくつかの態様では、本明細書に開示される配列決定法は、全ゲノム配列決定(WGS)の使用を含まない。いくつかの態様では、本明細書に開示される配列決定法は、マイクロアレイの使用を含まない。 In some aspects, the sequencing methods disclosed herein include the use of massively parallel sequencing (MPS). In some aspects, the sequencing methods disclosed herein do not include the use of whole genome sequencing (WGS). In some aspects, the sequencing methods disclosed herein do not include the use of microarrays.
いくつかの実施形態では、本明細書に開示される配列決定法は、SNPの遺伝子座の90%または約90%を検出する。 In some embodiments, the sequencing methods disclosed herein detect 90% or about 90% of SNP loci.
いくつかの実施形態では、本明細書に開示される配列決定法は、複数のSNPを含む増幅産物の配列決定の結果を含む出力報告を生成する。 In some embodiments, the sequencing methods disclosed herein generate an output report that includes the results of sequencing an amplification product containing multiple SNPs.
いくつかの実施形態では、配列決定することは、最大40プレックスの配列決定プレキシティを含む。いくつかの実施形態では、配列決定することは、2プレックス~40プレックスの配列決定プレキシティを含む。いくつかの実施形態では、配列決定することは、12プレックス~40プレックスの配列決定プレキシティを含む。いくつかの実施形態では、配列決定することは、12プレックス~32プレックスの配列決定プレキシティを含む。いくつかの実施形態では、配列決定することは、12プレックス~30プレックスの配列決定プレキシティを含む。いくつかの実施形態では、配列決定することは、24プレックス~40プレックスの配列決定プレキシティを含む。いくつかの実施形態では、配列決定することは、24プレックス~32プレックスの配列決定プレキシティを含む。いくつかの実施形態では、配列決定することは、28プレックス~32プレックスの配列決定プレキシティを含む。いくつかの実施形態では、配列決定することは、2-プレックス、3-プレックス、4-プレックス、5-プレックス、6-プレックス、7-プレックス、8-プレックス、9-プレックス、10-プレックス、11-プレックス、12-プレックス、13-プレックス、14-プレックス、15-プレックス、16-プレックス、17-プレックス、18-プレックス、19-プレックス、20-プレックス、21-プレックス、22-プレックス、23-プレックス、24-プレックス、25-プレックス、26-プレックス、27-プレックス、28-プレックス、29-プレックス、30-プレックス、31-プレックス、または32-プレックスの配列決定プレキシティを含む。いくつかの実施形態では、配列決定することは、30プレックスまたは約30プレックスの配列決定プレキシティを含む。いくつかの実施形態では、配列決定することは、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、または40プレックスの配列決定プレキシティを含む。いくつかの実施形態では、配列決定することは、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、または45プレックスの配列決定プレキシティを含む。配列決定プレキシティとは、例えばフローセルで一緒に配列決定される個々のサンプルの数を指す。 In some embodiments, the sequencing comprises a sequencing plexity of up to 40-plex. In some embodiments, the sequencing comprises a sequencing plexity of 2-plex to 40-plex. In some embodiments, the sequencing comprises a sequencing plexity of 12-plex to 40-plex. In some embodiments, the sequencing comprises a sequencing plexity of 12-plex to 32-plex. In some embodiments, the sequencing comprises a sequencing plexity of 12-plex to 30-plex. In some embodiments, the sequencing comprises a sequencing plexity of 24-plex to 40-plex. In some embodiments, the sequencing comprises a sequencing plexity of 24-plex to 32-plex. In some embodiments, the sequencing comprises a sequencing plexity of 28-plex to 32-plex. In some embodiments, the sequencing comprises a sequencing plexity of 2-plex, 3-plex, 4-plex, 5-plex, 6-plex, 7-plex, 8-plex, 9-plex, 10-plex, 11-plex, 12-plex, 13-plex, 14-plex, 15-plex, 16-plex, 17-plex, 18-plex, 19-plex, 20-plex, 21-plex, 22-plex, 23-plex, 24-plex, 25-plex, 26-plex, 27-plex, 28-plex, 29-plex, 30-plex, 31-plex, or 32-plex. In some embodiments, the sequencing comprises a sequencing plexity of 30-plex or about 30-plex. In some embodiments, the sequencing comprises a sequencing complexity of 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, or 40-plex. In some embodiments, the sequencing comprises a sequencing plexity of 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, or 45-plex. Sequencing plexity refers to the number of individual samples that are sequenced together, for example, in a flow cell.
いくつかの実施形態では、配列決定することは、6プレックス~16プレックスの間または約6プレックス~16プレックスの間の配列決定プレキシティで死後サンプルを配列決定することを含む。いくつかの実施形態では、配列決定することは、8プレックス~14プレックスの間または約8プレックス~14プレックスの間の配列決定プレキシティで死後サンプルを配列決定することを含む。いくつかの実施形態では、配列決定することは、10プレックス~14プレックスの間または約10プレックス~14プレックスの間の配列決定プレキシティで死後サンプルを配列決定することを含む。いくつかの実施形態では、配列決定することは、10プレックス、11プレックス、12プレックス、13プレックスもしくは14プレックス、または約10プレックス、11プレックス、12プレックス、13プレックスもしくは14プレックスの配列決定プレキシティで死後サンプルを配列決定することを含む。いくつかの実施形態では、配列決定することは、12プレックスまたは約12プレックスの配列決定プレキシティで死後サンプルを配列決定することを含む。 In some embodiments, sequencing comprises sequencing the postmortem sample at a sequencing plexity of between 6-plex and 16-plex, or between about 6-plex and 16-plex. In some embodiments, sequencing comprises sequencing the postmortem sample at a sequencing plexity of between 8-plex and 14-plex, or between about 8-plex and 14-plex. In some embodiments, sequencing comprises sequencing the postmortem sample at a sequencing plexity of between 10-plex and 14-plex, or between about 10-plex and 14-plex. In some embodiments, sequencing comprises sequencing the postmortem sample at a sequencing plexity of 10-plex, 11-plex, 12-plex, 13-plex, or 14-plex, or at a sequencing plexity of about 10-plex, 11-plex, 12-plex, 13-plex, or 14-plex. In some embodiments, sequencing comprises sequencing the postmortem sample at a sequencing plexity of 12-plex or about 12-plex.
いくつかの実施形態では、配列決定することは、24プレックス~40プレックスの間または約24プレックス~40プレックスの間の配列決定プレキシティで生前サンプルを配列決定することを含む。いくつかの実施形態では、配列決定することは、26プレックス~38プレックスの間または約26プレックス~38プレックスの間の配列決定プレキシティで死後サンプルを配列決定することを含む。いくつかの実施形態では、配列決定することは、28プレックス~36プレックスの間または約28プレックス~36プレックスの間の配列決定プレキシティで死後サンプルを配列決定することを含む。いくつかの実施形態では、配列決定することは、28プレックス、29プレックス、30プレックス、31プレックス、32プレックス、33プレックスもしくは34プレックス、または約28プレックス、29プレックス、30プレックス、31プレックス、32プレックス、33プレックスもしくは34プレックスの配列決定プレキシティで死後サンプルを配列決定することを含む。いくつかの実施形態では、配列決定することは、32プレックスまたは約32プレックスの配列決定プレキシティで死後サンプルを配列決定することを含む。
B.解析
In some embodiments, sequencing comprises sequencing the ante-mortem sample at a sequencing plexity of between or between about 24-plex and 40-plex. In some embodiments, sequencing comprises sequencing the post-mortem sample at a sequencing plexity of between or between about 26-plex and 38-plex. In some embodiments, sequencing comprises sequencing the post-mortem sample at a sequencing plexity of between or between about 28-plex and 36-plex. In some embodiments, sequencing comprises sequencing the post-mortem sample at a sequencing plexity of at or between about 28-plex and 36-plex. In some embodiments, sequencing comprises sequencing the post-mortem sample at a sequencing plexity of 28-plex, 29-plex, 30-plex, 31-plex, 32-plex, 33-plex, or 34-plex. In some embodiments, the sequencing comprises sequencing the post-mortem sample at a sequencing plexity of 32-plex or about 32-plex.
B. analysis
いくつかの実施形態では、本明細書に提供される方法は、増幅産物の配列を解析するステップを含む。 In some embodiments, the methods provided herein include analyzing the sequence of the amplification product.
いくつかの態様では、本明細書に開示される方法は、サンプル(すなわち、増幅産物)の配列決定が完了した時点で解析を自動的に開始する解析モジュールの使用を伴う。いくつかの実施形態では、解析モジュールは、ユニバーサル解析ソフトウェア(UAS)を含む。 In some aspects, the methods disclosed herein involve the use of an analysis module that automatically initiates analysis upon completion of sequencing of a sample (i.e., an amplified product). In some embodiments, the analysis module comprises universal analysis software (UAS).
いくつかの実施形態では、本明細書に開示される解析法は、複数のSNPを含む増幅産物の配列決定の結果を含む出力報告を生成する。 In some embodiments, the analytical methods disclosed herein generate an output report that includes the results of sequencing an amplification product containing multiple SNPs.
いくつかの実施形態では、配列決定結果は、当該技術分野で利用可能な任意の適切な配列解析ソフトウェアを使用して解析される。 In some embodiments, the sequencing results are analyzed using any suitable sequence analysis software available in the art.
いくつかの実施形態では、配列決定結果は、バージョン2.1または2.2またはそれ以降(Verogen、カリフォルニア州サンディエゴ)などのForenseqユニバーサル解析ソフトウェア参照ガイドに概説され、例えば、文書番号VD2019002)(その内容全体が参照により本明細書に組み込まれる)に提供される指示に従って、バージョン2.2またはそれ以降などのForenseqユニバーサル解析ソフトウェアを使用して解析される。
遺伝子型およびDNAプロファイルの決定
In some embodiments, the sequencing results are analyzed using Forenseq Universal Analysis Software, such as version 2.2 or later (Verogen, San Diego, CA), according to the instructions outlined in the Forenseq Universal Analysis Software Reference Guide, e.g., document number VD2019002, the contents of which are incorporated herein by reference in their entirety.
Genotype and DNA profile determination
いくつかの実施形態では、本明細書に提供される方法は、複数のSNPの遺伝子型を決定し、それによってDNAプロファイルを生成するステップを含む。 In some embodiments, the methods provided herein include a step of genotyping a plurality of SNPs, thereby generating a DNA profile.
いくつかの実施形態では、DNAプロファイルは、複数のSNPの遺伝子型を決定することによって生成される。 In some embodiments, the DNA profile is generated by genotyping multiple SNPs.
いくつかの態様では、本明細書に記載される方法のいずれかによって生成された複数のSNPを含む増幅産物の配列決定の結果を含む出力報告を使用することで、本明細書に記載される方法を補完するための任意の既知の適切な方法を使用してサンプルを遺伝子型決定することができる。いくつかの態様では、本明細書に記載される方法のいずれかによって生成された複数のSNPを含む増幅産物の配列決定の結果を含む出力報告を使用することで、本明細書に記載される方法を補完するための任意の既知の適切な方法を使用してDNAプロファイルを生成することができる。 In some aspects, an output report containing the results of sequencing an amplification product containing multiple SNPs generated by any of the methods described herein can be used to genotype a sample using any known suitable method to complement the methods described herein. In some aspects, an output report containing the results of sequencing an amplification product containing multiple SNPs generated by any of the methods described herein can be used to generate a DNA profile using any known suitable method to complement the methods described herein.
いくつかの実施形態では、DNAプロファイルは、複数のSNPの各々についての遺伝子型を含む。いくつかの実施形態では、DNAプロファイルは、複数のSNPの少なくとも80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%もしくは99%、または少なくとも約80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%もしくは99%の遺伝子型を含む。いくつかの実施形態では、DNAプロファイルは、複数のSNPの少なくとも85%または少なくとも約85%の遺伝子型を含む。いくつかの実施形態では、DNAプロファイルは、複数のSNPの少なくとも90%または少なくとも約90%の遺伝子型を含む。いくつかの実施形態では、DNAプロファイルは、複数のSNPの少なくとも95%または少なくとも約95%の遺伝子型を含む。いくつかの実施形態では、DNAプロファイルは、SNPの少なくとも99%または少なくとも約99%または約100%の遺伝子型を含む。 In some embodiments, the DNA profile comprises genotypes for each of a plurality of SNPs. In some embodiments, the DNA profile comprises genotypes for at least, or at least about, 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, or 99% of the plurality of SNPs. In some embodiments, the DNA profile comprises genotypes for at least 85% or at least about 85% of the plurality of SNPs. In some embodiments, the DNA profile comprises genotypes for at least 90% or at least about 90% of the plurality of SNPs. In some embodiments, the DNA profile comprises genotypes for at least 95% or at least about 95% of the plurality of SNPs. In some embodiments, the DNA profile includes genotypes for at least 99%, or at least about 99%, or about 100% of the SNPs.
いくつかの実施形態では、本明細書に開示される方法は、毛髪の色、眼の色および生物地理学的祖先の決定を含む。
関連度決定
In some embodiments, the methods disclosed herein include determining hair color, eye color, and biogeographic ancestry.
Determining relevance
いくつかの実施形態では、本明細書中に提供される方法は、DNAプロファイルと1つまたはそれを超える参照DNAプロファイルとの関連度を計算するステップを含み、1つまたはそれを超える参照DNAプロファイルは、関心のある人の血縁者からの1つまたはそれを超える参照DNAプロファイルを含むDNAプロファイルの参照セット内に含まれる。 In some embodiments, the methods provided herein include calculating the degree of relatedness of the DNA profile to one or more reference DNA profiles, where the one or more reference DNA profiles are included in a reference set of DNA profiles that includes one or more reference DNA profiles from relatives of the person of interest.
いくつかの態様では、本明細書に記載されるDNAプロファイルの関連度は、本明細書に記載される方法を補完するための任意の既知の適切な方法を使用して、1つまたはそれを超える参照DNAプロファイルを参照して計算することができる。 In some aspects, the relevance of the DNA profiles described herein can be calculated with reference to one or more reference DNA profiles using any known suitable method to complement the methods described herein.
いくつかの実施形態では、1つまたはそれを超える参照DNAプロファイルは、関心のある人の血縁者からの1つまたはそれを超える参照DNAプロファイルを含むDNAプロファイルの参照セット内に含まれる。 In some embodiments, the one or more reference DNA profiles are included within a reference set of DNA profiles that includes one or more reference DNA profiles from relatives of the person of interest.
いくつかの実施形態では、DNAプロファイルの参照セットは、最大5、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175、200、300、400、500、600、700、800、900、または1000個の参照DNAプロファイルを含む。いくつかの実施形態では、DNAプロファイルの参照セットは、最大1000個の参照DNAプロファイルを含む。いくつかの実施形態では、DNAプロファイルの参照セットは、最大500個の参照DNAプロファイルを含む。いくつかの実施形態では、DNAプロファイルの参照セットは、最大250個の参照DNAプロファイルを含む。いくつかの実施形態では、DNAプロファイルの参照セットは、最大150個の参照DNAプロファイルを含む。いくつかの実施形態では、DNAプロファイルの参照セットは、最大100個の参照DNAプロファイルを含む。いくつかの実施形態では、DNAプロファイルの参照セットは、最大75個の参照DNAプロファイルを含む。いくつかの実施形態では、DNAプロファイルの参照セットは、最大50個の参照DNAプロファイルを含む。いくつかの実施形態では、DNAプロファイルの参照セットは、最大25個の参照DNAプロファイルを含む。いくつかの実施形態では、DNAプロファイルの参照セットは、最大15個の参照DNAプロファイルを含む。いくつかの実施形態では、DNAプロファイルの参照セットは、1~1,000個の間の参照DNAプロファイル、1~500個の間の参照DNAプロファイル、1~400個の間の参照DNAプロファイル、1~300個の間の参照DNAプロファイル、1~250個の間の参照DNAプロファイル、1~200個の間の参照DNAプロファイル、1~150個の間の参照DNAプロファイル、1~100個の間の参照DNAプロファイル、1~75個の間の参照DNAプロファイル、1~50個の間の参照DNAプロファイル、1~25個の間の参照DNAプロファイル、1~20個の間の参照DNAプロファイル、1~15個の間の参照DNAプロファイル、1~10個の間の参照DNAプロファイル、または1~5個の間の参照DNAプロファイルを含む。 In some embodiments, a reference set of DNA profiles includes up to 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 125, 150, 175, 200, 300, 400, 500, 600, 700, 800, 900, or 1000 reference DNA profiles. In some embodiments, a reference set of DNA profiles includes up to 1000 reference DNA profiles. In some embodiments, a reference set of DNA profiles includes up to 500 reference DNA profiles. In some embodiments, a reference set of DNA profiles includes up to 250 reference DNA profiles. In some embodiments, a reference set of DNA profiles includes up to 150 reference DNA profiles. In some embodiments, a reference set of DNA profiles includes up to 100 reference DNA profiles. In some embodiments, the reference set of DNA profiles includes up to 75 reference DNA profiles. In some embodiments, the reference set of DNA profiles includes up to 50 reference DNA profiles. In some embodiments, the reference set of DNA profiles includes up to 25 reference DNA profiles. In some embodiments, the reference set of DNA profiles includes up to 15 reference DNA profiles. In some embodiments, the reference set of DNA profiles includes between 1 and 1,000 reference DNA profiles, between 1 and 500 reference DNA profiles, between 1 and 400 reference DNA profiles, between 1 and 300 reference DNA profiles, between 1 and 250 reference DNA profiles, between 1 and 200 reference DNA profiles, between 1 and 150 reference DNA profiles, between 1 and 100 reference DNA profiles, between 1 and 75 reference DNA profiles, between 1 and 50 reference DNA profiles, between 1 and 25 reference DNA profiles, between 1 and 20 reference DNA profiles, between 1 and 15 reference DNA profiles, between 1 and 10 reference DNA profiles, or between 1 and 5 reference DNA profiles.
いくつかの実施形態では、DNAプロファイルの参照セットは、少なくとも1、2、3、4、5、6、7、8、9、10、15、20、または25個の参照DNAプロファイルを含み、最大30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175、200、300、400、500、600、700、800、900、または1000個の参照DNAプロファイルを含む。 In some embodiments, the reference set of DNA profiles includes at least 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, or 25 reference DNA profiles, and up to 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 125, 150, 175, 200, 300, 400, 500, 600, 700, 800, 900, or 1000 reference DNA profiles.
いくつかの実施形態では、DNAプロファイルの参照セットは、1、2、3、4、5、6、7、8、9、10、11、12、12、14、15、16、17、18、19または20個の参照DNAプロファイルを含む。 In some embodiments, the reference set of DNA profiles includes 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 12, 14, 15, 16, 17, 18, 19, or 20 reference DNA profiles.
いくつかの実施形態では、DNAプロファイルの参照セットは、関心のある人の血縁者からのDNAプロファイルを含む。いくつかの実施形態では、DNAプロファイルの参照セット内の参照DNAプロファイルの少なくとも5%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、または95%が、関心のある人の血縁者からのものである。いくつかの実施形態では、DNAプロファイルの参照セット内の参照DNAプロファイルの70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%もしくは100%、または約70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%もしくは100%が、関心のある人の血縁者からのものである。いくつかの実施形態では、DNAプロファイルの参照セット内の参照DNAプロファイルの100%は、関心のある人の血縁者からのものである。いくつかの実施形態では、DNAプロファイルの参照セット内の参照DNAプロファイルの少なくとも50%は、関心のある人の血縁者からのものである。 In some embodiments, the reference set of DNA profiles includes DNA profiles from blood relatives of the person of interest. In some embodiments, at least 5%, 10%, 15%, 20%, 25%, 30%, 35%, 40%, 45%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, or 95% of the reference DNA profiles in the reference set of DNA profiles are from blood relatives of the person of interest. In some embodiments, 70%, 71%, 72%, 73%, 74%, 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99%, or or 100%, or about 70%, 71%, 72%, 73%, 74%, 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99%, or 100% are from relatives of the person of interest. In some embodiments, 100% of the reference DNA profiles in the reference set of DNA profiles are from relatives of the person of interest. In some embodiments, at least 50% of the reference DNA profiles in the reference set of DNA profiles are from relatives of the person of interest.
いくつかの実施形態では、関心のある人の血縁者からの1つまたはそれを超える参照DNAプロファイルの各々は、生前サンプルである。いくつかの実施形態では、関心のある人の血縁者からの1つまたはそれを超える参照DNAプロファイルの1つまたはそれを超えるものは、生前サンプルである。いくつかの実施形態では、関心のある人の血縁者からの1つまたはそれを超える参照DNAプロファイルの1つまたはそれを超えるものは、死後サンプルである。いくつかの実施形態では、関心のある人の血縁者からの1つまたはそれを超える参照DNAプロファイルは、死後サンプルおよび生前サンプルを含む。 In some embodiments, each of the one or more reference DNA profiles from relatives of the person of interest is an antemortem sample. In some embodiments, one or more of the one or more reference DNA profiles from relatives of the person of interest is an antemortem sample. In some embodiments, one or more of the one or more reference DNA profiles from relatives of the person of interest is a postmortem sample. In some embodiments, the one or more reference DNA profiles from relatives of the person of interest comprise a postmortem sample and an antemortem sample.
いくつかの実施形態では、DNAプロファイルの参照セット内の関心のある人の各血縁者は、それぞれ、関心のある人の1親等、2親等、3親等、4親等、または5親等の血縁者である。例えば、関心のある人の血縁者からの3つの参照DNAプロファイルを含むDNAプロファイルの参照セットを含む実施形態では、3つの参照DNAプロファイルの各々は、独立して、1親等の血縁者、2親等の血縁者、3親等の血縁者、4親等の血縁者、または5親等の血縁者からのものであり得、例えば、第1の参照DNAプロファイルは1親等の血縁者からのものであり得、第2の参照DNAプロファイルは3親等の血縁者からのものであり得、第3の参照DNAプロファイルは1親等の血縁者からのものであり得る。 In some embodiments, each relative of the person of interest in the reference set of DNA profiles is a first-, second-, third-, fourth-, or fifth-degree relative of the person of interest, respectively. For example, in an embodiment including a reference set of DNA profiles comprising three reference DNA profiles from relatives of the person of interest, each of the three reference DNA profiles may independently be from a first-, second-, third-, fourth-, or fifth-degree relative; e.g., the first reference DNA profile may be from a first-degree relative, the second reference DNA profile may be from a third-degree relative, and the third reference DNA profile may be from a first-degree relative.
いくつかの実施形態では、DNAプロファイルの参照セット内の1つまたはそれを超える参照DNAプロファイルの少なくとも50%、55%、60%、65%、70%、75%、80%、85%、90%、または95%が親類であり、1つまたはそれを超える参照DNAプロファイルの各々は、DNAプロファイルの参照セット内の他の1つまたはそれを超える参照DNAプロファイルの各々は、独立して、1親等の血縁者、2親等の血縁者、3親等の血縁者、4親等の血縁者、または5親等の血縁者からのものである。 In some embodiments, at least 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, or 95% of the one or more reference DNA profiles in the reference set of DNA profiles are relatives, and each of the one or more reference DNA profiles is, independently, from a first-degree relative, a second-degree relative, a third-degree relative, a fourth-degree relative, or a fifth-degree relative with respect to each of the other one or more reference DNA profiles in the reference set of DNA profiles.
いくつかの実施形態では、DNAプロファイルの参照セット内の参照DNAプロファイルの少なくとも5%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、または95%は関心のある人の血縁者からのものであり、DNAプロファイルの参照セット内の参照DNAプロファイルの少なくとも5%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、または95%の各々は、1親等、2親等、3親等、4親等、または5親等の血縁者である。 In some embodiments, at least 5%, 10%, 15%, 20%, 25%, 30%, 35%, 40%, 45%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, or 95% of the reference DNA profiles in the reference set of DNA profiles are from relatives of the person of interest, and at least 5%, 10%, 15%, 20%, 25%, 30%, 35%, 40%, 45%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, or 95% of the reference DNA profiles in the reference set of DNA profiles are each from first-, second-, third-, fourth-, or fifth-degree relatives.
いくつかの実施形態では、DNAプロファイルの参照セット内の関心のある人の各血縁者の同一性は既知である。いくつかの実施形態では、DNAプロファイルの参照セット内の1つまたはそれを超える参照DNAプロファイルの各々の同一性は既知である。 In some embodiments, the identity of each relative of the person of interest in the reference set of DNA profiles is known. In some embodiments, the identity of each of the one or more reference DNA profiles in the reference set of DNA profiles is known.
いくつかの実施形態では、DNAプロファイルの参照セットは、関心のある人からのサンプルに由来するDNAプロファイルを含む。例えば、いくつかの実施形態では、DNAプロファイルの参照セットは、例えば、関心のある人が行方不明者である場合は関心のある人の失踪前の、または関心のある人が災害もしくは紛争の犠牲者になる前の、関心のある人からのサンプルに由来するDNAプロファイルを含む。いくつかの実施形態では、例えば、関心のある人が行方不明者である場合は関心のある人の失踪前の、または関心のある人が災害もしくは紛争の犠牲者になる前の、関心のある人からのサンプルに由来するDNAプロファイルは、関心のある人の陽性対照として使用される。なぜならば、そのサンプルは生前または関心のある人の失踪もしくは犠牲になる前に得られたものであり、関心のある人に由来するサンプルであることが確実にされたサンプルであるためである。このように、いくつかの実施形態では、DNAプロファイルの参照セットは、例えば、関心のある人が行方不明者である場合は関心のある人の失踪前の、または関心のある人が災害もしくは紛争の犠牲者になる前の、関心のある人からのサンプルに由来するDNAプロファイルを含み、増幅および/または配列決定される前に、関心のある人に由来するサンプルであることが知られている。 In some embodiments, the reference set of DNA profiles includes DNA profiles derived from a sample from a person of interest. For example, in some embodiments, the reference set of DNA profiles includes DNA profiles derived from a sample from a person of interest, e.g., before the disappearance of the person of interest if the person of interest is a missing person, or before the person of interest becomes a victim of a disaster or conflict. In some embodiments, a DNA profile derived from a sample from a person of interest, e.g., before the disappearance of the person of interest if the person of interest is a missing person, or before the person of interest becomes a victim of a disaster or conflict, is used as a positive control for the person of interest, because the sample was obtained before death or before the person of interest disappeared or became a victim, and is a sample that is confirmed to be derived from the person of interest. Thus, in some embodiments, the reference set of DNA profiles includes DNA profiles derived from a sample from a person of interest, e.g., before the disappearance of the person of interest if the person of interest is a missing person, or before the person of interest becomes a victim of a disaster or conflict, known to be derived from the person of interest before being amplified and/or sequenced.
いくつかの実施形態では、DNAプロファイルの参照セットは、データベース、例えば遺伝子データベース内にある。いくつかの実施形態では、データベースは公的にアクセス可能ではない、すなわち、公衆によってアクセス可能ではない。いくつかの実施形態では、データベースは、法執行機関または第三者の系譜サービスによってアクセス可能な公共データベースなどの公共データベースではない。いくつかの実施形態では、データベースは、サブスクリプションサービスを介して公的にアクセス可能ではない。いくつかの実施形態では、データベースは、第三者の系譜サービスによってアクセス可能ではない。 In some embodiments, the reference set of DNA profiles is in a database, e.g., a genetic database. In some embodiments, the database is not publicly accessible, i.e., not accessible by the public. In some embodiments, the database is not a public database, such as a public database accessible by law enforcement or a third-party genealogy service. In some embodiments, the database is not publicly accessible via a subscription service. In some embodiments, the database is not accessible by a third-party genealogy service.
いくつかの実施形態では、DNAプロファイルと1つまたはそれを超える参照DNAプロファイルとの関連度を計算することは、公的にアクセス可能なデータベース、例えば、公的にアクセス可能な遺伝子データベースにアクセスすることを含まない。いくつかの実施形態では、DNAプロファイルと1つまたはそれを超える参照DNAプロファイルとの関連度を計算することは、DNAプロファイルの参照セットを含むデータベースにアクセスするためのインターネットアクセスを必要としない。いくつかの実施形態では、DNAプロファイルと1つまたはそれを超える参照DNAプロファイルとの関連度を計算することは、DNAプロファイルの参照セットを含むローカルデータベースの使用を含む。本明細書で使用される場合、「ローカルデータベース」とは、ローカルにのみ格納されアクセス可能なデータベースであって、データベースに照会しようとする公衆、例えば第三者によってアクセスできないデータベースを指す。 In some embodiments, calculating the degree of relatedness between a DNA profile and one or more reference DNA profiles does not involve accessing a publicly accessible database, e.g., a publicly accessible genetic database. In some embodiments, calculating the degree of relatedness between a DNA profile and one or more reference DNA profiles does not require internet access to access a database containing the reference set of DNA profiles. In some embodiments, calculating the degree of relatedness between a DNA profile and one or more reference DNA profiles involves use of a local database containing the reference set of DNA profiles. As used herein, "local database" refers to a database that is stored and accessible only locally and is not accessible by the public, e.g., third parties, attempting to query the database.
いくつかの実施形態では、DNAプロファイルの参照セットは、2つまたはそれを超える無関係な家族、例えば、それぞれが行方不明者および/または災害もしくは紛争の犠牲者の1またはそれを超える血縁者を含む2つまたはそれを超える無関係な家族(すなわち、互いに関連していない家族)からのDNAプロファイルを含む。例えば、災害または紛争で、互いに無関係な複数の家族から複数の犠牲者が出る場合には、各家族からの1またはそれを超える家族構成員が、DNAプロファイルの参照セット内の参照DNAプロファイルに寄与し得る。次いで、このローカルのDNAプロファイルの参照セットをローカルで使用して、複数の無関係な家族の中から災害または紛争の犠牲者を身元確認し得る。 In some embodiments, the reference set of DNA profiles includes DNA profiles from two or more unrelated families (i.e., family members that are not related to each other), e.g., each family member includes one or more relatives of a missing person and/or disaster or conflict victim. For example, if a disaster or conflict results in multiple casualties from multiple unrelated families, one or more family members from each family member may contribute a reference DNA profile in the reference set of DNA profiles. This local reference set of DNA profiles may then be used locally to identify a disaster or conflict victim from among multiple unrelated families.
いくつかの実施形態では、DNAプロファイルの参照セットまたはデータベース、例えば遺伝子データベースまたはローカルデータベースは、目的の民族性を有する個体からの1つまたはそれを超えるDNAプロファイルを含む。いくつかの実施形態では、DNAプロファイルの参照セット内の参照DNAプロファイルの少なくとも5%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、または95%が、目的の民族性からのものである。いくつかの実施形態では、DNAプロファイルの参照セット内の参照DNAプロファイルの少なくとも25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、または95%が、目的の民族性からのものである。いくつかの実施形態では、DNAプロファイルの参照セット内の参照DNAプロファイルの少なくとも50%、55%、60%、65%、70%、75%、80%、85%、90%、または95%が、目的の民族性からのものである。いくつかの実施形態では、DNAプロファイルの参照セット内の参照DNAプロファイルの少なくとも75%、80%、85%、90%、または95%が、目的の民族性からのものである。いくつかの実施形態では、DNAプロファイルの参照セット内の参照DNAプロファイルの少なくとも95%、95%、97%、98%、または99%が、目的の民族性からのものである。いくつかの実施形態では、DNAプロファイルの参照セット内の参照DNAプロファイルの100%が、目的の民族性からのものである。 In some embodiments, a reference set or database of DNA profiles, e.g., a genetic database or a local database, includes one or more DNA profiles from individuals of a desired ethnicity. In some embodiments, at least 5%, 10%, 15%, 20%, 25%, 30%, 35%, 40%, 45%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, or 95% of the reference DNA profiles in the reference set of DNA profiles are from the desired ethnicity. In some embodiments, at least 25%, 30%, 35%, 40%, 45%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, or 95% of the reference DNA profiles in the reference set of DNA profiles are from the desired ethnicity. In some embodiments, at least 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, or 95% of the reference DNA profiles in the reference set of DNA profiles are from the ethnicity of interest. In some embodiments, at least 75%, 80%, 85%, 90%, or 95% of the reference DNA profiles in the reference set of DNA profiles are from the ethnicity of interest. In some embodiments, at least 95%, 95%, 97%, 98%, or 99% of the reference DNA profiles in the reference set of DNA profiles are from the ethnicity of interest. In some embodiments, 100% of the reference DNA profiles in the reference set of DNA profiles are from the ethnicity of interest.
いくつかの実施形態では、関心のある人は、目的の民族性を有する。 In some embodiments, the person of interest is of a desired ethnicity.
いくつかの実施形態では、目的の民族性は、任意の民族性、例えば、任意の場所からの任意の民族性であり得る。 In some embodiments, the ethnicity of interest can be any ethnicity, for example, any ethnicity from any location.
いくつかの実施形態では、目的の民族性は、希少な民族性である。いくつかの実施形態では、希少な民族性は、対象国または世界中の人口の0.01%、0.05%、0.1%、0.2%、0.3%、0.4%、0.5%、0.6%、0.7%、0.8%、0.9%、1%、2%、3%、4%、または5%、または0.01%、0.05%、0.1%、0.2%、0.3%、0.4%、0.5%、0.6%、0.7%、0.8%、0.9%、1%、2%、3%、4%、または5%未満で表される。いくつかの実施形態では、目的の民族性は、対象国における任意の民族性である。いくつかの実施形態では、目的の民族性は、対象国における支配的な民族性である。いくつかの実施形態では、目的の民族性は、対象国における少数の民族性である。いくつかの実施形態では、関心のある人は、対象国からのものである。 In some embodiments, the ethnicity of interest is a rare ethnicity. In some embodiments, a rare ethnicity is represented by less than 0.01%, 0.05%, 0.1%, 0.2%, 0.3%, 0.4%, 0.5%, 0.6%, 0.7%, 0.8%, 0.9%, 1%, 2%, 3%, 4%, or 5% of the population of the target country or worldwide, or less than 0.01%, 0.05%, 0.1%, 0.2%, 0.3%, 0.4%, 0.5%, 0.6%, 0.7%, 0.8%, 0.9%, 1%, 2%, 3%, 4%, or 5% of the population of the target country or worldwide. In some embodiments, the ethnicity of interest is any ethnicity in the target country. In some embodiments, the ethnicity of interest is a dominant ethnicity in the target country. In some embodiments, the ethnicity of interest is a minority ethnicity in the target country. In some embodiments, the person of interest is from the target country.
対象国は、任意の対象国とすることができる。いくつかの実施形態では、対象国は、アフガニスタン、アルバニア、アルジェリア、アンドラ、アンゴラ、アンティグア・バーブーダ、アルゼンチン、アルメニア、オーストラリア、オーストリア、アゼルバイジャン、バハマ、バーレーン、バングラデシュ、バルバドス、ベラルーシ、ベルギー、ベリーズ、ベナン、ブータン、ボリビア、ボスニア・ヘルツェゴビナ、ボツワナ、ブラジル、ブルネイ、ブルガリア、ブルキナファソ、ブルンジ、コートジボワール、カーボベルデ、カンボジア、カメルーン、カナダ、中央アフリカ共和国、チャド、チリ、中国、コロンビア、コモロ、コンゴ(コンゴ共和国)、コスタリカ、クロアチア、キューバ、キプロス、チェチア(チェコ共和国)、コンゴ民主共和国、デンマーク、ジブチ、ドミニカ国、ドミニカ共和国、エクアドル、エジプト、エルサルバドル、赤道ギニア、エリトリア、エストニア、エスワティニ(旧称「スワジランド」)、エチオピア、フィジー、フィンランド、フランス、ガボン、ガンビア、ジョージア、ドイツ、ガーナ、ギリシャ、グレナダ、グアテマラ、ギニア、ギニアビサウ、ガイアナ、ハイチ、ローマ教皇庁、ホンジュラス、ハンガリー、アイスランド、インド、インドネシア、イラン、イラク、アイルランド、イスラエル、イタリア、ジャマイカ、日本、ヨルダン、カザフスタン、ケニア、キリバス、クウェート、キルギスタン、ラオス、ラトビア、レバノン、レソト、リベリア、リビア、リヒテンシュタイン、リトアニア、ルクセンブルク、マダガスカル、マラウイ、マレーシア、モルディブ、マリ、マルタ、マーシャル諸島、モーリタニア、モーリシャス、メキシコ、ミクロネシア、モルドバ、モナコ、モンゴル、モンテネグロ、モロッコ、モザンビーク、ミャンマー(旧ビルマ)、ナミビア、ナウル、ネパール、オランダ、ニュージーランド、ニカラグア、ニジェール、ナイジェリア、北朝鮮、北マケドニア、ノルウェー、オマーン、パキスタン、パラオ、パレスチナ、パナマ、パプアニューギニア、パラグアイ、ペルー、フィリピン、ポーランド、ポルトガル、カタール、ルーマニア、ロシア、ルワンダ、セントクリストファー・ネービス、セントルシア、セントビンセントおよびグレナディーン諸島、サモア、サンマリノ、サントメ・プリンシペ、サウジアラビア、セネガル、セルビア、セーシェル、シエラレオネ、シンガポール、スロバキア、スロベニア、ソロモン諸島、ソマリア、南アフリカ、韓国、南スーダン、スペイン、スリランカ、スーダン、スリナム、スウェーデン、スイス、シリア、タジキスタン、タンザニア、タイ、東ティモール、トーゴ、トンガ、トリニダード・トバゴ、チュニジア、トルコ、トルクメニスタン、ツバル、ウガンダ、ウクライナ、アラブ首長国連邦、イギリス、アメリカ合衆国、ウルグアイ、ウズベキスタン、バヌアツ、ベネズエラ、ベトナム、イエメン、ザンビア、およびジンバブエからなる群から選択される。いくつかの実施形態では、対象国は米国である。 The target country may be any target country. In some embodiments, the target country is Afghanistan, Albania, Algeria, Andorra, Angola, Antigua and Barbuda, Argentina, Armenia, Australia, Austria, Azerbaijan, Bahamas, Bahrain, Bangladesh, Barbados, Belarus, Belgium, Belize, Benin, Bhutan, Bolivia, Bosnia and Herzegovina, Botswana, Brazil, Brunei, Bulgaria, Burkina Faso, Burundi, Côte d'Ivoire, Cape Verde, Cambodia, Cameroon, Canada, Central African Republic, Chad, Chile, China, Colombia, Comoros, Congo (Republic of the Congo), Costa Rica, Croatia, Cuba, Cyprus, or Czech Republic. , Democratic Republic of the Congo, Denmark, Djibouti, Dominica, Dominican Republic, Ecuador, Egypt, El Salvador, Equatorial Guinea, Eritrea, Estonia, Eswatini (formerly known as Swaziland), Ethiopia, Fiji, Finland, France, Gabon, Gambia, Georgia, Germany, Ghana, Greece, Grenada, Guatemala, Guinea, Guinea-Bissau, Guyana, Haiti, Holy See, Honduras, Hungary, Iceland, India, Indonesia, Iran, Iraq, Ireland, Israel, Italy, Jamaica, Japan, Jordan, Kazakhstan, Kenya, Kiribati, Kuwait, Kyrgyzstan, Laos, Latvia, Lebanon, Lesotho, Liberia, Libya, Belarus, Lithuania, Luxembourg, Madagascar, Malawi, Malaysia, Maldives, Mali, Malta, Marshall Islands, Mauritania, Mauritius, Mexico, Micronesia, Moldova, Monaco, Mongolia, Montenegro, Morocco, Mozambique, Myanmar (formerly Burma), Namibia, Nauru, Nepal, Netherlands, New Zealand, Nicaragua, Niger, Nigeria, North Korea, North Macedonia, Norway, Oman, Pakistan, Palau, Palestine, Panama, Papua New Guinea, Paraguay, Peru, Philippines, Poland, Portugal, Qatar, Romania, Russia, Rwanda, Saint Kitts and Nevis, Saint Lucia, Saint Vince The target country is selected from the group consisting of: the United States, the Republic of the Congo, the Republic of the Grenadines, Samoa, San Marino, Sao Tome and Principe, Saudi Arabia, Senegal, Serbia, Seychelles, Sierra Leone, Singapore, Slovakia, Slovenia, Solomon Islands, Somalia, South Africa, South Korea, South Sudan, Spain, Sri Lanka, Sudan, Suriname, Sweden, Switzerland, Syria, Tajikistan, Tanzania, Thailand, Timor-Leste, Togo, Tonga, Trinidad and Tobago, Tunisia, Turkey, Turkmenistan, Tuvalu, Uganda, Ukraine, the United Arab Emirates, the United Kingdom, the United States, Uruguay, Uzbekistan, Vanuatu, Venezuela, Vietnam, Yemen, Zambia, and Zimbabwe. In some embodiments, the target country is the United States.
いくつかの実施形態では、本明細書に記載されるDNAベースの血縁関係解析は、ローカルデータベースの使用を含む。いくつかの実施形態では、本明細書に記載されるDNAベースの血縁関係解析により、最小限のユーザー入力でレポートを生成することが可能になる。いくつかの実施形態では、本明細書に記載されるDNAベースの血縁関係解析は、血縁係数を計算するためのアルゴリズムの使用を含む。いくつかの実施形態では、血縁係数は、サンプルまたはDNAプロファイルとデータベース上の参照DNAプロファイルとの関連ステータスを決定する。例えば、いくつかの実施形態では、血縁係数は、1人またはそれを超える身元確認された遺伝的血縁者の各々が、血縁係数の相対値に基づいて、高祖母、高祖父、曾祖父、曾祖母、祖母、祖父、いとこ、いとこの子供、またははとこである可能性が高いかどうかを示す。いくつかの実施形態では、参照DNAプロファイルは、系図データベースの一部である。 In some embodiments, the DNA-based kinship analysis described herein includes the use of a local database. In some embodiments, the DNA-based kinship analysis described herein allows for report generation with minimal user input. In some embodiments, the DNA-based kinship analysis described herein includes the use of an algorithm to calculate a coefficient of kinship. In some embodiments, the coefficient of kinship determines the relatedness status of a sample or DNA profile with a reference DNA profile on a database. For example, in some embodiments, the coefficient of kinship indicates whether each of one or more identified genetic relatives is likely to be a great-great-grandmother, great-great-grandfather, great-grandfather, great-grandmother, grandmother, grandfather, cousin, child of a cousin, or second cousin based on the relative value of the coefficient of kinship. In some embodiments, the reference DNA profile is part of a genealogy database.
いくつかの実施形態では、本明細書に記載されるDNAベースの血縁関係解析は、1親等、2親等、3親等、4親等または5親等または約1親等、2親等、3親等、4親等または5親等の遺伝的血縁者を確認することを含む。いくつかの実施形態では、本明細書に記載されるDNAベースの血縁関係解析は、1親等、2親等、3親等、4親等または5親等を超える遺伝的血縁者を確認することを含む。いくつかの実施形態では、本明細書中に記載されるDNAベースの血縁関係解析は、関心のある人とDNAプロファイルの参照セット内1つまたはそれを超える参照DNAプロファイルのうちの1つまたはそれを超えるものとの間の関連度を確認することを含む。例えば、いくつかの実施形態では、本方法は、関心のある人が、1つまたはそれを超える参照DNAプロファイルうちの1つまたはそれを超えるものの1親等の血縁者、2親等の血縁者、3親等の血縁者、4親等の血縁者、または5親等の血縁者であることを独立して確認することを含む。ある人の1親等の血縁者は、その人の親(例えば、父または母)、完全な兄弟姉妹(例えば、姉妹または兄弟)、または子供(例えば、息子または娘)である。ある人の2親等の血縁者は、その人の祖父母、叔母/伯母、叔父/伯父、姪、甥、孫、または半兄弟姉妹など、その人の遺伝子のおよそ25%を共有する人である。ある人の3親等の血縁者は、その人の遺伝子のおよそ12.5%を共有する人、例えば、曾祖父母、いとこ、および曾孫である。4親等の血縁者は、例えば、いとこの子供、半祖叔父/半祖伯父(half great uncle)、半祖叔母/半祖伯母(half great aunt)、半姪孫、半甥孫、および半いとこを含む。5親等の血縁者は、例えば、はとこ、半いとこの子供、およびいとこの孫を含む。 In some embodiments, the DNA-based kinship analysis described herein involves identifying genetic relatives to the first, second, third, fourth, or fifth degree of kinship, or about the first, second, third, fourth, or fifth degree of kinship. In some embodiments, the DNA-based kinship analysis described herein involves identifying genetic relatives to the first, second, third, fourth, or greater than fifth degree of kinship. In some embodiments, the DNA-based kinship analysis described herein involves identifying a degree of relatedness between the person of interest and one or more of the one or more reference DNA profiles in a reference set of DNA profiles. For example, in some embodiments, the method involves independently identifying the person of interest as a first-degree relative, a second-degree relative, a third-degree relative, a fourth-degree relative, or a fifth-degree relative of one or more of the one or more reference DNA profiles. A person's first-degree relatives are their parents (e.g., father or mother), full siblings (e.g., sisters or brothers), or children (e.g., sons or daughters). A person's second-degree relatives are those who share approximately 25% of their genes, such as their grandparents, aunts, uncles, nieces, nephews, grandchildren, or half-siblings. A person's third-degree relatives are those who share approximately 12.5% of their genes, such as great-grandparents, cousins, and great-grandchildren. Fourth-degree relatives include, for example, the children of cousins, half-great-uncles, half-great-aunts, half-nieces, half-nephews, and half-cousins. Fifth-degree relatives include, for example, second cousins, children of half-cousins, and grandchildren of first cousins.
いくつかの実施形態では、本明細書に記載されるDNAベースの血縁関係解析は、1つまたはそれを超えるDNAプロファイルに関連するDNAプロファイルを含む家系図を作製することを含む。家系図は、任意の利用可能な手段または方法論を使用して生成することができる。 In some embodiments, the DNA-based kinship analysis described herein involves generating a family tree that includes DNA profiles related to one or more DNA profiles. The family tree can be generated using any available means or methodology.
いくつかの実施形態では、本明細書に記載されるDNAベースの血縁関係解析は、共通の祖先を介して被疑者を確認することを含む。 In some embodiments, the DNA-based kinship analysis described herein involves verifying suspects through common ancestry.
いくつかの実施形態では、関連度を計算することは、DNAプロファイル、すなわち関心のある人からのDNAプロファイルと、DNAプロファイルの参照セット、例えば関心のある人の血縁者からの1つまたはそれを超える参照DNAプロファイルを含むDNAプロファイルの参照セット内に含まれる1つまたはそれを超える参照DNAプロファイルとの間の関連度を計算することを含む。 In some embodiments, calculating the degree of relatedness comprises calculating the degree of relatedness between the DNA profile, i.e., the DNA profile from the person of interest, and one or more reference DNA profiles included within a reference set of DNA profiles, e.g., a reference set of DNA profiles including one or more reference DNA profiles from blood relatives of the person of interest.
いくつかの実施形態では、関連度を計算することは、1つまたはそれを超えるY-SNPであるか、または1つまたはそれを超えるY-SNPを含むSNPのセットを比較することによって、DNAプロファイル、すなわち関心のある人からのDNAプロファイルと、DNAプロファイルの参照セット、例えば関心のある人の血縁者からの1つまたはそれを超える参照DNAプロファイルを含むDNAプロファイルの参照セット内に含まれる1つまたはそれを超える参照DNAプロファイルとの間の関連度を計算することを含む。いくつかの実施形態では、1つまたはそれを超えるY-SNPは、5、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、81、82、83、84もしくは85個のY-SNP、または少なくとも5、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、81、82、83、84もしくは85個のY-SNPを含む。いくつかの実施形態では、1つまたはそれを超えるY-SNPは、85個のY-SNPであるか、または85個のY-SNPを含む。生物学的男性からのDNAプロファイルと生物学的男性からの1つまたはそれを超える参照DNAプロファイルとの間で、Y-SNPを含むSNPのセットを比較することによって、男性系統についての尤度比を決定することができる。 In some embodiments, calculating the degree of relatedness comprises calculating the degree of relatedness between a DNA profile, i.e., a DNA profile from the person of interest, and one or more reference DNA profiles contained within a reference set of DNA profiles, for example a reference set of DNA profiles comprising one or more reference DNA profiles from blood relatives of the person of interest, by comparing a set of SNPs that are or include one or more Y-SNPs. In some embodiments, the one or more Y-SNPs include 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 81, 82, 83, 84, or 85 Y-SNPs, or at least 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 81, 82, 83, 84, or 85 Y-SNPs. In some embodiments, the one or more Y-SNPs are or include 85 Y-SNPs. By comparing the set of SNPs including the Y-SNPs between the DNA profile from the biological male and one or more reference DNA profiles from the biological male, a likelihood ratio for the male lineage can be determined.
尤度比(LR)および血縁関係値は、当技術分野で公知の任意のアプローチまたはアルゴリズム(複数可)を使用して計算することができる。一部の実施形態では、尤度比は、アルゴリズムpedprobr(Brustad et al.,Int.J.Legal Med.,2021,135:117-129(その内容は参照によりその全体が本明細書に組み込まれる))およびdvir(Vigeland et al.,Scientific Reports,2021,11:13661(その内容は参照によりその全体が本明細書に組み込まれる))を使用して計算する。一部の実施形態では、ゲノム集約データベース(gnoMAD)(Karczewski et al.,Nature,2020,581:434-443(その内容は参照によりその全体が本明細書に組み込まれる))v3.0からの集団頻度の平均をLR計算に使用する。いくつかの実施形態では、変異モデルは使用されず、シータは、解析のために選択されたSNPが低い連鎖不平衡を有するときに0に設定される(上記のKarczewskiら(その内容全体が参照により本明細書に組み込まれる))。一部の実施形態では、LRは、以下のように計算され:
いくつかの実施形態では、LRは、Galvan-Femenia et al.,Heredity,2021,126:537-547(その内容全体が参照により本明細書に組み込まれる)に記載されているように計算される。 In some embodiments, LR is calculated as described in Galvan-Femenia et al., Heredity, 2021, 126:537-547, the entire contents of which are incorporated herein by reference.
いくつかの実施形態では、関連度を計算することは、DNAプロファイル、すなわち関心のある人からのDNAプロファイルと、DNAプロファイルの参照セット、例えば関心のある人の血縁者からの1つまたはそれを超える参照DNAプロファイルを含むDNAプロファイルの参照セット内に含まれる1つまたはそれを超える参照DNAプロファイルとの間でY染色体を共有する尤度比を計算することを含む。いくつかの実施形態では、Y染色体を共有する尤度比を計算することは、1つまたはそれを超えるY-SNPであるかまたは1つまたはそれを超えるY-SNPを含むSNPのセットを比較することを含む。いくつかの実施形態では、1つまたはそれを超えるY-SNPは、5、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、81、82、83、84もしくは85個のY-SNP、または少なくとも5、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、81、82、83、84もしくは85個のY-SNPを含む。いくつかの実施形態では、1つまたはそれを超えるY-SNPは、85個のY-SNPであるか、または85個のY-SNPを含む。 In some embodiments, calculating the degree of relatedness comprises calculating a likelihood ratio of sharing a Y chromosome between a DNA profile, i.e., a DNA profile from the person of interest, and one or more reference DNA profiles contained within a reference set of DNA profiles, e.g., a reference set of DNA profiles that includes one or more reference DNA profiles from relatives of the person of interest. In some embodiments, calculating the likelihood ratio of sharing a Y chromosome comprises comparing a set of SNPs that are or include one or more Y-SNPs. In some embodiments, the one or more Y-SNPs include 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 81, 82, 83, 84, or 85 Y-SNPs, or at least 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 81, 82, 83, 84, or 85 Y-SNPs. In some embodiments, the one or more Y-SNPs are or include 85 Y-SNPs.
いくつかの実施形態では、Y染色体を共有する尤度比を計算することは、複数のSNPの中からの1つまたはそれを超えるY-SNPに基づいて血縁係数を計算することを含む。いくつかの実施形態では、Y染色体を共有する尤度を計算することは、DNAプロファイルと、入力としての、例えばPC-Relateへの入力としての、DNAプロファイルの参照セット内に含まれる1つまたはそれを超える参照DNAプロファイルとを提供することによって対数尤度を計算することを含む。いくつかの実施形態では、Y染色体を共有する尤度を計算することは、DNAプロファイル、例えば、関心のある人のDNAプロファイルと、1つまたはそれを超える参照DNAプロファイルのうちの1つまたはそれを超えるものとの間で共有される適合するY染色体を同定することを可能にすることができ、次いで、これを使用して、関心のある人の男性系統についての尤度比を決定することができる。 In some embodiments, calculating the likelihood ratio of sharing a Y chromosome includes calculating a coefficient of relatedness based on one or more Y-SNPs from among the plurality of SNPs. In some embodiments, calculating the likelihood of sharing a Y chromosome includes calculating a log-likelihood by providing a DNA profile and one or more reference DNA profiles included in a reference set of DNA profiles as inputs, e.g., as inputs to PC-Relate. In some embodiments, calculating the likelihood of sharing a Y chromosome can allow for the identification of matching Y chromosomes shared between DNA profiles, e.g., the DNA profile of the person of interest, and one or more of the one or more reference DNA profiles, which can then be used to determine a likelihood ratio for the male lineage of the person of interest.
いくつかの実施形態では、これは、2つのサンプル間、例えばDNAプロファイルと1つまたはそれを超える参照DNAプロファイルのうちの1つとの間の関係の測定値を計算する血縁係数の使用を含む。いくつかの実施形態では、本明細書で提供される方法は、例えば、PC-AiRまたは修正PC-AiR法を使用して、例えば、公共系譜データベースから構築された血縁関係モデルを使用して血縁係数を計算することと、公的にアクセス可能なサンプルの拡張セットを使用して公共データベース上ではなく、例えばPC-Relateを使用して標的サンプルのローカルセット上の血縁関係を決定することとを含む。これはまた、いくつかの実施形態では、各比較について尤度比(LR)を計算することを含む。尤度比(LR)は、例えば、法医学の分野における関連性の標準的な尺度である。 In some embodiments, this involves the use of a coefficient of kinship to calculate a measure of relatedness between two samples, e.g., between a DNA profile and one of one or more reference DNA profiles. In some embodiments, the methods provided herein involve calculating a coefficient of kinship using a kinship model constructed from, e.g., a public genealogy database, e.g., using PC-AiR or modified PC-AiR methods, and determining kinship on a local set of target samples, e.g., using PC-Relate, rather than on the public database, using an expanded set of publicly accessible samples. This also involves, in some embodiments, calculating a likelihood ratio (LR) for each comparison. The likelihood ratio (LR) is a standard measure of relatedness, e.g., in the field of forensic science.
いくつかの実施形態では、Snedecor et al.,Forensic Sci.Int.Genet.,2022,61:102769(その内容は参照によりその全体が本明細書に組み込まれる)に以載されているものなど、PC-Relate(Conomos et al.,American Journal of Human Genetics,2016,98:127-148(その内容は参照によりその全体が本明細書に組み込まれる))およびPC-AiR(Conomos et al.,Genetic Epidemiology,2015,39:276-293(その内容は参照によりその全体が本明細書に組み込まれる))を使用して、全ゲノム血縁係数、共有cMおよび最長セグメントcMを計算する。この方法は、2つの個体間の関係が未知であり、それによって系図を必要としない場合に有用であり、行方不明者または紛争の犠牲者などの状況に適用可能である。 In some embodiments, PC-Relate (Conomos et al., American Journal of Human Genetics, 2016, 98:127-148, the contents of which are incorporated herein by reference in their entirety) and PC-AiR (Conomos et al., Genetic Epidemiology, 2015, 39:276-293, the contents of which are incorporated herein by reference in their entirety), such as those described in Snedecor et al., Forensic Sci. Int. Genet., 2022, 61:102769, the contents of which are incorporated herein by reference in their entirety, are used to calculate the genome-wide relatedness coefficient, shared cM, and longest segment cM. This method is useful when the relationship between two individuals is unknown, thereby eliminating the need for genealogy, and is applicable to situations such as missing persons or victims of conflict.
いくつかの実施形態では、PC-AiR法は、最初に遺伝子型決定された個体のセットを取り、それらを2つの重複しないサブセットに分離する:一方のセットは、全ての個体の祖先を表す無関係な個体を含有し(無関係なサブセット)、他方のセットは、第1のサブセット内に少なくとも1つの血縁者を有する個体を含有する(関連するサブセット)。無関係なサブセットを構築するために、モデルを構築する際の計算効率を改良するために元のPC-AiR法に修正を加えた。無関係なサブセットには、血縁者を有さないサンプルまたは最も少ない血縁者を有するサンプルが追加されるが、より多くの血縁者を有するサンプルは無関係なサブセットから除外される。これは、Conomos et al.,Genetic Epidemiology,2015,39:276-293(その内容は参照によりその全体が本明細書に組み込まれる)のように、ペアごとに血縁関係値を計算し、厳格な閾値に基づいて、各個体を血縁者がいるかどうかに分類することによって行われる:血縁関係値が0.01より大きい場合は血縁者と考えられ、血縁関係値が-0.025未満の場合は関連しないと考えられる。5%未満の欠落SNPデータを有するサンプルは除外する。次に、無関係なサブセットに対して主成分解析(PCA)を実施し、次いで、無関係なサブセット内の個体との遺伝的類似性に基づいて、関連するサブセット内の全ての個体について変動の成分に沿って値を予測する。得られたコンポーネントは、未知の個体のセットにおける適合を確認するために静的な集団頻度の代わりに使用することができるモデルを表す。 In some embodiments, the PC-AiR method first takes a set of genotyped individuals and separates them into two non-overlapping subsets: one set contains unrelated individuals representing the ancestry of all individuals (the unrelated subset), and the other set contains individuals who have at least one relative in the first subset (the related subset). To construct the unrelated subset, modifications were made to the original PC-AiR method to improve computational efficiency in building the model. Samples with no relatives or the fewest relatives are added to the unrelated subset, while samples with more relatives are excluded from the unrelated subset. This is similar to the method described by Conomos et al. This is done by calculating a kinship value for each pair and classifying each individual as related or unrelated based on a strict threshold, as in [Paragraph 1], Genetic Epidemiology, 2015, 39:276-293 (the contents of which are incorporated herein by reference in their entirety): kinship values greater than 0.01 are considered related, and kinship values less than -0.025 are considered unrelated. Samples with less than 5% missing SNP data are excluded. Principal component analysis (PCA) is then performed on the unrelated subset, which then predicts values along components of variation for all individuals in the related subset based on their genetic similarity to individuals in the unrelated subset. The resulting components represent a model that can be used in place of static population frequencies to confirm fit in an unknown set of individuals.
いくつかの実施形態では、PC-Relate法は、PC-AiRからの主成分を使用し、遺伝的相関を2つの成分に分離する:1つは最近の共通祖先からの家系による同一の対立遺伝子の共有のためのものであり、もう1つはより遠い共通祖先による対立遺伝子共有のためのものである。PC-AiRからの成分を使用して、gnoMADからのものなどの静的集団頻度の代わりに線形回帰を使用して、個体の祖先のバックグラウンドに基づく対立遺伝子頻度を推定する。次いで、2つの個体Iおよびjについて、血縁係数
したがって、いくつかの実施形態では、関連度を計算することは、以下のように全ゲノム血縁関係アルゴリズムを使用して血縁係数を計算することを含み:
いくつかの実施形態では、関連度を計算することは、「ウィンドウ付き血縁関係(windowed kinship)」アプローチを使用して血縁係数を計算することを含む。Snedecor et al.,Forensic Sci Int Genet 2022,61,102769,doi:10.1016/j.fsigen.2022.102769を参照のこと。その内容は参照によりその全体が本明細書に組み込まれる。ウィンドウ付き血縁関係は、共有された血縁関係セグメントを見出すためにゲノム全体にわたる血縁関係のウィンドウを計算することを伴う。これは、各染色体内の全ての可能なウィンドウを列挙し、全てのウィンドウの血縁係数を計算することによって実行される。次いで、これらのウィンドウは、最小血縁係数閾値によってフィルタリングされ、共有cMs計算に含まれる。次いで、フィルタリングされたセグメントを反復し、少なくとも1つの対立遺伝子および2つの対立遺伝子を共有するSNPのストレッチを別々に分類する。次いで、全共有cMが全セグメントにわたって計算される。総共有cMおよびcMの最長セグメントは、ウィンドウ付き血縁関係アルゴリズムを参照するときに関係を確認するために使用される。2つの個体間で共有されるSNPの数が6000~8000の間である場合、関係性を考えるためには、共有されるcM値は180を超えなければならず、cMの最長セグメントは30を超えなければならない。2つの個体間で共有されるSNPの数が8000~9000の間である場合、関係性を考えるためには、共有されるcM値は150を超えなければならず、cMの最長セグメントは30を超えなければならない。2つの個体間で共有されるSNPの数が9000またはそれを超える場合、関係性を考えるためには、共有されるcM値は140を超えなければならず、cMの最長セグメントは30を超えなければならない。全ゲノム血縁係数を使用して、共有される任意の数のSNPでフィルタリングすることができる。しかしながら、上記のSnedecorらは、共有cMおよび最長セグメントcMでフィルタリングするとき(例えば、ウィンドウ付き血縁関係を使用する)、SNP重複が6000より大きい場合、特により高い関連度について、より高い特異性を観察した。 In some embodiments, calculating relatedness involves calculating kinship coefficients using a "windowed kinship" approach. See Snedecor et al., Forensic Sci Int Genet 2022, 61, 102769, doi: 10.1016/j.fsigen.2022.102769, the contents of which are incorporated herein by reference in their entirety. Windowed kinship involves calculating a genome-wide window of kinship to find shared related segments. This is performed by enumerating all possible windows within each chromosome and calculating the kinship coefficients for all windows. These windows are then filtered by a minimum kinship threshold and included in the shared cMs calculation. The filtered segments are then iterated, and stretches of SNPs that share at least one allele and two alleles are separately classified. The total shared cMs are then calculated across all segments. The total shared cM and the longest segment of cM are used to confirm relationship when referring to the windowed kinship algorithm. If the number of SNPs shared between two individuals is between 6,000 and 8,000, the shared cM value must be greater than 180 and the longest segment of cM must be greater than 30 to consider related. If the number of SNPs shared between two individuals is between 8,000 and 9,000, the shared cM value must be greater than 150 and the longest segment of cM must be greater than 30 to consider related. If the number of SNPs shared between two individuals is 9,000 or more, the shared cM value must be greater than 140 and the longest segment of cM must be greater than 30 to consider related. The whole-genome relatedness coefficient can be used to filter by any number of shared SNPs. However, Snedecor et al., supra, observed higher specificity when filtering by shared cM and longest segment cM (e.g., using windowed kinship) when the SNP overlap was greater than 6000, especially for higher degrees of relatedness.
より単純には、2つの個体間で分類されたSNPの数(SNP重複)を使用して、全ゲノム血縁関係アルゴリズムをいつ使用するか(<6000個のSNP重複)およびウィンドウ付き血縁関係アルゴリズムをいつ使用するか(>6000個のSNP重複)を決めることができる。そして、そのSNP重複に基づいて1つのアルゴリズムが決められると、選択されたアルゴリズムに応じて、データをフィルタリングして関係を確認するために値または値のセットが使用される。上記のSnedecorらで実証されているように、全ゲノム血縁関係とウィンドウ付き血縁関係の両方のカットオフを選択して、高い感度を確保したが、より重要なことには、高い特異性を確保した。これらの閾値を下げることは、より多くの関係を捕捉し得る(すなわち、感度を上げる)が、特により遠い関係(例えば、4親等および5親等)に対して、より多くの偽陽性ヒットをもたらすことが予想される。 More simply, the number of SNPs classified between two individuals (SNP overlap) can be used to determine when to use a genome-wide relatedness algorithm (<6000 SNP overlap) and when to use a windowed relatedness algorithm (>6000 SNP overlap). Once an algorithm is determined based on the SNP overlap, a value or set of values is used to filter the data and identify relationships, depending on the algorithm selected. As demonstrated in Snedecor et al., supra, cutoffs for both genome-wide relatedness and windowed relatedness were selected to ensure high sensitivity, but more importantly, high specificity. Lowering these thresholds may capture more relationships (i.e., increasing sensitivity), but is expected to result in more false-positive hits, especially for more distant relationships (e.g., fourth- and fifth-degree relatives).
いくつかの実施形態では、関連度を計算することは、DNAプロファイル、例えば関心のある人からのDNAプロファイル、および1つまたはそれを超える参照DNAプロファイルのうちの1つについての血縁係数を計算することを含む。いくつかの実施形態では、関連度、例えば、血縁係数は、DNAプロファイルならびに1つまたはそれを超える参照DNAプロファイルの各々について計算される。いくつかの実施形態では、尤度比は、クエリー、例えば関心のある人のDNAプロファイル、および標的、例えば1つまたはそれを超える参照DNAプロファイルのうちの1つが関連する確率を、2つのサンプル中の観察された遺伝子型に基づいてクエリーおよび標的が無関係である確率で割ることによって計算される。次いで、最も可能性の高い関係(複数可)を確認し、DNAプロファイルの参照セット内に含まれる1つまたはそれを超える参照DNAプロファイルの中から偽適合を排除するために、血縁係数およびLRに基づいて結果をフィルタリングすることができる。 In some embodiments, calculating the degree of relatedness includes calculating a coefficient of relatedness for a DNA profile, e.g., a DNA profile from the person of interest, and one of the one or more reference DNA profiles. In some embodiments, a degree of relatedness, e.g., a coefficient of relatedness, is calculated for each of the DNA profile and one or more reference DNA profiles. In some embodiments, a likelihood ratio is calculated by dividing the probability that a query, e.g., a DNA profile from the person of interest, and a target, e.g., one of the one or more reference DNA profiles, are related by the probability that the query and target are unrelated based on the observed genotypes in the two samples. The results can then be filtered based on the coefficient of relatedness and LR to confirm the most likely relationship(s) and eliminate false matches among the one or more reference DNA profiles included in the reference set of DNA profiles.
いくつかの実施形態では、尤度比を計算することは、DNAプロファイルと1つまたはそれを超える参照DNAプロファイルとの間で複数のSNPを比較することを含む。いくつかの実施形態では、関連度を計算することは、複数のSNP内からの血縁関係SNPに基づいて血縁係数を計算することを含む。いくつかの実施形態では、関連度を計算することは、複数のSNP内からの血縁関係SNPに基づいて血縁係数を計算することと、複数のSNP内からのY-SNPに基づいて血縁係数を計算することとを含む。いくつかの実施形態では、関連度を計算することは、複数のSNP内からのY-SNPに基づいて血縁係数を計算することを含む。いくつかの実施形態では、尤度比を計算することは、DNAプロファイルと1つまたはそれを超える参照DNAプロファイルとの間で複数のSNPの中からの血縁関係SNPを含むSNPのセットを比較することを含む。 In some embodiments, calculating the likelihood ratio includes comparing a plurality of SNPs between the DNA profile and one or more reference DNA profiles. In some embodiments, calculating the degree of relatedness includes calculating a coefficient of relatedness based on related SNPs from within the plurality of SNPs. In some embodiments, calculating the degree of relatedness includes calculating a coefficient of relatedness based on related SNPs from within the plurality of SNPs and calculating a coefficient of relatedness based on Y-SNPs from within the plurality of SNPs. In some embodiments, calculating the degree of relatedness includes calculating a coefficient of relatedness based on Y-SNPs from within the plurality of SNPs. In some embodiments, calculating the likelihood ratio includes comparing a set of SNPs including related SNPs from among the plurality of SNPs between the DNA profile and one or more reference DNA profiles.
いくつかの実施形態では、関心のある人は生物学的に男性であり、本方法は、DNAプロファイルと1つまたはそれを超える参照DNAプロファイルとの間でY染色体を共有する尤度比を計算することをさらに含む。いくつかの実施形態では、Y染色体を共有する尤度比を計算することは、DNAプロファイルと1つまたはそれを超える参照DNAプロファイルとの間で、1つまたはそれを超えるY-SNPを含むSNPのセットを比較することを含む。いくつかの実施形態では、1つまたはそれを超えるY-SNPは、複数のSNP内に含まれる。いくつかの実施形態では、1つまたはそれを超えるY-SNPは、少なくとも25、50、75、または100個のY-SNPを含む。いくつかの実施形態では、1つまたはそれを超えるY-SNPは、少なくとも20、25、30、35、40、45、50、55、60、65、70、75、80、81、82、83、84、または85個のY-SNPを含む。いくつかの実施形態では、1つまたはそれを超えるY-SNPは、85個のY-SNPを含む。いくつかの実施形態では、Y染色体を共有する尤度比を計算することは、1つまたはそれを超えるY-SNPの遺伝子型に基づいて、DNAプロファイルおよび1つまたはそれを超える参照DNAプロファイルの中からの参照DNAプロファイルがY染色体を共有する確率を、DNAプロファイルおよび参照DNAプロファイルがY染色体を共有しない確率で割ることを含む。 In some embodiments, the person of interest is biologically male, and the method further comprises calculating a likelihood ratio of sharing a Y chromosome between the DNA profile and one or more reference DNA profiles. In some embodiments, calculating the likelihood ratio of sharing a Y chromosome comprises comparing a set of SNPs comprising one or more Y-SNPs between the DNA profile and the one or more reference DNA profiles. In some embodiments, the one or more Y-SNPs are included within a plurality of SNPs. In some embodiments, the one or more Y-SNPs include at least 25, 50, 75, or 100 Y-SNPs. In some embodiments, the one or more Y-SNPs include at least 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 81, 82, 83, 84, or 85 Y-SNPs. In some embodiments, the one or more Y-SNPs include 85 Y-SNPs. In some embodiments, calculating the likelihood ratio of sharing a Y chromosome comprises dividing the probability that the DNA profile and a reference DNA profile from among the one or more reference DNA profiles share a Y chromosome, based on the genotypes of one or more Y-SNPs, by the probability that the DNA profile and the reference DNA profile do not share a Y chromosome.
いくつかの実施形態では、関連度、例えば、血縁係数を計算することは、主成分解析(PCA)方法の使用を含む。いくつかの実施形態では、関連度は、血縁関係モデルを使用して計算される。いくつかの実施形態では、関連度は、PCA法を使用して訓練される血縁関係モデルを使用して計算される。いくつかの実施形態では、血縁関係モデルを訓練するためのPCA法はPCAである。いくつかの実施形態では、血縁関係モデルを訓練するためのPCA法はPCAを含む。いくつかの実施形態では、血縁関係モデルを訓練するためのPCA法は、サンプルの関連性、例えば、サンプル全体の家族構造から生じ得る既知または不可解な関連性を説明することができる方法である。いくつかの実施形態では、PCA法はPC-AiRであり、既知または不可解な関連性の存在下での祖先決定を可能にすることができる。例えば、Conomos et al.,Robust Inference of Population Structure for Ancestry Prediction and Correction of Stratification in the Presence of Relatedness,Genet Epidemiol.,2015,39(4):276-293(その内容全体が参照により本明細書に組み込まれる)を参照されたい。いくつかの実施形態では、PCA法は、本明細書に記載されるような修正PC-AiR法である。 In some embodiments, calculating the relatedness, e.g., the coefficient of kinship, comprises the use of a principal component analysis (PCA) method. In some embodiments, the relatedness is calculated using a kinship model. In some embodiments, the relatedness is calculated using a kinship model trained using a PCA method. In some embodiments, the PCA method for training the kinship model is PCA. In some embodiments, the PCA method for training the kinship model comprises PCA. In some embodiments, the PCA method for training the kinship model is a method that can account for relatedness of the sample, e.g., known or cryptic relatedness that may arise from the family structure of the entire sample. In some embodiments, the PCA method is PC-AiR, which can enable ancestry determination in the presence of known or cryptic relatedness. See, e.g., Conomos et al. See, "Robust Inference of Population Structure for Ancestry Prediction and Correction of Stratification in the Presence of Relatedness," Genet Epidemiol., 2015, 39(4):276-293, the entire contents of which are incorporated herein by reference. In some embodiments, the PCA method is a modified PC-AiR method as described herein.
いくつかの実施形態では、血縁関係モデルは、訓練データベースを使用して構築される。いくつかの実施形態では、訓練データベースは、遺伝子データベースである。いくつかの実施形態では、訓練データベースは、系譜データベースである。いくつかの実施形態では、訓練データベースは、公的にアクセス可能なデータベースである。いくつかの実施形態では、訓練データベースは、1~1000万の間またはそれを超える訓練DNAプロファイルを含む。いくつかの実施形態では、訓練データベースは、1、5、25、50、75、100、500、1,000、1,500、2,000、3,000、4,000、5,000、10,000、20,000、30,000、40,000、50,000、75,000、100,000、125,000、150,000、175,000、200,000、225,000、250,000、275,000、300,000、400,000、500,000、600,000、700,000、800,000、900,000、1,000,000、1,250,000、1,500,000、1,750,000、2,000,000、3,000,000、4,000,000、5,000,000もしくは10,000,000個、または約1、5、25、50、75、100、500、1,000、1,500、2,000、3,000、4,000、5,000、10,000、20,000、30,000、40,000、50,000、75,000、100,000、125,000、150,000、175,000、200,000、225,000、250,000、275,000、300,000、400,000、500,000、600,000、700,000、800,000、900,000、1,000,000、1,250,000、1,500,000、1,750,000、2,000,000、3,000,000、4,000,000、5,000,000もしくは10,000,000個、または少なくとも1、5、25、50、75、100、500、1,000、1,500、2,000、3,000、4,000、5,000、10,000、20,000、30,000、40,000、50,000、75,000、100,000、125,000、150,000、175,000、200,000、225,000、250,000、275,000、300,000、400,000、500,000、600,000、700,000、800,000、900,000、1,000,000、1,250,000、1,500,000、1,750,000、2,000,000、3,000,000、4,000,000、5,000,000もしくは10,000,000個、または少なくとも約1、5、25、50、75、100、500、1,000、1,500、2,000、3,000、4,000、5,000、10,000、20,000、30,000、40,000、50,000、75,000、100,000、125,000、150,000、175,000、200,000、225,000、250,000、275,000、300,000、400,000、500,000、600,000、700,000、800,000、900,000、1,000,000、1,250,000、1,500,000、1,750,000、2,000,000、3,000,000、4,000,000、5,000,000もしくは10,000,000個の訓練DNAプロファイル、または前記の値のいずれか2つの間の範囲を含む。いくつかの実施形態では、訓練データベースは、最大または最大約100、500、1,000、1,500、2,000、3,000、4,000、5,000、10,000、20,000、30,000、40,000、50,000、75,000、100,000、125,000、150,000、175,000、200,000、225,000、250,000、275,000、300,000、400,000、500,000、600,000、700,000、800,000、900,000、1,000,000、1,250,000、1,500,000、1,750,000、2,000,000、3,000,000、4,000,000、5,000,000または10,000,000個の訓練DNAプロファイルを含む。いくつかの実施形態では、訓練データベースは、5,000~500,000の間、または10,000~500,000の間、または15,000~500,000の間、または20,000~500,000の間、または25,000~500,000の間、または25,000~400,000の間、または25,000~300,000の間、または25,000~250,000の間、または50,000~500,000の間、または50,000~400,000の間、または50,000~300,000の間、または50,000~250,000の間の訓練DNAプロファイルを含む。 In some embodiments, the kinship model is constructed using a training database. In some embodiments, the training database is a genetic database. In some embodiments, the training database is a genealogy database. In some embodiments, the training database is a publicly accessible database. In some embodiments, the training database contains between 1 and 10 million or more training DNA profiles. In some embodiments, the training database contains between 1 and 10 million or more training DNA profiles. 00, 250,000, 275,000, 300,000, 400,000, 500,000, 600,000, 700,000, 800,000, 900,000, 1,000,000, 1,250,000, 1,500,000, 1,750,000, 2,000,000, 3,000,000, 4,000,000, 5,000,000 or 10,000,000 0, or about 1, 5, 25, 50, 75, 100, 500, 1,000, 1,500, 2,000, 3,000, 4,000, 5,000, 10,000, 20,000, 30,000, 40,000, 50,000, 75,000, 100,000, 125,000, 150,000, 175,000, 200,000, 225,000, 250,000, 275,000 00, 300,000, 400,000, 500,000, 600,000, 700,000, 800,000, 900,000, 1,000,000, 1,250,000, 1,500,000, 1,750,000, 2,000,000, 3,000,000, 4,000,000, 5,000,000 or 10,000,000, or at least 1, 5, 2 5, 50, 75, 100, 500, 1,000, 1,500, 2,000, 3,000, 4,000, 5,000, 10,000, 20,000, 30,000, 40,000, 50,000, 75,000, 100,000, 125,000, 150,000, 175,000, 200,000, 225,000, 250,000, 275,000, 300,000, 400,000, 500,000, 600,000, 700,000, 800,000, 900,000, 1,000,000, 1,250,000, 1,500,000, 1,750,000, 2,000,000, 3,000,000, 4,000,000, 5,000,000 or 10,000,000, or at least about 1, 5, 25, 50, 75, 10 0, 500, 1,000, 1,500, 2,000, 3,000, 4,000, 5,000, 10,000, 20,000, 30,000, 40,000, 50,000, 75,000, 100,000, 125,000, 150,000, 175,000, 200,000, 225,000, 250,000, 275,000, 300,000, 400,000, 500 ,000, 600,000, 700,000, 800,000, 900,000, 1,000,000, 1,250,000, 1,500,000, 1,750,000, 2,000,000, 3,000,000, 4,000,000, 5,000,000 or 10,000,000 training DNA profiles, or a range between any two of the foregoing values. In some embodiments, the training database may contain up to or up to about 100, 500, 1,000, 1,500, 2,000, 3,000, 4,000, 5,000, 10,000, 20,000, 30,000, 40,000, 50,000, 75,000, 100,000, 125,000, 150,000, 175,000, 200,000, 225,000, 250,000, 275,000, 300,000, 400,000, 500,000, 600,000, 700,000, 800,000, 900,000, 1,000,000, 1,250,000, 1,500,000, 1,750,000, 2,000,000, 3,000,000, 4,000,000, 5,000,000 or 10,000,000 training DNA profiles. In some embodiments, the training database includes between 5,000 and 500,000, or between 10,000 and 500,000, or between 15,000 and 500,000, or between 20,000 and 500,000, or between 25,000 and 500,000, or between 25,000 and 400,000, or between 25,000 and 300,000, or between 25,000 and 250,000, or between 50,000 and 500,000, or between 50,000 and 400,000, or between 50,000 and 300,000, or between 50,000 and 250,000 training DNA profiles.
いくつかの実施形態では、PCA法はPC-AiRであり、訓練データベースは、少なくとも1~最大100、200、300、400、500、600、700、800、900、1,000、1,100、1,200、1,300、1,400、1,500、1,600、1,700、1,800、1,900、2,000、2,100、2,200、2,300、2,400、2,500、2,600、2,700、2,800、2,900、3,000、3,500、4,000、4,500もしくは5,000個の訓練DNAプロファイル、または前記の値のいずれか2つの間の範囲を含む。 In some embodiments, the PCA method is PC-AiR and the training database includes at least 1 and up to 100, 200, 300, 400, 500, 600, 700, 800, 900, 1,000, 1,100, 1,200, 1,300, 1,400, 1,500, 1,600, 1,700, 1,800, 1,900, 2,000, 2,100, 2,200, 2,300, 2,400, 2,500, 2,600, 2,700, 2,800, 2,900, 3,000, 3,500, 4,000, 4,500, or 5,000 training DNA profiles, or a range between any two of the foregoing values.
いくつかの実施形態では、PCA法は、修正PC-Air法であり、訓練データベースは、3,000、4,000、5,000、10,000、20,000、30,000、40,000、50,000、75,000、100,000、125,000、150,000、175,000、200,000、225,000、250,000、275,000、300,000、400,000、500,000、600,000、700,000、800,000、900,000、1,000,000、1,250,000、1,500,000、1,750,000、2,000,000、3,000,000、4,000,000、5,000,000もしくは10,000,000個、または約3,000、4,000、5,000、10,000、20,000、30,000、40,000、50,000、75,000、100,000、125,000、150,000、175,000、200,000、225,000、250,000、275,000、300,000、400,000、500,000、600,000、700,000、800,000、900,000、1,000,000、1,250,000、1,500,000、1,750,000、2,000,000、3,000,000、4,000,000、5,000,000もしくは10,000,000個、または少なくとも3,000、4,000、5,000、10,000、20,000、30,000、40,000、50,000、75,000、100,000、125,000、150,000、175,000、200,000、225,000、250,000、275,000、300,000、400,000、500,000、600,000、700,000、800,000、900,000、1,000,000、1,250,000、1,500,000、1,750,000、2,000,000、3,000,000、4,000,000、5,000,000もしくは10,000,000個、または少なくとも約3,000、4,000、5,000、10,000、20,000、30,000、40,000、50,000、75,000、100,000、125,000、150,000、175,000、200,000、225,000、250,000、275,000、300,000、400,000、500,000、600,000、700,000、800,000、900,000、1,000,000、1,250,000、1,500,000、1,750,000、2,000,000、3,000,000、4,000,000、5,000,000もしくは10,000,000個の訓練DNAプロファイル、または前記の値のいずれか2つの間の範囲を含む。 In some embodiments, the PCA method is a modified PC-Air method and the training database is 3,000, 4,000, 5,000, 10,000, 20,000, 30,000, 40,000, 50,000, 75,000, 100,000, 125,000, 150,000, 175,000, 200,000, 225,000, 250,000, 275,000, 300,000, 400,000, 500,000, 600,000, 700,000, 800,000, 900,000, 1,000,000, 1,250,000, 1,500,000, 1,750,000, 2,000,000, 3,000,000, 4,000,000, 5,000,000 0 or 10,000,000, or about 3,000, 4,000, 5,000, 10,000, 20,000, 30,000, 40,000, 50,000, 75,000, 100,000, 125,000, 150,000, 175,000, 200,000, 225,000, 250,000, 275,000, 300, 000, 400,000, 500,000, 600,000, 700,000, 800,000, 900,000, 1,000,000, 1,250,000, 1,500,000, 1,750,000, 2,000,000, 3,000,000, 4,000,000, 5,000,000 or 10,000,000, or At least 3,000, 4,000, 5,000, 10,000, 20,000, 30,000, 40,000, 50,000, 75,000, 100,000, 125,000, 150,000, 175,000, 200,000, 225,000, 250,000, 275,000, 300,000, 400,000, 500, 000, 600,000, 700,000, 800,000, 900,000, 1,000,000, 1,250,000, 1,500,000, 1,750,000, 2,000,000, 3,000,000, 4,000,000, 5,000,000 or 10,000,000, or at least about 3,000, 4,000 0, 5,000, 10,000, 20,000, 30,000, 40,000, 50,000, 75,000, 100,000, 125,000, 150,000, 175,000, 200,000, 225,000, 250,000, 275,000, 300,000, 400,000, 500,000, 600,000, 700, 000, 800,000, 900,000, 1,000,000, 1,250,000, 1,500,000, 1,750,000, 2,000,000, 3,000,000, 4,000,000, 5,000,000 or 10,000,000 training DNA profiles, or a range between any two of the foregoing values.
いくつかの実施形態では、訓練データベースにアクセスすることは、インターネットアクセスを必要としない。いくつかの実施形態では、血縁関係モデルを訓練することは、インターネットアクセスを必要としない。いくつかの実施形態では、訓練データベースはローカルにアクセス可能である。 In some embodiments, accessing the training database does not require internet access. In some embodiments, training the kinship model does not require internet access. In some embodiments, the training database is locally accessible.
いくつかの実施形態では、血縁関係モデルは、PCA法を訓練データベースに適用することによって訓練される。いくつかの実施形態では、訓練DNAプロファイルは、複数のSNPの遺伝子型を含む。いくつかの実施形態では、血縁関係モデルは、PCA法を使用して訓練データベースについて得られた主成分(PC)を含む。 In some embodiments, the kinship model is trained by applying a PCA method to a training database. In some embodiments, the training DNA profile includes genotypes for a plurality of SNPs. In some embodiments, the kinship model includes principal components (PCs) obtained for the training database using the PCA method.
いくつかの態様では、訓練DNAプロファイルの訓練データベースが与えられると、PC-AiRおよび修正PC-AiR法は両方とも、訓練データベースに存在する全ての祖先のバックグラウンドから十分にサンプリングしながら、可能な限り大規模に近い、訓練データベースからの訓練DNAプロファイルの十分に許容され得る無関係なサンプルセットを特定することができる。いくつかの実施形態では、PC-AiRおよび修正PC-AiR法は両方とも、訓練データベース内の無関係なサンプルのセット、例えば訓練DNAプロファイルを特定することができる。いくつかの実施形態では、無関係なサンプルのセットは、訓練データベースに存在する全てまたはほぼ全ての祖先のバックグラウンドをサンプリングするものである。 In some aspects, given a training database of training DNA profiles, both PC-AiR and modified PC-AiR methods can identify a sufficiently acceptable set of unrelated samples of training DNA profiles from the training database that is as close to large as possible while still adequately sampling all ancestral backgrounds present in the training database. In some embodiments, both PC-AiR and modified PC-AiR methods can identify a set of unrelated samples, e.g., training DNA profiles, within the training database. In some embodiments, the set of unrelated samples samples all or nearly all ancestral backgrounds present in the training database.
いくつかの実施形態では、PC-AiRおよび修正PC-AiR法は両方とも、訓練データベース内のサンプルの全てのペアの間の血縁関係を推定する最初のステップを含む。いくつかの実施形態では、血縁係数が推定される。いくつかの実施形態では、「KING-Robust」と呼ばれる単純化された血縁関係推定法を使用して、血縁係数が推定される。 In some embodiments, both the PC-AiR and modified PC-AiR methods include an initial step of estimating the kinship relationships between all pairs of samples in the training database. In some embodiments, the kinship coefficients are estimated. In some embodiments, the kinship coefficients are estimated using a simplified kinship estimation method called "KING-Robust."
いくつかの実施形態では、PC-AiRは次いで、以下を含む後続のステップに進む:(1)訓練データベースからの全てのサンプルでセット「U」を初期化すること;(2)セットをスキャンして、各サンプルについて、そのサンプルがUにおいていくつのサンプルと関連しているか(「R」と呼ばれる)、およびUにおいて「祖先的に分岐した」サンプルがいくつあるか(「D」と呼ばれる)を計算すること;(3)最も高いRを有するサンプルを選択し、最も高いRを有する複数のサンプルがある場合、最も高いRおよび最も低いDを有するサンプルを選択すること;(4)選択されたサンプルをUから除去すること;および(5)ステップ(2)から繰り返すこと。例えば、PC-AiRを使用して、50,000個のサンプルがある場合、プロセスは、第1の反復で50,0002個のデータポイント、第2の反復で49,9992個のデータポイントを調べ、セット内に関連するサンプルがなくなるまで繰り返し、例えば、20,0002個または10,0002個のデータポイントまで進み得る。いくつかの実施形態では、この手順は、Uが無関係なサンプルのみを含有するまで継続する。 In some embodiments, PC-AiR then proceeds to subsequent steps, including: (1) initializing a set "U" with all samples from the training database; (2) scanning the set and calculating, for each sample, how many samples in U it is related to (called "R") and how many samples in U it is "ancestrally branched" from (called "D"); (3) selecting the sample with the highest R, or if there are multiple samples with the highest R, selecting the sample with the highest R and lowest D; (4) removing the selected sample from U; and (5) repeating from step (2). For example, using PC-AiR, if there are 50,000 samples, the process might look at 50,000² data points in the first iteration, 49,999² data points in the second iteration, and repeat until there are no more related samples in the set, e.g., going up to 20,000² or 10,000² data points. In some embodiments, this procedure continues until U contains only irrelevant samples.
いくつかの実施形態では、PC-AiRは、推定された血縁関係に基づいてサンプルを関連があると考える。いくつかの実施形態では、推定された血縁係数≧0.025を有するサンプルは、関連があると考えられる。 In some embodiments, PC-AiR considers samples related based on estimated relatedness. In some embodiments, samples with an estimated relatedness coefficient of ≥ 0.025 are considered related.
いくつかの実施形態では、PC-AiRは、推定された血縁関係に基づいてサンプルを祖先分岐したものと考える。いくつかの実施形態では、推定された血縁係数<0.025を有するサンプルは、祖先分岐したと考えられる。 In some embodiments, PC-AiR considers samples to be ancestrally diverged based on estimated kinship. In some embodiments, samples with estimated kinship coefficients <0.025 are considered to be ancestrally diverged.
一部の実施形態では、PC-AiRは、(1)訓練データベースの、サンプル(例えば、訓練DNAプロファイル)の全ペア間の血縁係数を推定するステップであって、>0.025の血縁係数を有するペアリングは近縁であると確認され、<-0.025の血縁係数を有するペアリングは祖先分岐したものとして確認される、血縁係数を推定するステップと、(2)全てのサンプルを含む無関係なサンプルセットを初期化するステップと、(3)反復的に:(i)無関係なサンプルセット内の最も関連のあるサンプルを有する無関係なサンプルセット内のセットを特定し、それによってXと指定し、(ii)無関係なサンプルセット内のサンプルと比較して、最も少ない祖先分岐ペアリングを有するX内のサンプルのセットを特定し、それによってYと指定し、(iii)Yが0個のサンプルを有する場合、プロセスを終了するか、またはYが少なくとも1個のサンプルを有する場合、Yから1個のサンプルをランダムに選択してUから除去し、ステップ(3)(i)で開始して繰り返すステップと、を含む。 In some embodiments, PC-AiR includes the steps of: (1) estimating relatedness coefficients between all pairs of samples (e.g., training DNA profiles) in a training database, where pairings with a relatedness coefficient >0.025 are identified as closely related and pairings with a relatedness coefficient <-0.025 are identified as ancestrally diverged; (2) initializing an unrelated sample set containing all samples; and (3) iteratively: (i) identifying a set in the unrelated sample set that has the most related samples in the unrelated sample set, thereby designating it as X; (ii) identifying a set of samples in X that has the fewest ancestrally diverged pairings compared to the samples in the unrelated sample set, thereby designating it as Y; and (iii) terminating the process if Y has 0 samples, or randomly selecting one sample from Y and removing it from U if Y has at least one sample, and repeating beginning with step (3)(i).
いくつかの実施形態では、修正PC-AiR法は、PC-AiRと比較して1つまたはそれを超える調整を含む。いくつかの実施形態では、サンプルが関連するかどうかは、修正PC-AiR法においてより厳密に定義される。いくつかの実施形態では、修正PC-AiR法は、推定された血縁係数が≧0.01である場合、サンプルを関連があると考える。 In some embodiments, the modified PC-AiR method includes one or more adjustments compared to PC-AiR. In some embodiments, whether a sample is related is more strictly defined in the modified PC-AiR method. In some embodiments, the modified PC-AiR method considers a sample to be related if the estimated coefficient of relatedness is ≧0.01.
いくつかの実施形態では、修正PC-AiR法は、推定された血縁係数に基づいてサンプルを祖先分岐したものと考える。いくつかの実施形態では、推定された血縁係数<0.025を有するサンプルは、祖先分岐したと考えられる。 In some embodiments, the modified PC-AiR method considers samples to be ancestrally diverged based on estimated relatedness coefficients. In some embodiments, samples with estimated relatedness coefficients <0.025 are considered to be ancestrally diverged.
いくつかの実施形態では、修正PC-AiR法は、各サンプルが十分に有益であることを確実にするために、>5%の欠損遺伝子型(例えば、DNAプロファイル中のSNPの5%超)を有する全てのサンプルを除去することを含む。 In some embodiments, the modified PC-AiR method involves removing all samples with >5% missing genotypes (e.g., more than 5% of the SNPs in the DNA profile) to ensure that each sample is fully informative.
いくつかの実施形態では、修正PC-AiR法は、(1)各サンプルについて、訓練データベース内の関連サンプルの総数である「R」、データベース内の祖先分岐サンプルの数である「D」、および関連サンプルのセットである「S」を計算するステップ;(2)全てのサンプルをR(昇順)およびD(降順)でランク付けするステップ;(3)ランク付けされたサンプルのリストを反復するステップ、および(i)サンプルが「関連」セットにない場合、それを無関係のセットに追加し、S(すなわち、サンプルに関連するDNAプロファイル)からの全てのサンプルを関連セットに追加するか;または(ii)サンプルが「関連」セットにある場合、サンプルを無視して次のサンプルに移動するステップ、を含む。いくつかの態様では、この修正PC-AiR法は、指数関数的ではなく、ほぼ線形複雑度のプロセス(すなわち、実行時間はサンプルの数と共に線形に拡大する)を可能にする。 In some embodiments, the modified PC-AiR method includes the steps of: (1) calculating, for each sample, "R," the total number of related samples in the training database; "D," the number of ancestral branch samples in the database; and "S," the set of related samples; (2) ranking all samples by R (ascending) and D (descending); (3) iterating through the list of ranked samples, and (i) if the sample is not in the "related" set, adding it to the unrelated set and adding all samples from S (i.e., DNA profiles related to the sample) to the related set; or (ii) if the sample is in the "related" set, ignoring the sample and moving on to the next sample. In some aspects, this modified PC-AiR method allows for a process of near-linear complexity (i.e., execution time scales linearly with the number of samples), rather than exponential.
一部の実施形態では、修正PC-AiRは、(1)訓練データベースのサンプル(例えば、DNAプロファイル)の全ペア間の血縁係数を推定するステップであって、>0.01の血縁係数を有するペアリングは近縁であると確認され、<-0.025の血縁係数を有するペアリングは祖先分岐したものとして確認される、血縁係数を推定するステップと、(2)≧5%の欠測データを有する全てのDNAプロファイルを除去するステップと、(3)各DNAプロファイルをランキング値で特定することによって全てのDNAプロファイルをランク付けするステップと、を含む方法。いくつかの実施形態では、ランキング値は、最小~最大にランク付けされた完全なデータベース内の関連するDNAプロファイルの数に基づいて決定され、最大~最小にランク付けされた完全なデータベース内の祖先分岐したDNAプロファイルの数によって関係が絶たれる。いくつかの実施形態では、ステップ(3)は、ランク付けされたDNAプロファイルを繰り返すこと、および各DNAプロファイルについて、(i)DNAプロファイルがまだ関連するサンプルセットにない場合、それを無関係なサンプルセットに追加し、全ての関連するDNAプロファイルを関連するサンプルセットに追加すること、および(ii)DNAプロファイルが既に関連するサンプルセットにある場合、次のDNAプロファイルにスキップし、ステップ(3)(i)で開始して繰り返すことを含む。 In some embodiments, the modified PC-AiR method includes the steps of: (1) estimating relatedness coefficients between all pairs of samples (e.g., DNA profiles) in a training database, where pairings with a relatedness coefficient >0.01 are identified as closely related and pairings with a relatedness coefficient <-0.025 are identified as ancestrally diverged; (2) removing all DNA profiles with ≥5% missing data; and (3) ranking all DNA profiles by assigning each DNA profile a ranking value. In some embodiments, the ranking value is determined based on the number of related DNA profiles in the complete database ranked from smallest to largest, broken down by the number of ancestrally diverged DNA profiles in the complete database ranked from largest to smallest. In some embodiments, step (3) includes iterating through the ranked DNA profiles, and for each DNA profile, (i) if the DNA profile is not already in the relevant sample set, adding it to the unrelated sample set and adding all relevant DNA profiles to the relevant sample set, and (ii) if the DNA profile is already in the relevant sample set, skipping to the next DNA profile and repeating starting with step (3)(i).
いくつかの実施形態では、PC-AiR法または修正PC-AiR法のいずれかを使用して無関係なサンプルセットを決定した後、血縁関係モデルを訓練するために、無関係なサンプルセットにPCAが適用される。いくつかの実施形態では、血縁関係モデルは、関連するサンプルセットについて計算されたPC値をさらに含む。いくつかの実施形態では、関連するサンプルセットのPC値は、無関係なサンプルセットに対して得られたPCに基づいて決定される。 In some embodiments, after determining the unrelated sample set using either the PC-AiR method or the modified PC-AiR method, PCA is applied to the unrelated sample set to train a kinship model. In some embodiments, the kinship model further includes PC values calculated for the related sample set. In some embodiments, the PC values for the related sample set are determined based on the PCs obtained for the unrelated sample set.
いくつかの実施形態では、PCAは、血縁関係モデルを構築するための訓練データベース全体に適用される。 In some embodiments, PCA is applied to the entire training database to build the kinship model.
いくつかの実施形態では、提供される方法は、血縁関係モデルを訓練することを含む。 In some embodiments, the provided method includes training a kinship model.
いくつかの実施形態では、提供される方法は、血縁関係モデルを訓練することを含まない。いくつかの実施形態では、血縁関係モデルは、関連度、例えば、血縁係数を計算する前に訓練される。 In some embodiments, the provided method does not include training a kinship model. In some embodiments, the kinship model is trained before calculating the relatedness, e.g., the relatedness coefficient.
いくつかの実施形態では、血縁関係モデルにアクセスすることは、インターネットアクセスを必要としない。いくつかの実施形態では、血縁関係モデルは、ローカルでアクセス可能である。 In some embodiments, accessing the kinship model does not require internet access. In some embodiments, the kinship model is accessible locally.
いくつかの実施形態では、関連度、例えば、血縁係数は、血縁関係モデルを使用して計算される。いくつかの実施形態では、関連度は、血縁関係モデルのPCを使用して計算される。いくつかの実施形態では、関連度を計算することは、DNAプロファイル、例えば関心のある人のDNAプロファイルのPC値を得ることを含む。いくつかの実施形態では、関連度を計算することは、参照DNAプロファイル(単数または複数)のPC値を得ることを含む。いくつかの実施形態では、関連度は、DNAプロファイルのPC値を使用して計算される。いくつかの実施形態では、関連度は、DNAプロファイルおよび参照DNAプロファイル(単数または複数)のPC値を使用して計算される。 In some embodiments, the degree of relatedness, e.g., the coefficient of relatedness, is calculated using a kinship model. In some embodiments, the degree of relatedness is calculated using the PCs of the kinship model. In some embodiments, calculating the degree of relatedness includes obtaining PC values of a DNA profile, e.g., a DNA profile of the person of interest. In some embodiments, calculating the degree of relatedness includes obtaining PC values of a reference DNA profile(s). In some embodiments, the degree of relatedness is calculated using the PC values of the DNA profile. In some embodiments, the degree of relatedness is calculated using the PC values of the DNA profile and the reference DNA profile(s).
いくつかの実施形態では、関連度、例えば、血縁係数は、PC-Relateを使用して計算される。例えば、Conomos et al.,Model-free Estimation of Recent Genetic Relatedness,Am.J.Hum.Genet.,98(1):127-148(2016)(その内容全体が参照により本明細書に組み込まれる)を参照されたい。いくつかの実施形態では、関連度は、DNAプロファイル、例えば関心のある人のDNAプロファイルを、PC-Relateへの入力として提供することによって計算される。いくつかの実施形態では、関連度は、血縁関係モデル、例えばPC、およびDNAプロファイルを、PC-Relateへの入力として提供することによって計算される。いくつかの実施形態では、参照DNAプロファイル(単数または複数)は、PC-Relateへの入力としてさらに提供される。 In some embodiments, the degree of relatedness, e.g., the coefficient of kinship, is calculated using PC-Relate. See, e.g., Conomos et al., Model-free Estimation of Recent Genetic Relatedness, Am. J. Hum. Genet., 98(1):127-148 (2016), the entire contents of which are incorporated herein by reference. In some embodiments, the degree of relatedness is calculated by providing a DNA profile, e.g., a DNA profile of a person of interest, as input to PC-Relate. In some embodiments, the degree of relatedness is calculated by providing a kinship model, e.g., a PC, and a DNA profile as input to PC-Relate. In some embodiments, a reference DNA profile(s) is/are further provided as input to PC-Relate.
いくつかの実施形態では、関連度、例えば、血縁係数は、ローカルで計算される。いくつかの実施形態では、関連度を計算することは、インターネットアクセスを必要としない。 In some embodiments, the relatedness, e.g., the relatedness coefficient, is calculated locally. In some embodiments, calculating the relatedness does not require internet access.
いくつかの実施形態では、本明細書に記載の方法は、関心のある人を身元確認することをさらに含む。いくつかの実施形態では、関心のある人を身元確認することは、関心のある人の法律上の名前によって関心のある人を身元確認することを含む。いくつかの実施形態では、関心のある人を身元確認することは、DNAプロファイルの参照セット内の1またはそれを超える既知の人に対する関心のある人の家族関係によって、関心のある人を身元確認することを含む。例えば、いくつかの実施形態では、関心のある人を身元確認することは、関心のある人が特定の既知の人物の息子もしくは娘であること、および/または特定の既知の人物の完全な兄弟姉妹であることを確認することを含む。
キット
In some embodiments, the methods described herein further include identifying the person of interest. In some embodiments, identifying the person of interest includes identifying the person of interest by the person's legal name. In some embodiments, identifying the person of interest includes identifying the person of interest by the person's family relationship to one or more known persons in the reference set of DNA profiles. For example, in some embodiments, identifying the person of interest includes confirming that the person of interest is a son or daughter of a particular known person and/or a full sibling of a particular known person.
kit
本明細書で提供されるのは、本明細書に記載されるプライマー、試薬または組成物のいずれかを含むキットであり、このキットはさらに、本明細書に記載される使用などのキットを使用する方法に関する説明書を含み得る。本明細書に記載されるキットは、他の緩衝液、希釈剤、フィルター、および本明細書に記載される方法を行うための説明書を含むパッケージ挿入物を含む、商業的およびユーザーの観点から望ましい他の材料も含み得る。 Provided herein are kits containing any of the primers, reagents, or compositions described herein, which may further include instructions regarding how to use the kit, such as the uses described herein. The kits described herein may also include other materials desirable from a commercial and user standpoint, including other buffers, diluents, filters, and package inserts containing instructions for performing the methods described herein.
いくつかの実施形態では、少なくとも1つの容器手段を含むキットが本明細書で提供され、少なくとも1つの容器手段は、本明細書に記載の複数のプライマーのいずれかを含む。
例示的な実施形態
In some embodiments, provided herein are kits that comprise at least one container means, the at least one container means containing any of a plurality of primers described herein.
Illustrative Embodiments
本明細書で提供される例示的な実施形態の中には、以下のものがある:
1. DNAベースの血縁関係解析を行うための方法であって、
関心のある人からの核酸サンプルを提供すること、
複数の少なくとも2,000~50,000個の間または約2,000~50,000個の間の一塩基多型(SNP)を集合的に含む複数の標的配列に特異的にハイブリダイズする複数のプライマーを用いて前記核酸サンプルを増幅させ、それによって増幅産物を生成することであって、前記増幅を1つまたはそれを超えるマルチプレックスPCR反応で行うことと、
前記増幅産物から核酸ライブラリーを生成することと、
前記増幅産物から生成された前記核酸ライブラリーを配列決定すること、
前記増幅産物の前記配列を解析することと、
前記複数のSNPの遺伝子型を決定し、それによってDNAプロファイルを生成することと、
前記DNAプロファイルと1つまたはそれを超える参照DNAプロファイルとの関連度を計算することであって、前記1つまたはそれを超える参照DNAプロファイルが、前記関心のある人の血縁者からの1つまたはそれを超える参照DNAプロファイルを含むDNAプロファイルの参照セット内に含まれる、計算することと、
を含む方法。
2. DNAベースの血縁関係解析を行うための方法であって、
関心のある人からの核酸サンプルを提供すること、
複数の少なくとも2,000~50,000個の間または約2,000~50,000個の間の一塩基多型(SNP)を集合的に含む複数の標的配列に特異的にハイブリダイズする複数のプライマーを用いて前記核酸サンプルを増幅させ、それによって増幅産物を生成することであって、前記増幅を1つまたはそれを超えるマルチプレックスPCR反応で行うことと、
前記増幅産物から核酸ライブラリーを生成することと、
前記増幅産物から生成された前記核酸ライブラリーを配列決定すること、
前記複数のSNPの遺伝子型を決定し、それによってDNAプロファイルを生成することと、
前記DNAプロファイルと1つまたはそれを超える参照DNAプロファイルとの関連度を計算することであって、前記1つまたはそれを超える参照DNAプロファイルが、前記関心のある人の血縁者からの1つまたはそれを超える参照DNAプロファイルを含むDNAプロファイルの参照セット内に含まれる、計算することと、
を含む方法。
3. 前記配列決定が、大規模並列処理配列決定(MPS)を使用して行われる、実施形態1または実施形態2に記載の方法。
4. 前記配列決定が、全ゲノム配列決定(WGS)を含まない、実施形態1~3のいずれか1項に記載の方法。
5. 1つまたはそれを超えるDNAプロファイルに関連する前記DNAプロファイルを含む家系図を生成することをさらに含む、実施形態1~4のいずれか1項に記載の方法。
6. 関心のある人についての核酸ライブラリーを構築する方法であって、
関心のある人からの核酸サンプルを提供すること、
複数の少なくとも2,000~50,000個の間または約2,000~50,000個の間の一塩基多型(SNP)を集合的に含む複数の標的配列に特異的にハイブリダイズする複数のプライマーを用いて前記核酸サンプルを増幅させ、それによって増幅産物を含む核酸ライブラリーを生成することであって、前記増幅を1つまたはそれを超えるマルチプレックスPCR反応で行うことと、
を含む方法。
7. 前記増幅産物を配列決定して、前記関心のある人のDNAプロファイルを産生するステップをさらに含む、実施形態6に記載の方法。
8. 参照DNAサンプルについての核酸ライブラリーを構築する方法であって、
関心のある人の血縁者からの核酸サンプルを提供すること、
複数の少なくとも2,000~50,000個の間または約2,000~50,000個の間の一塩基多型(SNP)を集合的に含む複数の標的配列に特異的にハイブリダイズする複数のプライマーを用いて前記核酸サンプルを増幅させ、それによって増幅産物を含む核酸ライブラリーを生成することであって、前記増幅を1つまたはそれを超えるマルチプレックスPCR反応で行うことと、
を含む方法。
9. 前記血縁者が、前記関心のある人の1親等、2親等、3親等、4親等、または5親等の血縁者である、実施形態8に記載の方法。
10. 前記血縁者が、前記関心のある人の1親等、2親等、または3親等の血縁者である、実施形態8または実施形態9に記載の方法。
11. 前記核酸サンプルがゲノムDNAを含む、実施形態1~10のいずれか1項に記載の方法。
12. 前記核酸サンプルが1つまたはそれを超える酵素阻害剤を含む、実施形態1~11のいずれか1項に記載の方法。
13. 前記1つまたはそれを超える酵素阻害剤が、ヘマチン、ヘム、フミン酸、インディゴ、タンニン酸、コラーゲン、カルシウムおよびヒドロキシアパタイトからなる群から選択される1つまたはそれを超える阻害剤を含む、実施形態12に記載の方法。
14. 前記核酸サンプルが、低品質核酸分子および/または少量の核酸分子を含む、実施形態1~13のいずれか1項に記載の方法。
15. 前記低品質核酸分子が、劣化ゲノムDNAおよび/または断片化されたゲノムDNAである、実施形態14に記載の方法。
16. 前記低品質核酸分子が、1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、185、190、195もしくは200の劣化指数(DI)、または少なくとも1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、185、190、195もしくは200の劣化指数(DI)を有する、実施形態14または実施形態15に記載の方法。
17. 前記低品質核酸分子が、少なくとも1および最大158.3またはそれ未満のDIを有する、実施形態14または実施形態15に記載の方法。
18. 前記核酸サンプルが高品質核酸分子を含む、実施形態1~13のいずれか1項に記載の方法。
19. 前記高品質核酸分子が1未満のDIを有する、実施形態18に記載の方法。
20. 前記関心のある人が行方不明者である、実施形態1~19のいずれか1項に記載の方法。
21. 前記関心のある人が、災害または紛争の犠牲者である、実施形態1~19のいずれか1項に記載の方法。
22. 前記核酸サンプルが、唾液、血液、精液、毛髪、歯、骨または皮膚に由来する、実施形態1~21のいずれか1項に記載の方法。
23. 前記核酸サンプルが、唾液、血液または精液に由来する、実施形態22に記載の方法。
24. 前記核酸サンプルが、骨または毛髪に由来する、実施形態22に記載の方法。
25. 前記核酸サンプルが、唾液、血液、精液もしくは他の体液で含浸された、頬側スワブ、紙、布地または他の基材または物体に由来する、実施形態1~21のいずれか1項に記載の方法。
26. 前記核酸サンプルが、3pg~100ngまたは約3pg~100ngのゲノムDNAを含む、実施形態1~25のいずれか1項に記載の方法。
27. 前記核酸サンプルが、100pg~5ngの間もしくは約100pg~5ngの間のゲノムDNA、50pg~5ngの間もしくは約50pg~5ngの間のゲノムDNA、または3pg~5ngの間もしくは約3pg~5ngの間のゲノムDNAを含む、実施形態1~26のいずれか1項に記載の方法。
28. 前記核酸サンプルが1ngまたは約1ngのゲノムDNAを含む、実施形態26または実施形態27に記載の方法。
29. 前記複数のSNPが血縁関係SNP(kiSNP)を含む、実施形態1~28のいずれか1項に記載の方法。
30. 前記複数のSNPがY染色体SNP(Y-SNP)を含む、実施形態1~29のいずれか1項に記載の方法。
31. 前記複数のSNPが、kiSNPおよびY-SNPを含む、実施形態1~30のいずれか1項に記載の方法。
32. 前記複数のSNPが、kiSNP、生物地理学的祖先SNP(aiSNP)、同一性SNP(iiSNP)、表現型SNP(piSNP)、X染色体SNP(X-SNP)およびY染色体SNP(Y-SNP)を含む、実施形態1~31のいずれか1項に記載の方法。
33. 前記複数のSNPが、kiSNP、aiSNP、iiSNP、piSNP、X-SNPおよびY-SNPからなる群の1つまたはそれを超えるものから選択されるSNPを含む、実施形態1~28のいずれか1項に記載の方法。
34. 前記複数のSNPの少なくとも80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%もしくは99%、または少なくとも約80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%もしくは99%が血縁関係SNPである、実施形態1~33のいずれか1項に記載の方法。
35. 前記DNAプロファイルの参照セットが、最大5、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175、200、300、400、500、600、700、800、900、または1000個の参照DNAプロファイルを含む、実施形態1~34のいずれか1項に記載の方法。
36. 前記DNAプロファイルの参照セット内の前記参照DNAプロファイルの少なくとも5%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、または95%が、前記関心のある人の血縁者からのものである、実施形態1~35のいずれか1項に記載の方法。
37. 前記DNAプロファイルの参照セット内の前記参照DNAプロファイルの少なくとも5%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、または95%が前記関心のある人の血縁者からのものであり、前記DNAプロファイルの参照セット内の前記参照DNAプロファイルの前記少なくとも5%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、または95%の各々が、1親等、2親等、3親等、4親等、または5親等の血縁者である、実施形態1~36のいずれか1項に記載の方法。
38. 前記DNAプロファイルの参照セット内の前記参照DNAプロファイルの少なくとも50%が、前記関心のある人の血縁者からのものである、実施形態1~37のいずれか1項に記載の方法。
39. 前記DNAプロファイルの参照セット内の前記関心のある人の各血縁者が、それぞれ、前記関心のある人の1親等、2親等、3親等、4親等、または5親等の血縁者である、実施形態36~38のいずれか1項に記載の方法。
40. 前記DNAプロファイルの参照セット内の前記関心のある人の各血縁者が、それぞれ、前記関心のある人の1親等、2親等、または3親等の血縁者である、実施形態39に記載の方法。
41. 前記DNAプロファイルの参照セット内の前記関心のある人の各血縁者の同一性が既知である、実施形態1~40のいずれか1項に記載の方法。
42. 前記DNAプロファイルの参照セット内の前記1つまたはそれを超える参照DNAプロファイルの各々の同一性が既知である、実施形態1~41のいずれか1項に記載の方法。
43. 前記DNAプロファイルの参照セットがデータベース内にある、実施形態1~42のいずれか1項に記載の方法。
44. 前記データベースは公的にアクセス可能ではない、実施形態43に記載の方法。
45. 前記配列決定することが、最大40プレックスの配列決定プレキシティを含む、実施形態1~44のいずれか1項に記載の方法。
46. 前記配列決定することが、最大32プレックスの配列決定プレキシティを含む、実施形態1~44のいずれか1項に記載の方法。
47. 前記配列決定することが、12プレックス~32プレックスの配列決定プレキシティを含む、実施形態1~44のいずれか1項に記載の方法。
48. 前記配列決定することが、24プレックス~32プレックスの配列決定プレキシティを含む、実施形態1~44のいずれか1項に記載の方法。
49. 前記配列決定することが、10プレックス、11プレックス、12プレックス、13プレックス、14プレックス、15プレックス、16プレックス、17プレックス 18プレックス、19プレックス、20プレックス、21プレックス、22プレックス、23プレックス、24プレックス、25プレックス、26プレックス、27プレックス、28プレックス、29プレックス、30プレックス、31プレックス、32プレックス、33プレックス、34プレックスもしくは35プレックス、または約10プレックス、11プレックス、12プレックス、13プレックス、14プレックス、15プレックス、16プレックス、17プレックス 18プレックス、19プレックス、20プレックス、21プレックス、22プレックス、23プレックス、24プレックス、25プレックス、26プレックス、27プレックス、28プレックス、29プレックス、30プレックス、31プレックス、32プレックス、33プレックス、34プレックスもしくは35プレックスの配列決定プレキシティを含む、実施形態1~44のいずれか1項に記載の方法。
50. 前記配列決定することが、死後サンプルについては8~16プレックスまたは約8~16プレックスの配列決定プレキシティを含み、および/または、前記配列決定することが、生前サンプルについては24~40プレックスまたは約24~40プレックスの配列決定プレキシティを含む、実施形態1~49のいずれか1項に記載の方法。
51. 前記配列決定することが、死後サンプルについては12プレックスまたは約12プレックスの配列決定プレキシティを含み、および/または、前記配列決定することが、生前サンプルについては32プレックスまたは約32プレックスの配列決定プレキシティを含む、実施形態1~50のいずれか1項に記載の方法。
52. 前記配列決定することが、30プレックス、31プレックスもしくは32プレックス、または約30プレックス、31プレックスもしくは32プレックスの配列決定プレキシティを含む、実施形態1~51のいずれか1項に記載の方法。
53. 前記関心のある人を身元確認することをさらに含む、実施形態1~52のいずれか1項に記載の方法。
54. 血縁度を計算するための方法であって、
少なくとも2,000~50,000個の間または約2,000~50,000個の間のSNPの遺伝子型を含むDNAプロファイルを得ることであって、前記DNAプロファイルが関心のある人からのものである、得ることと、
前記DNAプロファイルと1つまたはそれを超える参照DNAプロファイルとの関連度を計算することであって、前記1つまたはそれを超える参照DNAプロファイルが、前記関心のある人の血縁者からの1つまたはそれを超える参照DNAプロファイルを含むDNAプロファイルの参照セット内に含まれる、計算することとを含む、方法。
55. 血縁度を計算するための方法であって、
少なくとも2,000~50,000個の間または約2,000~50,000個の間のSNPの遺伝子型を含むDNAプロファイルを生成することであって、前記DNAプロファイルが関心のある人からのものである、生成することと、
前記DNAプロファイルと1つまたはそれを超える参照DNAプロファイルとの関連度を計算することであって、前記1つまたはそれを超える参照DNAプロファイルが、前記関心のある人の血縁者からの1つまたはそれを超える参照DNAプロファイルを含むDNAプロファイルの参照セット内に含まれる、計算することとを含む、方法。
56. 前記関連度が、血縁関係モデルを使用して計算される、実施形態1~55のいずれか1項に記載の方法。
57. 前記関連度が、PCA法を使用して訓練される血縁関係モデルを使用して計算される、実施形態1~56のいずれか1項に記載の方法。
58. 前記血縁関係モデルを訓練するための前記PCA法が、PCAであるか、またはPCAを含む、実施形態57に記載の方法。
59. 前記PCA法がPC-AiRである、実施形態57または実施形態58に記載の方法。
60. 実施形態59に記載の方法であって、前記PC-AiRが、(1)訓練データベースの、必要に応じて訓練DNAプロファイルのサンプルの全ペア間の血縁係数を推定するステップであって、>0.025の血縁係数を有するペアリングは近縁であると確認され、<-0.025の血縁係数を有するペアリングは祖先分岐したものとして確認される、血縁係数を推定するステップと、(2)全てのサンプルを含む無関係なサンプルセットを初期化するステップと、(3)反復的に:(i)前記無関係なサンプルセット内の最も関連のあるサンプルを有する前記無関係なサンプルセット内のセットを特定し、それによってXと指定し、(ii)前記無関係なサンプルセット内のサンプルと比較して、最も少ない祖先分岐ペアリングを有するX内のサンプルのセットを特定し、それによってYと指定し、(iii)Yが0個のサンプルを有する場合、プロセスを終了するか、またはYが少なくとも1個のサンプルを有する場合、Yから1個のサンプルをランダムに選択してUから除去し、ステップ(3)(i)で開始して繰り返すステップと、を含む方法。
61. 前記PCA法が修正PC-Airである、実施形態57または実施形態58に記載の方法。
62. 実施形態61に記載の方法であって、前記修正PC-AiRが、(1)訓練データベースの、必要に応じて訓練DNAプロファイルのサンプルの全ペア間の血縁係数を推定するステップであって、>0.01の血縁係数を有するペアリングは近縁であると確認され、<-0.025の血縁係数を有するペアリングは祖先分岐したものとして確認される、血縁係数を推定するステップと、(2)≧5%の欠測データを有する全てのDNAプロファイルを除去するステップと、(3)各DNAプロファイルをランキング値で特定することによって全てのDNAプロファイルをランク付けするステップと、を含む方法。いくつかの実施形態では、ランキング値は、最小~最大にランク付けされた完全なデータベース内の関連するDNAプロファイルの数に基づいて決定され、最大~最小にランク付けされた完全なデータベース内の祖先分岐したDNAプロファイルの数によって関係が絶たれる。いくつかの実施形態では、ステップ(3)は、ランク付けされたDNAプロファイルを繰り返すこと、および各DNAプロファイルについて、(i)前記DNAプロファイルがまだ前記関連するサンプルセットにない場合、それを前記無関係なサンプルセットに追加し、全ての関連するDNAプロファイルを前記関連するサンプルセットに追加すること、および(ii)前記DNAプロファイルが既に前記関連するサンプルセットにある場合、次のDNAプロファイルにスキップし、ステップ(3)(i)で開始して繰り返すことを含む。
63. 前記関連度を前記計算することが、PC-Relateを使用して血縁係数を計算することを含む、実施形態1~62のいずれか1項に記載の方法。
64. 前記関連度が、前記関心のある人の前記DNAプロファイルをPC-Relateへの入力として提供することによって計算される、実施形態63に記載の方法。
65. 前記関連度が、前記血縁関係モデルおよび前記関心のある人の前記DNAプロファイルをPC-Relateへの入力として提供することによって計算される、実施形態57~64のいずれか1項に記載の方法。
66. 前記1つまたはそれを超える参照DNAプロファイルが、PC-Relateへの入力としてさらに提供される、実施形態63~65のいずれか1項に記載の方法。
67. 前記関連度を前記計算することが、以下のように全ゲノム血縁関係アルゴリズムを使用して血縁係数を計算することを含み:
68. 前記関連度を前記計算することが、尤度比を計算することを含む、実施形態1~67のいずれか1項に記載の方法。
69. 前記尤度比を前記計算することが、前記DNAプロファイルと前記1つまたはそれを超える参照DNAプロファイルとの間で前記複数のSNPを比較することを含む、実施形態68に記載の方法。
70. 前記尤度比を前記計算することが、前記DNAプロファイルと前記1つまたはそれを超える参照DNAプロファイルとの間で前記複数のSNPの中からの血縁関係SNPを含むSNPのセットを比較することを含む、実施形態68に記載の方法。
71. 前記尤度比を計算することが、前記複数のSNPの前記遺伝子型に基づいて、前記DNAプロファイルおよび前記1つまたはそれを超える参照DNAプロファイルの中からの参照DNAプロファイルが関連している確率を、前記DNAプロファイルおよび前記参照DNAプロファイルが無関係である確率で割ることを含む、実施形態68~70のいずれか1項に記載の方法。
72. 前記尤度比(LR)が、以下のように計算され:
73. 前記LRが、以下のように計算され:
74. 前記関心のある人が生物学的に男性であり、前記方法が、前記DNAプロファイルと前記1つまたはそれを超える参照DNAプロファイルとの間でY染色体を共有する尤度比を計算することをさらに含む、実施形態1~73のいずれか1項に記載の方法。
75. Y染色体を共有する尤度比を前記計算することが、前記DNAプロファイルと前記1つまたはそれを超える参照DNAプロファイルとの間で、1つまたはそれを超えるY-SNPを含むSNPのセットを比較することを含む、実施形態74に記載の方法。
76. 前記1つまたはそれを超えるY-SNPが、前記複数のSNP内に含まれる、実施形態75に記載の方法。
77. 前記1つまたはそれを超えるY-SNPが、少なくとも20、25、30、35、40、45、50、55、60、65、70、75、80、81、82、83、84、または85個のY-SNPを含む、実施形態75に記載の方法。
78. 前記1つまたはそれを超えるY-SNPが85個のY-SNPを含む、実施形態75~77のいずれか1項に記載の方法。
79. Y染色体を共有する前記尤度比を計算することが、前記1つまたはそれを超えるY-SNPの前記遺伝子型に基づいて、前記DNAプロファイルおよび前記1つまたはそれを超える参照DNAプロファイルの中からの参照DNAプロファイルがY染色体を共有する確率を、前記DNAプロファイルおよび前記参照DNAプロファイルがY染色体を共有しない確率で割ることを含む、実施形態75~78のいずれか1項に記載の方法。
80. 前記DNAプロファイルの参照セット内の前記DNAプロファイルの少なくとも90%、91%、92%、93%、94%、95%、96%、97%、98%、または99%が、行方不明者または災害もしくは紛争の犠牲者の血縁者からのものである、実施形態1~79のいずれか1項に記載の方法。
81. 前記DNAプロファイルの参照セット内の前記DNAプロファイルの各々が、行方不明者または災害もしくは紛争の犠牲者の血縁者からのものである、実施形態1~80のいずれか1項に記載の方法。
82. 前記DNAプロファイルの参照セットが、最大5、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175、200、300、400、500、600、700、800、900、または1000個の参照DNAプロファイルを含む、実施形態1~81のいずれか1項に記載の方法。
83. 前記DNAプロファイルの参照セットが、最大100個の参照DNAプロファイルを含む、実施形態1~82のいずれか1項に記載の方法。
84. 前記DNAプロファイルの参照セット内の前記参照DNAプロファイルの少なくとも5%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、または95%が、前記関心のある人の血縁者からのものである、実施形態1~83のいずれか1項に記載の方法。
85. 前記DNAプロファイルの参照セット内の前記参照DNAプロファイルの少なくとも50%が、前記関心のある人の血縁者からのものである、実施形態1~84のいずれか1項に記載の方法。
86. 前記DNAプロファイルの参照セット内の前記関心のある人の各血縁者が、それぞれ、前記関心のある人の1親等、2親等、3親等、4親等、または5親等の血縁者である、実施形態84または実施形態85に記載の方法。
87. 前記DNAプロファイルの参照セット内の前記関心のある人の各血縁者の同一性が既知である、実施形態1~86のいずれか1項に記載の方法。
88. 前記DNAプロファイルの参照セット内の前記関心のある人の各血縁者の同一性が既知である、実施形態1~87のいずれか1項に記載の方法。
89. 前記DNAプロファイルの参照セット内の前記1つまたはそれを超える参照DNAプロファイルの各々の同一性が既知である、実施形態1~88のいずれか1項に記載の方法。
90. 前記DNAプロファイルの参照セットがデータベース内にある、実施形態1~89のいずれか1項に記載の方法。
91. 前記データベースは公的にアクセス可能ではない、実施形態90に記載の方法。
92. 前記データベースが、第三者の系譜サービスによってアクセス可能でない、実施形態90または実施形態91に記載の方法。
93. 実施形態6~92のいずれか1項に記載の方法を使用して構築された核酸ライブラリー。
94. 関心のある人からの核酸サンプル中に少なくとも2,000~50,000個または約2,000~50,000個の一塩基多型(SNP)を含む複数の標的配列に特異的にハイブリダイズする複数のプライマーであって、1つまたはそれを超えるマルチプレックスPCR反応において前記複数のプライマーを使用して前記核酸サンプルを増幅すると増幅産物が得られる、複数のプライマー。
95. 関心のある人からの核酸サンプルおよび1つまたはそれを超える参照サンプルからの核酸サンプル中に少なくとも2,000~50,000個の間または約2,000~50,000個の間の一塩基多型(SNP)を含む複数の標的配列に特異的にハイブリダイズする複数のプライマーであって、
前記1つまたはそれを超える参照サンプルは、前記関心のある人の血縁者からのサンプルを含み、
1つまたはそれを超えるマルチプレックスPCR反応において前記複数のプライマーを使用して、前記関心のある人からの前記核酸サンプルおよび1つまたはそれを超える参照サンプルからの前記核酸サンプルを増幅することが、増幅産物をもたらす、複数のプライマー。
96. 前記関心のある人からの前記核酸サンプルがゲノムDNAを含む、実施形態94または実施形態95に記載の複数のプライマー。
97. 前記関心のある人からの前記核酸サンプルが1つまたはそれを超える酵素阻害剤を含む、実施形態94~96のいずれか1項に記載の複数のプライマー。
98. 前記1つまたはそれを超える酵素阻害剤が、ヘマチン、ヘム、フミン酸、インディゴ、タンニン酸、コラーゲン、カルシウムおよびヒドロキシアパタイトからなる群から選択される1つまたはそれを超える阻害剤を含む、実施形態97に記載の複数のプライマー。
99. 前記関心のある人からの前記核酸サンプルが、低品質核酸分子および/または少量の核酸分子を含む、実施形態94~98のいずれか1項に記載の複数のプライマー。
100. 前記低品質核酸分子が、劣化ゲノムDNAおよび/または断片化されたゲノムDNAである、実施形態99に記載の複数のプライマー。
101. 前記低品質核酸分子が、1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、185、190、195もしくは200の劣化指数(DI)、または少なくとも1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、185、190、195もしくは200の劣化指数(DI)を有する、実施形態99または実施形態100に記載の複数のプライマー。
102. 前記低品質核酸分子が、少なくとも1および最大158.3またはそれ未満のDIを有する、実施形態99~101のいずれか1項に記載の複数のプライマー。
103. 前記関心のある人からの前記核酸サンプルおよび/または1つまたはそれを超える参照サンプルからの前記核酸サンプルが、高品質の核酸分子を含む、実施形態94~102のいずれか1項に記載の複数のプライマー。
104. 前記高品質核酸分子が1未満のDIを有する、実施形態103に記載の複数のプライマー。
105. 前記関心のある人が行方不明者である、実施形態94~104のいずれか1項に記載の複数のプライマー。
106. 前記関心のある人が、災害または紛争の犠牲者である、実施形態94~104のいずれか1項に記載の複数のプライマー。
107. 前記関心のある人からの前記核酸サンプルが、唾液、血液もしくは他の体液で含浸された、または毛髪もしくは皮膚細胞を含む、頬側スワブ、紙、布地または他の基材または物体に由来する、実施形態94~106のいずれか1項に記載の複数のプライマー。
108. 前記関心のある人からの前記核酸サンプルが、3pg~100ngまたは約3pg~100ngのゲノムDNAを含む、実施形態94~107のいずれか1項に記載の複数のプライマー。
109. 前記関心のある人からの前記核酸サンプルが、100pg~5ngの間もしくは約100pg~5ngの間のゲノムDNA、50pg~5ngの間もしくは約50pg~5ngの間のゲノムDNA、または3pg~5ngの間もしくは約3pg~5ngの間のゲノムDNAを含む、実施形態94~108のいずれか1項に記載の複数のプライマー。
110. 前記関心のある人からの前記核酸サンプルが1ngまたは約1ngのゲノムDNAを含む、実施形態108または実施形態109に記載の複数のプライマー。
111. 前記複数のSNPが血縁関係SNP(kiSNP)を含む、実施形態94~110のいずれか1項に記載の複数のプライマー。
112. 前記複数のSNPがY染色体SNP(Y-SNP)を含む、実施形態94~111のいずれか1項に記載の複数のプライマー。
113. 前記複数のSNPが、kiSNPおよびY-SNPを含む、実施形態94~112のいずれか1項に記載の複数のプライマー。
114. 前記複数のSNPが、kiSNP、生物地理学的祖先SNP(aiSNP)、同一性SNP(iiSNP)、表現型SNP(piSNP)、X染色体SNP(X-SNP)およびY染色体SNP(Y-SNP)を含む、実施形態94~113のいずれか1項に記載の複数のプライマー。
115. 前記複数のSNPが、kiSNP、aiSNP、iiSNP、piSNP、X-SNPおよびY-SNPからなる群の1つまたはそれを超えるものから選択されるSNPを含む、実施形態94~111のいずれか1項に記載の複数のプライマー。
116. 前記複数のSNPの少なくとも80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%もしくは99%、または少なくとも約80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%もしくは99%が血縁関係SNPである、実施形態94~115のいずれか1項に記載の複数のプライマー。
117. 前記DNAプロファイルの参照セット内の前記DNAプロファイルの少なくとも90%、91%、92%、93%、94%、95%、96%、97%、98%、または99%が、行方不明者または災害もしくは紛争の犠牲者の血縁者からのものである、実施形態94~116のいずれか1項に記載の複数のプライマー。
118. 前記1つまたはそれを超える参照サンプルの各々が、行方不明者または災害もしくは紛争の犠牲者の血縁者からのものである、実施形態94~116のいずれか1項に記載の複数のプライマー。
119. 前記1つまたはそれを超える参照サンプルが、最大5、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175、200、300、400、500、600、700、800、900、または1000個の参照サンプルを含む、実施形態94~118のいずれか1項に記載の複数のプライマー。
120. 前記1つまたはそれを超える参照サンプルの少なくとも5%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、または95%が、前記関心のある人の血縁者からのものである、実施形態94~119のいずれか1項に記載の複数のプライマー。
121. 前記DNAプロファイルの参照セット内の前記参照DNAプロファイルの少なくとも5%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、または95%が前記関心のある人の血縁者からのものであり、前記DNAプロファイルの参照セット内の前記参照DNAプロファイルの前記少なくとも5%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、または95%の各々が、1親等、2親等、3親等、4親等、または5親等の血縁者である、実施形態94~120のいずれか1項に記載の複数のプライマー。
122. 前記1つまたはそれを超える参照サンプルの少なくとも50%が、前記関心のある人の血縁者からのものである、実施形態94~121のいずれか1項に記載の複数のプライマー。
123. 前記1つまたはそれを超える参照サンプル内の前記関心のある人の各血縁者が、それぞれ、前記関心のある人の1親等、2親等、3親等、4親等、または5親等の血縁者である、実施形態120~122のいずれか1項に記載の複数のプライマー。
124. 前記1つまたはそれを超える参照サンプル内の前記関心のある人の各血縁者が、それぞれ、前記関心のある人の1親等、2親等、または3親等の血縁者である、実施形態123に記載の複数のプライマー。
125. 前記1つまたはそれを超える参照サンプル内の前記関心のある人の各血縁者の同一性が既知である、実施形態94~124のいずれか1項に記載の複数のプライマー。
126. 前記1つまたはそれを超える参照サンプルの各々の同一性が既知である、実施形態94~125のいずれか1項に記載の複数のプライマー。
127. DNAプロファイルを構築するための方法であって、
関心のある人からの核酸サンプルを提供すること、
複数の少なくとも2,000~50,000個の間または約2,000~50,000個の間の一塩基多型(SNP)を集合的に含む複数の標的配列に特異的にハイブリダイズする複数のプライマーを用いて、前記核酸サンプルを増幅させ、それによって増幅産物を生成することであって、前記増幅を1つまたはそれを超えるマルチプレックスPCR反応で行うことと、
前記増幅産物を配列決定することと、
前記複数のSNPの遺伝子型を決定し、それによってDNAプロファイルを生成することと、
を含む方法。
128. DNAプロファイルを構築するための方法であって、
関心のある人からの核酸サンプルを提供すること、
前記関心のある人の血縁者からの核酸サンプルを提供することと、
複数の少なくとも2,000~50,000個の間または約2,000~50,000個の間の一塩基多型(SNP)を集合的に含む複数の標的配列に特異的にハイブリダイズする複数のプライマーを用いて、前記関心のある人からの前記核酸サンプルおよび前記血縁者からの前記核酸サンプルを増幅させ、それによって増幅産物を生成することであって、前記増幅を1つまたはそれを超えるマルチプレックスPCR反応で行うことと、
前記増幅産物を配列決定することと、
前記複数のSNPの遺伝子型を決定し、それによって、前記関心のある人および前記関心のある人の前記血縁者のDNAプロファイルを生成することと、
を含む方法。
129. 前記配列決定することが全ゲノム配列決定(WGS)を含まない、実施形態127または実施形態128に記載の方法。
130. 前記核酸サンプルがゲノムDNAを含む、実施形態127または実施形態129に記載の方法。
131. 前記関心のある人の前記核酸サンプルおよび/または前記関心のある人の前記血縁者の前記核酸サンプルが、ゲノムDNAを含む、実施形態128または実施形態129に記載の方法。
132. 前記核酸サンプル、前記関心のある人の前記核酸サンプルおよび/または前記血縁者の前記核酸サンプルが、1つまたはそれを超える酵素阻害剤を含む、実施形態127~131のいずれか1項に記載の方法。
133. 前記1つまたはそれを超える酵素阻害剤が、ヘマチン、ヘム、フミン酸、インディゴ、タンニン酸、コラーゲン、カルシウムおよびヒドロキシアパタイトからなる群から選択される1つまたはそれを超える阻害剤を含む、実施形態132に記載の方法。
134. 前記核酸サンプル、前記関心のある人の前記核酸サンプルおよび/または前記血縁者の前記核酸サンプルが、低品質の核酸分子および/または少量の核酸分子を含む、実施形態127~133のいずれか1項に記載の方法。
135. 前記低品質核酸分子が、劣化ゲノムDNAおよび/または断片化されたゲノムDNAである、実施形態134に記載の方法。
136. 前記低品質核酸分子が、1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、185、190、195もしくは200の劣化指数(DI)、または少なくとも1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、185、190、195もしくは200の劣化指数(DI)を有する、実施形態134または実施形態135に記載の方法。
137. 前記低品質核酸分子が、少なくとも1および最大158.3またはそれ未満のDIを有する、実施形態134~136のいずれか1項に記載の方法。
138. 前記核酸サンプル、前記関心のある人の前記核酸サンプルおよび/または前記血縁者の前記核酸サンプルが高品質核酸分子を含む、実施形態127~133のいずれか1項に記載の方法。
139. 前記高品質核酸分子が1未満のDIを有する、実施形態138に記載の方法。
140. 前記関心のある人が行方不明者である、実施形態127~139のいずれか1項に記載の方法。
141. 前記関心のある人が、災害または紛争の犠牲者である、実施形態127~139のいずれか1項に記載の方法。
142. 前記関心のある人の前記血縁者が、1親等、2親等、3親等、4親等、または5親等の血縁者である、実施形態128、129および131~141のいずれか1項に記載の方法。
143. 前記関心のある人の前記血縁者が、1親等、2親等、または3親等の血縁者である、実施形態128、129および131~141のいずれか1項に記載の方法。
144. 前記核酸サンプル、前記関心のある人の前記核酸サンプルおよび/または前記血縁者の前記核酸サンプルが、唾液、血液もしくは他の体液で含浸された、または毛髪もしくは皮膚細胞を含む、頬側スワブ、紙、布地または他の基材または物体に由来する、実施形態127~143のいずれか1項に記載の方法。
145. 前記核酸サンプル、前記関心のある人の前記核酸サンプルおよび/または前記血縁者の前記核酸サンプルが、3pg~100ngまたは約3pg~100ngのゲノムDNAを含む、実施形態127~144のいずれか1項に記載の方法。
146. 前記核酸サンプル、前記関心のある人の前記核酸サンプルおよび/または前記血縁者の前記核酸サンプルが、100pg~5ngの間もしくは約100pg~5ngの間のゲノムDNA、50pg~5ngの間もしくは約50pg~5ngの間のゲノムDNA、または3pg~5ngの間もしくは約3pg~5ngの間のゲノムDNAを含む、実施形態127~145のいずれか1項に記載の方法。
147. 前記核酸サンプル、前記関心のある人の前記核酸サンプルおよび/または前記血縁者の前記核酸サンプルが1ngまたは約1ngのゲノムDNAを含む、実施形態145または実施形態146に記載の方法。
148. 前記複数のSNPが血縁関係SNPを含む、実施形態127~147のいずれか1項に記載の方法。
149. 前記複数のSNPがY染色体SNP(Y-SNP)を含む、実施形態127~148のいずれか1項に記載の方法。
150. 前記複数のSNPが、kiSNPおよびY-SNPを含む、実施形態127~149のいずれか1項に記載の方法。
151. 前記複数のSNPが、kiSNP、生物地理学的祖先SNP(aiSNP)、同一性SNP(iiSNP)、表現型SNP(piSNP)、X染色体SNP(X-SNP)およびY染色体SNP(Y-SNP)を含む、実施形態127~150のいずれか1項に記載の方法。
152. 前記複数のSNPが、kiSNP、aiSNP、iiSNP、piSNP、X-SNPおよびY-SNPからなる群の1つまたはそれを超えるものから選択されるSNPを含む、実施形態127~151のいずれか1項に記載の方法。
153. 前記複数のSNPの少なくとも80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%もしくは99%、または少なくとも約80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%もしくは99%が血縁関係SNPである、実施形態127~152のいずれか1項に記載の方法。
154. 前記配列決定することが、最大40プレックスの配列決定プレキシティを含む、実施形態1~92および127~153のいずれか1項に記載の方法。
155. 前記配列決定することが、最大32プレックスの配列決定プレキシティを含む、実施形態1~92および127~153のいずれか1項に記載の方法。
156. 前記配列決定することが、12プレックス~32プレックスの配列決定プレキシティを含む、実施形態1~92および127~153のいずれか1項に記載の方法。
157. 前記配列決定することが、24プレックス~32プレックスの配列決定プレキシティを含む、実施形態1~92および127~153のいずれか1項に記載の方法。
158. (a)前記配列決定することが、4プレックス、5プレックス、6プレックス、7プレックス、8プレックス、9プレックス、10プレックス、11プレックス、12プレックス、13プレックス、14プレックス、15プレックス、16プレックス、17プレックス 18プレックス、19プレックス、20プレックス、21プレックス、22プレックス、23プレックス、24プレックス、25プレックス、26プレックス、27プレックス、28プレックス、29プレックス、30プレックス、31プレックス、32プレックス、33プレックス、34プレックス、35プレックス、36プレックス、37プレックス、38プレックス、39プレックス、40プレックス、41プレックス、42プレックス、43プレックス、44プレックスもしくは45プレックス、または約4プレックス、5プレックス、6プレックス、7プレックス、8プレックス、9プレックス、10プレックス、11プレックス、12プレックス、13プレックス、14プレックス、15プレックス、16プレックス、17プレックス 18プレックス、19プレックス、20プレックス、21プレックス、22プレックス、23プレックス、24プレックス、25プレックス、26プレックス、27プレックス、28プレックス、29プレックス、30プレックス、31プレックス、32プレックス、33プレックス、34プレックス、35プレックス、36プレックス、37プレックス、38プレックス、39プレックス、40プレックス、41プレックス、42プレックス、43プレックス、44プレックスもしくは45プレックスの配列決定プレキシティを含むか;または
(b)前記配列決定することが、10プレックス、11プレックス、12プレックス、13プレックス、14プレックス、15プレックス、16プレックス、17プレックス 18プレックス、19プレックス、20プレックス、21プレックス、22プレックス、23プレックス、24プレックス、25プレックス、26プレックス、27プレックス、28プレックス、29プレックス、30プレックス、31プレックス、32プレックス、33プレックス、34プレックスもしくは35プレックス、または約10プレックス、11プレックス、12プレックス、13プレックス、14プレックス、15プレックス、16プレックス、17プレックス 18プレックス、19プレックス、20プレックス、21プレックス、22プレックス、23プレックス、24プレックス、25プレックス、26プレックス、27プレックス、28プレックス、29プレックス、30プレックス、31プレックス、32プレックス、33プレックス、34プレックスもしくは35プレックスの配列決定プレキシティを含む、
実施形態1~92および127~153のいずれか1項に記載の方法。
159. 前記配列決定することが、死後サンプルについては8~16プレックスまたは約8~16プレックスの配列決定プレキシティを含み、および/または、前記配列決定することが、生前サンプルについては24~40プレックスまたは約24~40プレックスの配列決定プレキシティを含む、実施形態1~92および127~158のいずれか1項に記載の方法。
160. 前記配列決定することが、死後サンプルについては12プレックスまたは約12プレックスの配列決定プレキシティを含み、および/または、前記配列決定することが、生前サンプルについては32プレックスまたは約32プレックスの配列決定プレキシティを含む、実施形態1~92および127~158のいずれか1項に記載の方法。
161. 前記配列決定することが、30プレックス、31プレックスもしくは32プレックス、または約30プレックス、31プレックスもしくは32プレックスの配列決定プレキシティを含む、実施形態1~92および127~153のいずれか1項に記載の方法。
162. DNAプロファイルの遺伝的血縁者を身元確認する方法であって、
実施形態127~161のいずれか1項に記載のDNAプロファイルと1つまたはそれを超える参照DNAプロファイルとの関連度を計算することであって、前記1つまたはそれを超える参照DNAプロファイルが、前記関心のある人の血縁者からの1つまたはそれを超える参照DNAプロファイルを含むDNAプロファイルの参照セット内に含まれる、計算することと、
前記1つまたはそれを超える参照DNAプロファイルに関連して前記DNAプロファイルを含む家系図を生成することと、を含む方法。
163. 前記1つまたはそれを超える参照DNAプロファイルがデータベースの一部である、実施形態162に記載の方法。
164. 前記DNAプロファイルの参照セットが、最大5、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175、200、300、400、500、600、700、800、900、または1000個の参照DNAプロファイルを含む、実施形態162または実施形態163に記載の方法。
165. 前記DNAプロファイルの参照セット内の前記参照DNAプロファイルの少なくとも5%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、または95%が、前記関心のある人の血縁者からのものである、実施形態162~164のいずれか1項に記載の方法。
166. 前記DNAプロファイルの参照セット内の前記参照DNAプロファイルの少なくとも50%が、前記関心のある人の血縁者からのものである、実施形態162~165のいずれか1項に記載の方法。
167. 前記関心のある人の各血縁者が、それぞれ、前記関心のある人の1親等、2親等、3親等、4親等、または5親等の血縁者である、実施形態165または実施形態166に記載の方法。
168. 前記DNAプロファイルの参照セット内の前記関心のある人の各血縁者の同一性が既知である、実施形態162~167のいずれか1項に記載の方法。
169. 前記DNAプロファイルの参照セット内の前記1つまたはそれを超える参照DNAプロファイルの各々の同一性が既知である、実施形態162~168のいずれか1項に記載の方法。
170. 前記DNAプロファイルの参照セットがデータベース内にある、実施形態162~169のいずれか1項に記載の方法。
171. 前記データベースは公的にアクセス可能ではない、実施形態170に記載の方法。
172. 前記データベースが、第三者の系譜サービスによってアクセス可能でない、実施形態170または実施形態171に記載の方法。
173. DNAプロファイルの同一性を確認する方法であって、
少なくとも2,000~50,000個の間または約2,000~50,000個の間のSNPの遺伝子型を含むDNAプロファイルと1つまたはそれを超える参照DNAプロファイルとの関連度を計算することであって、前記DNAプロファイルが関心のある人からのものであり、前記1つまたはそれを超える参照DNAプロファイルが、前記関心のある人の血縁者からの1つまたはそれを超える参照DNAプロファイルを含むDNAプロファイルの参照セット内に含まれる、計算することと、
前記1つまたはそれを超える参照DNAプロファイルに関連して前記DNAプロファイルを含む家系図を生成することと、を含む方法。
174. 前記DNAプロファイルが、実施形態127~161のいずれか1項に記載の方法によって生成される、実施形態173に記載の方法。
175. 前記関連度が、血縁関係モデルを使用して計算される、実施形態173または実施形態174に記載の方法。
176. 前記関連度が、PCA法を使用して訓練される血縁関係モデルを使用して計算される、実施形態173~175のいずれか1項に記載の方法。
177. 前記血縁関係モデルを訓練するための前記PCA法が、PCAであるか、またはPCAを含む、実施形態176に記載の方法。
178. 前記PCA法がPC-AiRである、実施形態176または実施形態177に記載の方法。
179. 実施形態178に記載の方法であって、前記PC-AiRが、(1)訓練データベースの、必要に応じて訓練DNAプロファイルのサンプルの全ペア間の血縁係数を推定するステップであって、>0.025の血縁係数を有するペアリングは近縁であると確認され、<-0.025の血縁係数を有するペアリングは祖先分岐したものとして確認される、血縁係数を推定するステップと、(2)全てのサンプルを含む無関係なサンプルセットを初期化するステップと、(3)反復的に:(i)前記無関係なサンプルセット内の最も関連のあるサンプルを有する前記無関係なサンプルセット内のセットを特定し、それによってXと指定し、(ii)前記無関係なサンプルセット内のサンプルと比較して、最も少ない祖先分岐ペアリングを有するX内のサンプルのセットを特定し、それによってYと指定し、(iii)Yが0個のサンプルを有する場合、プロセスを終了するか、またはYが少なくとも1個のサンプルを有する場合、Yから1個のサンプルをランダムに選択してUから除去し、ステップ(3)(i)で開始して繰り返すステップと、を含む方法。
180. 前記PCA法が修正PC-Airである、実施形態176または実施形態177に記載の方法。
181. 実施形態180に記載の方法であって、前記修正PC-AiRが、(1)訓練データベースの、必要に応じて訓練DNAプロファイルのサンプルの全ペア間の血縁係数を推定するステップであって、>0.01の血縁係数を有するペアリングは近縁であると確認され、<-0.025の血縁係数を有するペアリングは祖先分岐したものとして確認される、血縁係数を推定するステップと、(2)≧5%の欠測データを有する全てのDNAプロファイルを除去するステップと、(3)各DNAプロファイルをランキング値で特定することによって全てのDNAプロファイルをランク付けするステップと、を含む方法。いくつかの実施形態では、ランキング値は、最小~最大にランク付けされた完全なデータベース内の関連するDNAプロファイルの数に基づいて決定され、最大~最小にランク付けされた完全なデータベース内の祖先分岐したDNAプロファイルの数によって関係が絶たれる。いくつかの実施形態では、ステップ(3)は、ランク付けされたDNAプロファイルを繰り返すこと、および各DNAプロファイルについて、(i)前記DNAプロファイルがまだ前記関連するサンプルセットにない場合、それを前記無関係なサンプルセットに追加し、全ての関連するDNAプロファイルを前記関連するサンプルセットに追加すること、および(ii)前記DNAプロファイルが既に前記関連するサンプルセットにある場合、次のDNAプロファイルにスキップし、ステップ(3)(i)で開始して繰り返すことを含む。
182. 前記関連度を前記計算することが、PC-Relateを使用して血縁係数を計算することを含む、実施形態173~181のいずれか1項に記載の方法。
183. 前記関連度が、前記関心のある人の前記DNAプロファイルをPC-Relateへの入力として提供することによって計算される、実施形態182に記載の方法。
184. 前記関連度が、前記血縁関係モデルおよび前記関心のある人の前記DNAプロファイルをPC-Relateへの入力として提供することによって計算される、実施形態182または実施形態183に記載の方法。
185. 前記1つまたはそれを超える参照DNAプロファイルが、PC-Relateへの入力としてさらに提供される、実施形態182~184のいずれか1項に記載の方法。
186. 前記関連度を前記計算することが、以下のように全ゲノム血縁関係アルゴリズムを使用して血縁係数を計算することを含み:
187. 前記関連度を前記計算することが、尤度比を計算することを含む、実施形態173~186のいずれか1項に記載の方法。
188. 前記尤度比を前記計算することが、前記DNAプロファイルと前記1つまたはそれを超える参照DNAプロファイルとの間で前記複数のSNPを比較することを含む、実施形態187に記載の方法。
189. 前記尤度比を前記計算することが、前記DNAプロファイルと前記1つまたはそれを超える参照DNAプロファイルとの間で前記複数のSNPの中からの血縁関係SNPを含むSNPのセットを比較することを含む、実施形態187に記載の方法。
190. 前記尤度比を計算することが、前記複数のSNPの前記遺伝子型に基づいて、前記DNAプロファイルおよび前記1つまたはそれを超える参照DNAプロファイルの中からの参照DNAプロファイルが関連している確率を、前記DNAプロファイルおよび前記参照DNAプロファイルが無関係である確率で割ることを含む、実施形態187~189のいずれか1項に記載の方法。
191. 前記尤度比(LR)が、以下のように計算され:
192. 前記LRが、以下のように計算され:
193. 前記関心のある人が生物学的に男性であり、前記方法が、前記DNAプロファイルと前記1つまたはそれを超える参照DNAプロファイルとの間でY染色体を共有する尤度比を計算することをさらに含む、実施形態173~192のいずれか1項に記載の方法。
194. Y染色体を共有する尤度比を前記計算することが、前記DNAプロファイルと前記1つまたはそれを超える参照DNAプロファイルとの間で、1つまたはそれを超えるY-SNPを含むSNPのセットを比較することを含む、実施形態193に記載の方法。
195. 前記1つまたはそれを超えるY-SNPが、前記複数のSNP内に含まれる、実施形態194に記載の方法。
196. 前記1つまたはそれを超えるY-SNPが、少なくとも20、25、30、35、40、45、50、55、60、65、70、75、80、81、82、83、84、または85個のY-SNPを含む、実施形態194または実施形態195に記載の方法。
197. 前記1つまたはそれを超えるY-SNPが85個のY-SNPを含む、実施形態194~196のいずれか1項に記載の方法。
198. Y染色体を共有する前記尤度比を計算することが、前記1つまたはそれを超えるY-SNPの前記遺伝子型に基づいて、前記DNAプロファイルおよび前記1つまたはそれを超える参照DNAプロファイルの中からの参照DNAプロファイルがY染色体を共有する確率を、前記DNAプロファイルおよび前記参照DNAプロファイルがY染色体を共有しない確率で割ることを含む、実施形態193~197のいずれか1項に記載の方法。
199. 前記DNAプロファイルの参照セット内の前記DNAプロファイルの少なくとも90%、91%、92%、93%、94%、95%、96%、97%、98%、または99%が、行方不明者または災害もしくは紛争の犠牲者の血縁者からのものである、実施形態173~198のいずれか1項に記載の方法。
200. 前記1つまたはそれを超える参照サンプルの各々が、行方不明者または災害もしくは紛争の犠牲者の血縁者からのものである、実施形態173~199のいずれか1項に記載の方法。
201. 前記1つまたはそれを超える参照サンプルが、最大5、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175、200、300、400、500、600、700、800、900、または1000個の参照DNAサンプルを含む、実施形態1~81のいずれか1項に記載の方法。
202. 前記1つまたはそれを超える参照サンプルの少なくとも5%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、または95%が、前記関心のある人の血縁者からのものである、実施形態173~201のいずれか1項に記載の方法。
203. 前記DNAプロファイルの参照セット内の前記参照DNAプロファイルの少なくとも5%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、または95%が、前記関心のある人の血縁者からのものであり、前記DNAプロファイルの参照セット内の前記参照DNAプロファイルの前記少なくとも5%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、または95%のそれぞれが、1親等、2親等、3親等、4親等、または5親等の血縁者である、実施形態173~202のいずれか1項に記載の方法。
204. 前記1つまたはそれを超える参照サンプル内の前記参照DNAプロファイルの少なくとも50%が、前記関心のある人の血縁者からのものである、実施形態173~203のいずれか1項に記載の方法。
205. 前記1つまたはそれを超える参照サンプル内の前記関心のある人の各血縁者が、それぞれ、前記関心のある人の1親等、2親等、3親等、4親等、または5親等の血縁者である、実施形態199~204のいずれか1項に記載の方法。
206. 前記1つまたはそれを超える参照サンプル内の前記関心のある人の各血縁者が、それぞれ、前記関心のある人の1親等、2親等、または3親等の血縁者である、実施形態205に記載の方法。
207. 前記1つまたはそれを超える参照サンプル内の前記関心のある人の各血縁者の同一性が既知である、実施形態173~206のいずれか1項に記載の方法。
208. 前記1つまたはそれを超える参照サンプルの各々の同一性が既知である、実施形態173~207のいずれか1項に記載の方法。
209. 少なくとも1つの容器手段を含むキットであって、前記少なくとも1つの
容器手段が、実施形態94~126のいずれか1項に記載の複数のプライマーを含む、キット。
210. 前記複数のSNPが、2,000~11,000個の間のSNP、3,000~11,000個の間のSNP、4,000~11,000個の間のSNP、5,000~11,000個の間のSNP、5,500~11,000個の間のSNP、6,000~11,000個の間のSNP、7,000~15,000個の間のSNP、7,000~14,000個の間のSNP、7,000~13,000個の間のSNP、7,000~12,000個の間のSNP、7,000~11,000個の間のSNP、8,000~15,000個の間のSNP、8,000~14,000個の間のSNP、8,000~13,000個の間のSNP、8,000~12,000個の間のSNP、8,000~11,000個の間のSNP、9,000~15,000個の間のSNP、9,000~14,000個の間のSNP、9,000~13,000個の間のSNP、9,000~12,000個の間のSNPもしくは9,000~11,000個の間のSNP、または約2,000~11,000個の間のSNP、3,000~11,000個の間のSNP、4,000~11,000個の間のSNP、5,000~11,000個の間のSNP、5,500~11,000個の間のSNP、6,000~11,000個の間のSNP、7,000~15,000個の間のSNP、7,000~14,000個の間のSNP、7,000~13,000個の間のSNP、7,000~12,000個の間のSNP、7,000~11,000個の間のSNP、8,000~15,000個の間のSNP、8,000~14,000個の間のSNP、8,000~13,000個の間のSNP、8,000~12,000個の間のSNP、8,000~11,000個の間のSNP、9,000~15,000個の間のSNP、9,000~14,000個の間のSNP、9,000~13,000個の間のSNP、9,000~12,000個の間のSNPもしくは9,000~11,000個の間のSNPを含む、実施形態1~92および127~208のいずれか1項に記載の方法。
211. 前記複数のSNPが、10,230個のSNPを含む、実施形態1~92および127~208のいずれか1項に記載の方法。
212. 前記複数のSNPが、2,000~11,000個の間のSNP、3,000~11,000個の間のSNP、4,000~11,000個の間のSNP、5,000~11,000個の間のSNP、5,500~11,000個の間のSNP、6,000~11,000個の間のSNP、7,000~15,000個の間のSNP、7,000~14,000個の間のSNP、7,000~13,000個の間のSNP、7,000~12,000個の間のSNP、7,000~11,000個の間のSNP、8,000~15,000個の間のSNP、8,000~14,000個の間のSNP、8,000~13,000個の間のSNP、8,000~12,000個の間のSNP、8,000~11,000個の間のSNP、9,000~15,000個の間のSNP、9,000~14,000個の間のSNP、9,000~13,000個の間のSNP、9,000~12,000個の間のSNPもしくは9,000~11,000個の間のSNP、または約2,000~11,000個の間のSNP、3,000~11,000個の間のSNP、4,000~11,000個の間のSNP、5,000~11,000個の間のSNP、5,500~11,000個の間のSNP、6,000~11,000個の間のSNP、7,000~15,000個の間のSNP、7,000~14,000個の間のSNP、7,000~13,000個の間のSNP、7,000~12,000個の間のSNP、7,000~11,000個の間のSNP、8,000~15,000個の間のSNP、8,000~14,000個の間のSNP、8,000~13,000個の間のSNP、8,000~12,000個の間のSNP、8,000~11,000個の間のSNP、9,000~15,000個の間のSNP、9,000~14,000個の間のSNP、9,000~13,000個の間のSNP、9,000~12,000個の間のSNPもしくは9,000~11,000個の間のSNPを含む、実施形態94~126のいずれか1項に記載の複数のプライマー。
213. 前記複数のSNPが、10,230個のSNPを含む、実施形態94~126のいずれか1項に記載の複数のプライマー。
214. 前記DNAプロファイルの参照セット内に含まれる1つまたはそれを超えるDNAプロファイルに関連して前記DNAプロファイルを含む家系図を生成することをさらに含む、実施形態1~5、11~93、127~161、および210~213のいずれか1項に記載の方法。
215. 前記家系図が、前記関心のある人の血縁者からの1つまたはそれを超えるDNAプロファイルに関連して前記DNAプロファイルを含む、実施形態214に記載の方法。
Among the exemplary embodiments provided herein are the following:
1. A method for performing DNA-based kinship analysis, comprising:
providing a nucleic acid sample from the person of interest;
amplifying the nucleic acid sample with a plurality of primers that specifically hybridize to a plurality of target sequences that collectively comprise a plurality of between at least or about 2,000 and 50,000 single nucleotide polymorphisms (SNPs), thereby generating amplification products, wherein the amplification is performed in one or more multiplex PCR reactions;
generating a nucleic acid library from the amplification products;
sequencing the nucleic acid library generated from the amplification products;
analyzing the sequence of the amplification product;
genotyping the plurality of SNPs, thereby generating a DNA profile; and
calculating a degree of relatedness between said DNA profile and one or more reference DNA profiles, said one or more reference DNA profiles being included in a reference set of DNA profiles comprising one or more reference DNA profiles from blood relatives of said person of interest;
A method comprising:
2. A method for performing DNA-based kinship analysis, comprising:
providing a nucleic acid sample from the person of interest;
amplifying the nucleic acid sample with a plurality of primers that specifically hybridize to a plurality of target sequences that collectively comprise a plurality of between at least or about 2,000 and 50,000 single nucleotide polymorphisms (SNPs), thereby generating amplification products, wherein the amplification is performed in one or more multiplex PCR reactions;
generating a nucleic acid library from the amplification products;
sequencing the nucleic acid library generated from the amplification products;
genotyping the plurality of SNPs, thereby generating a DNA profile; and
calculating a degree of relatedness between said DNA profile and one or more reference DNA profiles, said one or more reference DNA profiles being included in a reference set of DNA profiles comprising one or more reference DNA profiles from blood relatives of said person of interest;
A method comprising:
3. The method of embodiment 1 or embodiment 2, wherein the sequencing is performed using massively parallel sequencing (MPS).
4. The method of any one of embodiments 1 to 3, wherein said sequencing does not include whole genome sequencing (WGS).
5. The method of any one of embodiments 1-4, further comprising generating a pedigree tree comprising said DNA profile associated with one or more DNA profiles.
6. A method for constructing a nucleic acid library for a person of interest, comprising:
providing a nucleic acid sample from the person of interest;
amplifying the nucleic acid sample with a plurality of primers that specifically hybridize to a plurality of target sequences that collectively comprise a plurality of between at least or about 2,000 and 50,000 single nucleotide polymorphisms (SNPs), thereby generating a nucleic acid library comprising amplified products, wherein the amplification is performed in one or more multiplex PCR reactions;
A method comprising:
7. The method of embodiment 6, further comprising sequencing the amplification products to produce a DNA profile of the person of interest.
8. A method for constructing a nucleic acid library for a reference DNA sample, comprising:
providing nucleic acid samples from relatives of the person of interest;
amplifying the nucleic acid sample with a plurality of primers that specifically hybridize to a plurality of target sequences that collectively comprise a plurality of between at least or about 2,000 and 50,000 single nucleotide polymorphisms (SNPs), thereby generating a nucleic acid library comprising amplified products, wherein the amplification is performed in one or more multiplex PCR reactions;
A method comprising:
9. The method of embodiment 8, wherein the relative is a first-, second-, third-, fourth-, or fifth-degree relative of the person of interest.
10. The method of embodiment 8 or embodiment 9, wherein the relative is a first-, second-, or third-degree relative of the person of interest.
11. The method of any one of embodiments 1 to 10, wherein the nucleic acid sample comprises genomic DNA.
12. The method of any one of embodiments 1 to 11, wherein the nucleic acid sample comprises one or more enzyme inhibitors.
13. The method of embodiment 12, wherein the one or more enzyme inhibitors comprise one or more inhibitors selected from the group consisting of hematin, heme, humic acid, indigo, tannic acid, collagen, calcium, and hydroxyapatite.
14. The method of any one of embodiments 1 to 13, wherein the nucleic acid sample comprises low quality and/or low abundance nucleic acid molecules.
15. The method of embodiment 14, wherein the low-quality nucleic acid molecules are degraded and/or fragmented genomic DNA.
16. The low quality nucleic acid molecules have a degradation index (DI) of 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 105, 110, 115, 120, 125, 130, 135, 140, 145, 150, 155, 160, 165, 170, 175, 180, 185, 190, 195, or 200, or at least ...20, 25, 20, 25, 20, 25, 20, 25, 2 , 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 105, 110, 115, 120, 125, 130, 135, 140, 145, 150, 155, 160, 165, 170, 175, 180, 185, 190, 195 or 200.
17. The method of embodiment 14 or embodiment 15, wherein the low-quality nucleic acid molecules have a DI of at least 1 and at most 158.3 or less.
18. The method of any one of embodiments 1 to 13, wherein the nucleic acid sample comprises high quality nucleic acid molecules.
19. The method of embodiment 18, wherein the high-quality nucleic acid molecules have a DI of less than 1.
20. The method of any one of embodiments 1-19, wherein the person of interest is a missing person.
21. The method of any one of embodiments 1-19, wherein the person of interest is a victim of a disaster or conflict.
22. The method of any one of embodiments 1 to 21, wherein the nucleic acid sample is derived from saliva, blood, semen, hair, teeth, bone, or skin.
23. The method of embodiment 22, wherein the nucleic acid sample is derived from saliva, blood, or semen.
24. The method of embodiment 22, wherein the nucleic acid sample is derived from bone or hair.
25. The method of any one of embodiments 1-21, wherein the nucleic acid sample is derived from a buccal swab, paper, fabric, or other substrate or object impregnated with saliva, blood, semen, or other bodily fluid.
26. The method of any one of embodiments 1 to 25, wherein the nucleic acid sample comprises between 3 pg and 100 ng of genomic DNA or between about 3 pg and 100 ng.
27. The method of any one of embodiments 1-26, wherein the nucleic acid sample comprises between or about 100 pg and 5 ng of genomic DNA, between or about 50 pg and 5 ng of genomic DNA, or between or about 3 pg and 5 ng of genomic DNA.
28. The method of embodiment 26 or embodiment 27, wherein the nucleic acid sample comprises 1 ng or about 1 ng of genomic DNA.
29. The method of any one of embodiments 1-28, wherein the plurality of SNPs comprises kinship SNPs (kiSNPs).
30. The method of any one of embodiments 1-29, wherein said plurality of SNPs comprises Y chromosome SNPs (Y-SNPs).
31. The method of any one of embodiments 1 to 30, wherein the plurality of SNPs comprises kiSNPs and Y-SNPs.
32. The method of any one of embodiments 1-31, wherein the plurality of SNPs comprises kiSNPs, biogeographic ancestry SNPs (aiSNPs), identity SNPs (iiSNPs), phenotypic SNPs (piSNPs), X chromosome SNPs (X-SNPs), and Y chromosome SNPs (Y-SNPs).
33. The method of any one of embodiments 1-28, wherein said plurality of SNPs comprises SNPs selected from one or more of the group consisting of kiSNPs, aiSNPs, iiSNPs, piSNPs, X-SNPs, and Y-SNPs.
34. The method of any one of embodiments 1-33, wherein at least or at least about 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, or 99% of said plurality of SNPs are related SNPs.
35. The method of any one of embodiments 1-34, wherein said reference set of DNA profiles comprises up to 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 125, 150, 175, 200, 300, 400, 500, 600, 700, 800, 900, or 1000 reference DNA profiles.
36. The method of any one of embodiments 1-35, wherein at least 5%, 10%, 15%, 20%, 25%, 30%, 35%, 40%, 45%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, or 95% of the reference DNA profiles in the reference set of DNA profiles are from relatives of the person of interest.
37. The method of any one of embodiments 1-36, wherein at least 5%, 10%, 15%, 20%, 25%, 30%, 35%, 40%, 45%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, or 95% of the reference DNA profiles in the reference set of DNA profiles are from relatives of the person of interest, and wherein each of the at least 5%, 10%, 15%, 20%, 25%, 30%, 35%, 40%, 45%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, or 95% of the reference DNA profiles in the reference set of DNA profiles are first-, second-, third-, fourth-, or fifth-degree relatives.
38. The method of any one of embodiments 1-37, wherein at least 50% of the reference DNA profiles in the reference set of DNA profiles are from relatives of the person of interest.
39. The method of any one of embodiments 36-38, wherein each relative of the person of interest in the reference set of DNA profiles is a first-, second-, third-, fourth-, or fifth-degree relative of the person of interest, respectively.
40. The method of embodiment 39, wherein each relative of the person of interest in the reference set of DNA profiles is a first-degree, second-degree, or third-degree relative of the person of interest, respectively.
41. The method of any one of embodiments 1-40, wherein the identity of each relative of the person of interest in the reference set of DNA profiles is known.
42. The method of any one of embodiments 1-41, wherein the identity of each of the one or more reference DNA profiles in the reference set of DNA profiles is known.
43. The method of any one of embodiments 1 to 42, wherein the reference set of DNA profiles is in a database.
44. The method of embodiment 43, wherein the database is not publicly accessible.
45. The method of any one of embodiments 1-44, wherein said sequencing comprises a sequencing complexity of up to 40-plex.
46. The method of any one of embodiments 1-44, wherein said sequencing comprises a sequencing complexity of up to 32-plex.
47. The method of any one of embodiments 1 to 44, wherein said sequencing comprises a sequencing complexity of 12-plex to 32-plex.
48. The method of any one of embodiments 1 to 44, wherein said sequencing comprises a sequencing complexity of 24-plex to 32-plex.
49. The sequencing is performed at or about 10-plex, 11-plex, 12-plex, 13-plex, 14-plex, 15-plex, 16-plex, 17-plex, 18-plex, 19-plex, 20-plex, 21-plex, 22-plex, 23-plex, 24-plex, 25-plex, 26-plex, 27-plex, 28-plex, 29-plex, 30-plex, 31-plex, 32-plex, 33-plex, 34-plex, or 35-plex. 45. The method of any one of embodiments 1 to 44, comprising a sequencing complexity of 18-plex, 19-plex, 20-plex, 21-plex, 22-plex, 23-plex, 24-plex, 25-plex, 26-plex, 27-plex, 28-plex, 29-plex, 30-plex, 31-plex, 32-plex, 33-plex, 34-plex, or 35-plex.
50. The method of any one of embodiments 1-49, wherein said sequencing comprises a sequencing complexity of at or about 8-16 plex for post-mortem samples, and/or said sequencing comprises a sequencing complexity of at or about 24-40 plex for ante-mortem samples.
51. The method of any one of embodiments 1-50, wherein said sequencing comprises a sequencing complexity of at or about 12-plex for post-mortem samples, and/or said sequencing comprises a sequencing complexity of at or about 32-plex for ante-mortem samples.
52. The method of any one of embodiments 1-51, wherein said sequencing comprises a sequencing complexity of, or about, 30-plex, 31-plex, or 32-plex.
53. The method of any one of embodiments 1-52, further comprising identifying the person of interest.
54. A method for calculating relatedness, comprising:
obtaining a DNA profile comprising genotypes of at least between or about 2,000 and 50,000 SNPs, wherein the DNA profile is from a person of interest;
and calculating a degree of relatedness between the DNA profile and one or more reference DNA profiles, wherein the one or more reference DNA profiles are included in a reference set of DNA profiles that includes one or more reference DNA profiles from blood relatives of the person of interest.
55. A method for calculating relatedness, comprising:
generating a DNA profile comprising genotypes of at least or between about 2,000 and 50,000 SNPs, wherein the DNA profile is from a person of interest;
and calculating a degree of relatedness between the DNA profile and one or more reference DNA profiles, wherein the one or more reference DNA profiles are included in a reference set of DNA profiles that includes one or more reference DNA profiles from blood relatives of the person of interest.
56. The method of any one of embodiments 1-55, wherein the relatedness is calculated using a kinship model.
57. The method of any one of embodiments 1-56, wherein the relatedness is calculated using a kinship model trained using a PCA method.
58. The method of embodiment 57, wherein the PCA method for training the kinship model is or comprises PCA.
59. The method of embodiment 57 or embodiment 58, wherein the PCA method is PC-AiR.
60. The method of embodiment 59, wherein the PC-AiR comprises: (1) estimating relatedness coefficients between all pairs of samples in a training database, and optionally in a training DNA profile, wherein pairings with a relatedness coefficient >0.025 are identified as closely related and pairings with a relatedness coefficient <-0.025 are identified as ancestrally diverged; (2) initializing an unrelated sample set containing all samples; and (3) iteratively: (i) identifying a set in the unrelated sample set that has the most related samples in the unrelated sample set, thereby designating it as X; (ii) identifying a set of samples in X that has the fewest ancestrally diverged pairings compared to samples in the unrelated sample set, thereby designating it as Y; and (iii) terminating the process if Y has 0 samples, or randomly selecting one sample from Y and removing it from U if Y has at least one sample, and repeating beginning with step (3)(i).
61. The method of embodiment 57 or embodiment 58, wherein the PCA method is modified PC-Air.
62. The method of embodiment 61, wherein the modified PC-AiR comprises: (1) estimating relatedness coefficients between all pairs of samples, optionally training DNA profiles, in a training database, where pairings with a relatedness coefficient >0.01 are identified as closely related and pairings with a relatedness coefficient <-0.025 are identified as ancestrally diverged; (2) removing all DNA profiles with ≥5% missing data; and (3) ranking all DNA profiles by assigning each DNA profile a ranking value. In some embodiments, the ranking value is determined based on the number of related DNA profiles in the complete database ranked from smallest to largest, broken down by the number of ancestrally diverged DNA profiles in the complete database ranked from largest to smallest. In some embodiments, step (3) includes iterating through the ranked DNA profiles, and for each DNA profile, (i) if the DNA profile is not already in the relevant sample set, adding it to the unrelated sample set and adding all relevant DNA profiles to the relevant sample set, and (ii) if the DNA profile is already in the relevant sample set, skipping to the next DNA profile and repeating starting with step (3)(i).
63. The method of any one of embodiments 1-62, wherein said calculating said degree of relatedness comprises calculating a coefficient of relatedness using PC-Relate.
64. The method of embodiment 63, wherein the relatedness is calculated by providing the DNA profile of the person of interest as input to PC-Relate.
65. The method of any one of embodiments 57-64, wherein said relatedness is calculated by providing said kinship model and said DNA profile of said person of interest as input to PC-Relate.
66. The method of any one of embodiments 63-65, wherein said one or more reference DNA profiles are further provided as input to PC-Relate.
67. The calculating the degree of relatedness includes calculating the coefficient of relatedness using a whole-genome kinship algorithm as follows:
68. The method of any one of embodiments 1-67, wherein said calculating said relevance comprises calculating a likelihood ratio.
69. The method of embodiment 68, wherein said calculating said likelihood ratio comprises comparing said plurality of SNPs between said DNA profile and said one or more reference DNA profiles.
70. The method of embodiment 68, wherein said calculating said likelihood ratio comprises comparing a set of SNPs comprising kinship SNPs from among said plurality of SNPs between said DNA profile and said one or more reference DNA profiles.
71. The method of any one of embodiments 68-70, wherein calculating said likelihood ratio comprises dividing the probability that said DNA profile and a reference DNA profile from among said one or more reference DNA profiles are related by the probability that said DNA profile and said reference DNA profile are unrelated, based on the genotypes of said plurality of SNPs.
72. The likelihood ratio (LR) is calculated as follows:
73. The LR is calculated as follows:
74. The method of any one of embodiments 1-73, wherein the person of interest is biologically male, and the method further comprises calculating a likelihood ratio of sharing a Y chromosome between the DNA profile and the one or more reference DNA profiles.
75. The method of embodiment 74, wherein said calculating a likelihood ratio of sharing a Y chromosome comprises comparing a set of SNPs comprising one or more Y-SNPs between said DNA profile and said one or more reference DNA profiles.
76. The method of embodiment 75, wherein the one or more Y-SNPs are included within the plurality of SNPs.
77. The method of embodiment 75, wherein said one or more Y-SNPs comprise at least 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 81, 82, 83, 84, or 85 Y-SNPs.
78. The method of any one of embodiments 75-77, wherein said one or more Y-SNPs comprise 85 Y-SNPs.
79. The method of any one of embodiments 75-78, wherein calculating the likelihood ratio of sharing a Y chromosome comprises dividing the probability that the DNA profile and a reference DNA profile from among the one or more reference DNA profiles share a Y chromosome by the probability that the DNA profile and the reference DNA profile do not share a Y chromosome, based on the genotypes of the one or more Y-SNPs.
80. The method of any one of embodiments 1-79, wherein at least 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, or 99% of the DNA profiles in the reference set of DNA profiles are from relatives of missing persons or victims of disasters or conflicts.
81. The method of any one of embodiments 1-80, wherein each of the DNA profiles in the reference set of DNA profiles is from a relative of a missing person or a victim of a disaster or conflict.
82. The method of any one of embodiments 1-81, wherein said reference set of DNA profiles comprises up to 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 125, 150, 175, 200, 300, 400, 500, 600, 700, 800, 900, or 1000 reference DNA profiles.
83. The method of any one of embodiments 1 to 82, wherein said reference set of DNA profiles comprises up to 100 reference DNA profiles.
84. The method of any one of embodiments 1-83, wherein at least 5%, 10%, 15%, 20%, 25%, 30%, 35%, 40%, 45%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, or 95% of the reference DNA profiles in the reference set of DNA profiles are from relatives of the person of interest.
85. The method of any one of embodiments 1-84, wherein at least 50% of the reference DNA profiles in the reference set of DNA profiles are from relatives of the person of interest.
86. The method of embodiment 84 or embodiment 85, wherein each relative of the person of interest in the reference set of DNA profiles is a first-degree, second-degree, third-degree, fourth-degree, or fifth-degree relative of the person of interest, respectively.
87. The method of any one of embodiments 1-86, wherein the identity of each relative of the person of interest in the reference set of DNA profiles is known.
88. The method of any one of embodiments 1-87, wherein the identity of each relative of the person of interest in the reference set of DNA profiles is known.
89. The method of any one of embodiments 1-88, wherein the identity of each of the one or more reference DNA profiles in the reference set of DNA profiles is known.
90. The method of any one of embodiments 1-89, wherein the reference set of DNA profiles is in a database.
91. The method of embodiment 90, wherein the database is not publicly accessible.
92. The method of embodiment 90 or embodiment 91, wherein the database is not accessible by a third-party genealogy service.
93. A nucleic acid library constructed using the method of any one of embodiments 6 to 92.
94. A plurality of primers that specifically hybridize to a plurality of target sequences comprising at least or about 2,000-50,000 single nucleotide polymorphisms (SNPs) in a nucleic acid sample from a person of interest, wherein amplification of the nucleic acid sample using the plurality of primers in one or more multiplex PCR reactions results in amplification products.
95. A plurality of primers that specifically hybridize to a plurality of target sequences comprising between at least or between about 2,000 and 50,000 single nucleotide polymorphisms (SNPs) in a nucleic acid sample from a person of interest and one or more reference samples,
the one or more reference samples comprise samples from relatives of the person of interest;
A plurality of primers, wherein amplifying said nucleic acid sample from said person of interest and said nucleic acid sample from one or more reference samples using said plurality of primers in one or more multiplex PCR reactions results in amplification products.
96. The plurality of primers of embodiment 94 or embodiment 95, wherein the nucleic acid sample from the person of interest comprises genomic DNA.
97. The plurality of primers of any one of embodiments 94-96, wherein the nucleic acid sample from the person of interest comprises one or more enzyme inhibitors.
98. The plurality of primers of embodiment 97, wherein the one or more enzyme inhibitors comprise one or more inhibitors selected from the group consisting of hematin, heme, humic acid, indigo, tannic acid, collagen, calcium, and hydroxyapatite.
99. The plurality of primers of any one of embodiments 94-98, wherein the nucleic acid sample from the person of interest comprises low quality and/or low abundance nucleic acid molecules.
100. The plurality of primers of embodiment 99, wherein the low-quality nucleic acid molecules are degraded and/or fragmented genomic DNA.
101. The low quality nucleic acid molecules have a degradation index (DI) of 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 105, 110, 115, 120, 125, 130, 135, 140, 145, 150, 155, 160, 165, 170, 175, 180, 185, 190, 195, or 200, or at least 1, 2, 3, 4 , 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 105, 110, 115, 120, 125, 130, 135, 140, 145, 150, 155, 160, 165, 170, 175, 180, 185, 190, 195 or 200.
102. The plurality of primers of any one of embodiments 99-101, wherein said low quality nucleic acid molecules have a DI of at least 1 and at most 158.3 or less.
103. The plurality of primers of any one of embodiments 94-102, wherein the nucleic acid sample from the person of interest and/or the nucleic acid sample from one or more reference samples comprises high quality nucleic acid molecules.
104. The plurality of primers of embodiment 103, wherein the high-quality nucleic acid molecules have a DI of less than 1.
105. The plurality of primers of any one of embodiments 94-104, wherein the person of interest is a missing person.
106. The plurality of primers of any one of embodiments 94-104, wherein the person of interest is a victim of a disaster or conflict.
107. The plurality of primers of any one of embodiments 94-106, wherein the nucleic acid sample from the person of interest is derived from a buccal swab, paper, fabric, or other substrate or object impregnated with saliva, blood, or other bodily fluid, or containing hair or skin cells.
108. The plurality of primers of any one of embodiments 94-107, wherein the nucleic acid sample from the person of interest comprises at or about 3 pg to 100 ng of genomic DNA.
109. The plurality of primers of any one of embodiments 94-108, wherein the nucleic acid sample from the person of interest comprises between or about 100 pg and 5 ng of genomic DNA, between or about 50 pg and 5 ng of genomic DNA, or between or about 3 pg and 5 ng of genomic DNA.
110. The plurality of primers of embodiment 108 or embodiment 109, wherein the nucleic acid sample from the person of interest comprises 1 ng or about 1 ng of genomic DNA.
111. The plurality of primers of any one of embodiments 94-110, wherein the plurality of SNPs comprises kinship SNPs (kiSNPs).
112. The plurality of primers of any one of embodiments 94-111, wherein the plurality of SNPs comprises Y chromosome SNPs (Y-SNPs).
113. The plurality of primers of any one of embodiments 94-112, wherein the plurality of SNPs comprises kiSNPs and Y-SNPs.
114. The plurality of primers of any one of embodiments 94-113, wherein the plurality of SNPs comprises kiSNPs, biogeographic ancestry SNPs (aiSNPs), identity SNPs (iiSNPs), phenotypic SNPs (piSNPs), X chromosome SNPs (X-SNPs), and Y chromosome SNPs (Y-SNPs).
115. The plurality of primers of any one of embodiments 94-111, wherein said plurality of SNPs comprises SNPs selected from one or more of the group consisting of kiSNPs, aiSNPs, iiSNPs, piSNPs, X-SNPs, and Y-SNPs.
116. The plurality of primers of any one of embodiments 94-115, wherein at least or at least about 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, or 99% of the SNPs of said plurality are related SNPs.
117. The plurality of primers of any one of embodiments 94-116, wherein at least 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, or 99% of the DNA profiles in the reference set of DNA profiles are from relatives of missing persons or victims of disaster or conflict.
118. The plurality of primers according to any one of embodiments 94-116, wherein each of the one or more reference samples is from a relative of a missing person or a victim of a disaster or conflict.
119. The plurality of primers of any one of embodiments 94-118, wherein the one or more reference samples comprise up to 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 125, 150, 175, 200, 300, 400, 500, 600, 700, 800, 900, or 1000 reference samples.
120. The plurality of primers of any one of embodiments 94-119, wherein at least 5%, 10%, 15%, 20%, 25%, 30%, 35%, 40%, 45%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, or 95% of the one or more reference samples are from relatives of the person of interest.
121. The plurality of primers of any one of embodiments 94-120, wherein at least 5%, 10%, 15%, 20%, 25%, 30%, 35%, 40%, 45%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, or 95% of the reference DNA profiles in the reference set of DNA profiles are from relatives of the person of interest, and wherein each of the at least 5%, 10%, 15%, 20%, 25%, 30%, 35%, 40%, 45%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, or 95% of the reference DNA profiles in the reference set of DNA profiles are first-, second-, third-, fourth-, or fifth-degree relatives.
122. The plurality of primers according to any one of embodiments 94 to 121, wherein at least 50% of the one or more reference samples are from relatives of the person of interest.
123. The plurality of primers of any one of embodiments 120-122, wherein each relative of the person of interest in the one or more reference samples is a first-, second-, third-, fourth-, or fifth-degree relative of the person of interest, respectively.
124. The plurality of primers of embodiment 123, wherein each relative of the person of interest in the one or more reference samples is a first-degree, second-degree, or third-degree relative of the person of interest, respectively.
125. The plurality of primers of any one of embodiments 94-124, wherein the identity of each relative of the person of interest in the one or more reference samples is known.
126. The plurality of primers of any one of embodiments 94-125, wherein the identity of each of the one or more reference samples is known.
127. A method for constructing a DNA profile, comprising:
providing a nucleic acid sample from the person of interest;
amplifying the nucleic acid sample using a plurality of primers that specifically hybridize to a plurality of target sequences that collectively comprise a plurality of between at least or about 2,000 and 50,000 single nucleotide polymorphisms (SNPs), thereby generating amplification products, wherein the amplification is performed in one or more multiplex PCR reactions;
sequencing the amplification products;
genotyping the plurality of SNPs, thereby generating a DNA profile; and
A method comprising:
128. A method for constructing a DNA profile, comprising:
providing a nucleic acid sample from the person of interest;
providing a nucleic acid sample from a relative of the person of interest;
amplifying the nucleic acid sample from the person of interest and the nucleic acid sample from the relatives using a plurality of primers that specifically hybridize to a plurality of target sequences that collectively comprise a plurality of at least or between about 2,000 and 50,000 single nucleotide polymorphisms (SNPs), thereby generating amplification products, wherein the amplification is performed in one or more multiplex PCR reactions;
sequencing the amplification products;
genotyping the plurality of SNPs, thereby generating a DNA profile for the person of interest and the relatives of the person of interest;
A method comprising:
129. The method of embodiment 127 or embodiment 128, wherein said sequencing does not include whole genome sequencing (WGS).
130. The method of embodiment 127 or embodiment 129, wherein the nucleic acid sample comprises genomic DNA.
131. The method of embodiment 128 or embodiment 129, wherein the nucleic acid sample of the person of interest and/or the nucleic acid sample of the relative of the person of interest comprises genomic DNA.
132. The method of any one of embodiments 127-131, wherein the nucleic acid sample, the nucleic acid sample of the person of interest and/or the nucleic acid sample of the relative comprises one or more enzyme inhibitors.
133. The method of embodiment 132, wherein the one or more enzyme inhibitors comprise one or more inhibitors selected from the group consisting of hematin, heme, humic acid, indigo, tannic acid, collagen, calcium, and hydroxyapatite.
134. The method of any one of embodiments 127 to 133, wherein the nucleic acid sample, the nucleic acid sample of the person of interest and/or the nucleic acid sample of the relative comprises low quality and/or low abundance nucleic acid molecules.
135. The method of embodiment 134, wherein the low-quality nucleic acid molecules are degraded and/or fragmented genomic DNA.
136. The low-quality nucleic acid molecules have a degradation index (DI) of 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 105, 110, 115, 120, 125, 130, 135, 140, 145, 150, 155, 160, 165, 170, 175, 180, 185, 190, 195, or 200, or at least 1, 2, 136. The method of embodiment 134 or embodiment 135, having a Deterioration Index (DI) of 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 105, 110, 115, 120, 125, 130, 135, 140, 145, 150, 155, 160, 165, 170, 175, 180, 185, 190, 195 or 200.
137. The method of any one of embodiments 134-136, wherein said low quality nucleic acid molecules have a DI of at least 1 and at most 158.3 or less.
138. The method of any one of embodiments 127-133, wherein said nucleic acid sample, said nucleic acid sample of said person of interest and/or said nucleic acid sample of said relative comprises high quality nucleic acid molecules.
139. The method of embodiment 138, wherein the high-quality nucleic acid molecules have a DI of less than 1.
140. The method of any one of embodiments 127-139, wherein the person of interest is a missing person.
141. The method of any one of embodiments 127-139, wherein the person of interest is a victim of a disaster or conflict.
142. The method of any one of embodiments 128, 129, and 131-141, wherein said relative of said person of interest is a first-, second-, third-, fourth-, or fifth-degree relative.
143. The method of any one of embodiments 128, 129, and 131-141, wherein the relative of the person of interest is a first-, second-, or third-degree relative.
144. The method of any one of embodiments 127-143, wherein the nucleic acid sample, the nucleic acid sample of the person of interest and/or the nucleic acid sample of the relative is derived from a buccal swab, paper, fabric or other substrate or object impregnated with saliva, blood or other bodily fluid, or containing hair or skin cells.
145. The method of any one of embodiments 127-144, wherein said nucleic acid sample, said nucleic acid sample of said person of interest and/or said nucleic acid sample of said relative comprises at or about 3 pg to 100 ng of genomic DNA.
146. The method of any one of embodiments 127-145, wherein the nucleic acid sample, the nucleic acid sample of the person of interest and/or the nucleic acid sample of the relative comprises between or about 100 pg and 5 ng of genomic DNA, between or about 50 pg and 5 ng of genomic DNA, or between or about 3 pg and 5 ng of genomic DNA.
147. The method of embodiment 145 or embodiment 146, wherein the nucleic acid sample, the nucleic acid sample of the person of interest and/or the nucleic acid sample of the relative comprises 1 ng or about 1 ng of genomic DNA.
148. The method of any one of embodiments 127-147, wherein said plurality of SNPs comprises related SNPs.
149. The method of any one of embodiments 127-148, wherein said plurality of SNPs comprises Y chromosome SNPs (Y-SNPs).
150. The method of any one of embodiments 127-149, wherein said plurality of SNPs comprises kiSNPs and Y-SNPs.
151. The method of any one of embodiments 127-150, wherein said plurality of SNPs comprises kiSNPs, biogeographic ancestry SNPs (aiSNPs), identity SNPs (iiSNPs), phenotypic SNPs (piSNPs), X chromosome SNPs (X-SNPs), and Y chromosome SNPs (Y-SNPs).
152. The method of any one of embodiments 127-151, wherein said plurality of SNPs comprises SNPs selected from one or more of the group consisting of kiSNPs, aiSNPs, iiSNPs, piSNPs, X-SNPs, and Y-SNPs.
153. The method of any one of embodiments 127-152, wherein at least or at least about 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, or 99% of said plurality of SNPs are related SNPs.
154. The method of any one of embodiments 1-92 and 127-153, wherein said sequencing comprises a sequencing complexity of up to 40-plex.
155. The method of any one of embodiments 1-92 and 127-153, wherein said sequencing comprises a sequencing complexity of up to 32-plex.
156. The method of any one of embodiments 1-92 and 127-153, wherein said sequencing comprises a sequencing complexity of 12-plex to 32-plex.
157. The method of any one of embodiments 1-92 and 127-153, wherein said sequencing comprises a sequencing complexity of 24-plex to 32-plex.
158. (a) The sequencing is performed using a 4-plex, 5-plex, 6-plex, 7-plex, 8-plex, 9-plex, 10-plex, 11-plex, 12-plex, 13-plex, 14-plex, 15-plex, 16-plex, or 17-plex method. 18-plex, 19-plex, 20-plex, 21-plex, 22-plex, 23-plex, 24-plex, 25-plex, 26-plex, 27-plex, 28-plex, 29-plex, 30-plex, 31-plex, 32-plex, 33-plex, 34-plex, 35-plex, 36-plex, 37-plex, 38-plex, 39-plex, 40-plex, 41-plex, 42-plex, 43-plex, 44-plex or 45-plex, or about 4-plex, 5-plex, 6-plex, 7-plex, 8-plex, 9-plex, 10-plex, 11-plex, 12-plex, 13-plex, 14-plex, 15-plex, 16-plex, 17-plex (b) said sequencing comprises a sequencing complexity of 18-plex, 19-plex, 20-plex, 21-plex, 22-plex, 23-plex, 24-plex, 25-plex, 26-plex, 27-plex, 28-plex, 29-plex, 30-plex, 31-plex, 32-plex, 33-plex, 34-plex, 35-plex, 36-plex, 37-plex, 38-plex, 39-plex, 40-plex, 41-plex, 42-plex, 43-plex, 44-plex or 45-plex; or 18-plex, 19-plex, 20-plex, 21-plex, 22-plex, 23-plex, 24-plex, 25-plex, 26-plex, 27-plex, 28-plex, 29-plex, 30-plex, 31-plex, 32-plex, 33-plex, 34-plex or 35-plex, or about 10-plex, 11-plex, 12-plex, 13-plex, 14-plex, 15-plex, 16-plex, 17-plex 18-plex, 19-plex, 20-plex, 21-plex, 22-plex, 23-plex, 24-plex, 25-plex, 26-plex, 27-plex, 28-plex, 29-plex, 30-plex, 31-plex, 32-plex, 33-plex, 34-plex or 35-plex
154. The method of any one of embodiments 1 to 92 and 127 to 153.
159. The method of any one of embodiments 1-92 and 127-158, wherein said sequencing comprises a sequencing complexity of at or about 8-16 plex for post-mortem samples, and/or said sequencing comprises a sequencing complexity of at or about 24-40 plex for ante-mortem samples.
160. The method of any one of embodiments 1-92 and 127-158, wherein said sequencing comprises a sequencing complexity of at or about 12-plex for post-mortem samples, and/or said sequencing comprises a sequencing complexity of at or about 32-plex for ante-mortem samples.
161. The method of any one of embodiments 1-92 and 127-153, wherein said sequencing comprises a sequencing complexity of, or about, 30-plex, 31-plex, or 32-plex.
162. A method for identifying genetic relatives of a DNA profile, comprising:
Calculating the degree of relatedness of the DNA profile according to any one of embodiments 127 to 161 with one or more reference DNA profiles, wherein the one or more reference DNA profiles are contained in a reference set of DNA profiles comprising one or more reference DNA profiles from blood relatives of the person of interest;
generating a pedigree comprising said DNA profile in relation to said one or more reference DNA profiles.
163. The method of embodiment 162, wherein the one or more reference DNA profiles are part of a database.
164. The method of embodiment 162 or embodiment 163, wherein the reference set of DNA profiles comprises up to 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 125, 150, 175, 200, 300, 400, 500, 600, 700, 800, 900, or 1000 reference DNA profiles.
165. The method of any one of embodiments 162-164, wherein at least 5%, 10%, 15%, 20%, 25%, 30%, 35%, 40%, 45%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, or 95% of the reference DNA profiles in the reference set of DNA profiles are from relatives of the person of interest.
166. The method of any one of embodiments 162-165, wherein at least 50% of the reference DNA profiles in the reference set of DNA profiles are from relatives of the person of interest.
167. The method of embodiment 165 or embodiment 166, wherein each relative of the person of interest is a first-, second-, third-, fourth-, or fifth-degree relative of the person of interest, respectively.
168. The method of any one of embodiments 162-167, wherein the identity of each relative of the person of interest in the reference set of DNA profiles is known.
169. The method of any one of embodiments 162-168, wherein the identity of each of said one or more reference DNA profiles in said reference set of DNA profiles is known.
170. The method of any one of embodiments 162-169, wherein the reference set of DNA profiles is in a database.
171. The method of embodiment 170, wherein the database is not publicly accessible.
172. The method of embodiment 170 or embodiment 171, wherein the database is not accessible by a third-party genealogy service.
173. A method for confirming the identity of a DNA profile, comprising:
calculating a degree of relatedness between a DNA profile comprising genotypes of at least or between about 2,000 and 50,000 SNPs and one or more reference DNA profiles, wherein the DNA profile is from a person of interest and the one or more reference DNA profiles are included within a reference set of DNA profiles comprising one or more reference DNA profiles from relatives of the person of interest;
generating a pedigree comprising said DNA profile in relation to said one or more reference DNA profiles.
174. The method of embodiment 173, wherein the DNA profile is generated by the method of any one of embodiments 127 to 161.
175. The method of embodiment 173 or embodiment 174, wherein the relatedness is calculated using a kinship model.
176. The method of any one of embodiments 173-175, wherein the relatedness is calculated using a kinship model trained using a PCA method.
177. The method of embodiment 176, wherein the PCA method for training the kinship model is or comprises PCA.
178. The method of embodiment 176 or embodiment 177, wherein the PCA method is PC-AiR.
179. 179. The method of embodiment 178, wherein the PC-AiR comprises: (1) estimating relatedness coefficients between all pairs of samples in a training database, optionally in a training DNA profile, wherein pairings with a relatedness coefficient >0.025 are confirmed as closely related and pairings with a relatedness coefficient <-0.025 are confirmed as ancestrally diverged; (2) initializing an unrelated sample set including all samples; and (3) iteratively: (i) identifying a set in the unrelated sample set that has the most related samples in the unrelated sample set, thereby designating it as X; (ii) identifying a set of samples in X that has the fewest ancestrally diverged pairings compared to samples in the unrelated sample set, thereby designating it as Y; and (iii) terminating the process if Y has 0 samples, or randomly selecting one sample from Y and removing it from U if Y has at least one sample, and repeating starting with step (3)(i).
180. The method of embodiment 176 or embodiment 177, wherein the PCA method is modified PC-Air.
181. The method of embodiment 180, wherein the modified PC-AiR comprises: (1) estimating relatedness coefficients between all pairs of samples, optionally training DNA profiles, in a training database, where pairings with a relatedness coefficient >0.01 are identified as closely related and pairings with a relatedness coefficient <-0.025 are identified as ancestrally diverged; (2) removing all DNA profiles with ≥5% missing data; and (3) ranking all DNA profiles by assigning each DNA profile a ranking value. In some embodiments, the ranking value is determined based on the number of related DNA profiles in the complete database ranked from smallest to largest, broken down by the number of ancestrally diverged DNA profiles in the complete database ranked from largest to smallest. In some embodiments, step (3) includes iterating through the ranked DNA profiles, and for each DNA profile, (i) if the DNA profile is not already in the relevant sample set, adding it to the unrelated sample set and adding all relevant DNA profiles to the relevant sample set, and (ii) if the DNA profile is already in the relevant sample set, skipping to the next DNA profile and repeating starting with step (3)(i).
182. The method of any one of embodiments 173-181, wherein said calculating said degree of relatedness comprises calculating a coefficient of relatedness using PC-Relate.
183. The method of embodiment 182, wherein the relatedness is calculated by providing the DNA profile of the person of interest as input to PC-Relate.
184. The method of embodiment 182 or embodiment 183, wherein the relatedness is calculated by providing the kinship model and the DNA profile of the person of interest as input to PC-Relate.
185. The method of any one of embodiments 182-184, wherein said one or more reference DNA profiles are further provided as input to PC-Relate.
186. The calculating the degree of relatedness includes calculating the coefficient of relatedness using a whole-genome kinship algorithm as follows:
187. The method of any one of embodiments 173-186, wherein said calculating said relevance comprises calculating a likelihood ratio.
188. The method of embodiment 187, wherein said calculating said likelihood ratio comprises comparing said plurality of SNPs between said DNA profile and said one or more reference DNA profiles.
189. The method of embodiment 187, wherein said calculating said likelihood ratio comprises comparing a set of SNPs comprising kinship SNPs from among said plurality of SNPs between said DNA profile and said one or more reference DNA profiles.
190. The method of any one of embodiments 187-189, wherein calculating said likelihood ratio comprises dividing the probability that said DNA profile and a reference DNA profile from among said one or more reference DNA profiles are related by the probability that said DNA profile and said reference DNA profile are unrelated, based on the genotypes of said plurality of SNPs.
191. The likelihood ratio (LR) is calculated as follows:
192. The LR is calculated as follows:
193. The method of any one of embodiments 173-192, wherein the person of interest is biologically male, and the method further comprises calculating a likelihood ratio of sharing a Y chromosome between the DNA profile and the one or more reference DNA profiles.
194. The method of embodiment 193, wherein said calculating a likelihood ratio of sharing a Y chromosome comprises comparing a set of SNPs comprising one or more Y-SNPs between said DNA profile and said one or more reference DNA profiles.
195. The method of embodiment 194, wherein said one or more Y-SNPs are comprised within said plurality of SNPs.
196. The method of embodiment 194 or embodiment 195, wherein the one or more Y-SNPs comprise at least 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 81, 82, 83, 84, or 85 Y-SNPs.
197. The method of any one of embodiments 194-196, wherein said one or more Y-SNPs comprise 85 Y-SNPs.
198. The method of any one of embodiments 193-197, wherein calculating the likelihood ratio of sharing a Y chromosome comprises dividing the probability that the DNA profile and a reference DNA profile from among the one or more reference DNA profiles share a Y chromosome by the probability that the DNA profile and the reference DNA profile do not share a Y chromosome, based on the genotypes of the one or more Y-SNPs.
199. The method of any one of embodiments 173-198, wherein at least 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, or 99% of the DNA profiles in the reference set of DNA profiles are from relatives of missing persons or victims of disaster or conflict.
200. The method of any one of embodiments 173-199, wherein each of said one or more reference samples is from a relative of a missing person or a victim of a disaster or conflict.
201. The method of any one of embodiments 1-81, wherein the one or more reference samples comprise up to 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 125, 150, 175, 200, 300, 400, 500, 600, 700, 800, 900, or 1000 reference DNA samples.
202. The method of any one of embodiments 173-201, wherein at least 5%, 10%, 15%, 20%, 25%, 30%, 35%, 40%, 45%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, or 95% of said one or more reference samples are from relatives of said person of interest.
203. The method of any one of embodiments 173-202, wherein at least 5%, 10%, 15%, 20%, 25%, 30%, 35%, 40%, 45%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, or 95% of the reference DNA profiles in the reference set of DNA profiles are from relatives of the person of interest, and wherein each of the at least 5%, 10%, 15%, 20%, 25%, 30%, 35%, 40%, 45%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, or 95% of the reference DNA profiles in the reference set of DNA profiles are first-, second-, third-, fourth-, or fifth-degree relatives.
204. The method of any one of embodiments 173-203, wherein at least 50% of the reference DNA profiles in the one or more reference samples are from relatives of the person of interest.
205. The method of any one of embodiments 199-204, wherein each relative of the person of interest in the one or more reference samples is a first-, second-, third-, fourth-, or fifth-degree relative of the person of interest, respectively.
206. The method of embodiment 205, wherein each relative of the person of interest in the one or more reference samples is a first-degree, second-degree, or third-degree relative of the person of interest, respectively.
207. The method of any one of embodiments 173-206, wherein the identity of each relative of the person of interest in the one or more reference samples is known.
208. The method of any one of embodiments 173-207, wherein the identity of each of said one or more reference samples is known.
209. A kit comprising at least one container means, said at least one container means comprising a plurality of the primers of any one of embodiments 94-126.
210. The plurality of SNPs may include between 2,000 and 11,000 SNPs, between 3,000 and 11,000 SNPs, between 4,000 and 11,000 SNPs, between 5,000 and 11,000 SNPs, between 5,500 and 11,000 SNPs, between 6,000 and 11,000 SNPs, between 7,000 and 15,000 SNPs, between 7,000 and 14,000 SNPs, between 7,000 and 13,000 SNPs, between 7,000 and 12,000 SNPs, between 7,000 and 11,000 SNPs. SNPs between 8,000 and 15,000 SNPs, between 8,000 and 14,000 SNPs, between 8,000 and 13,000 SNPs, between 8,000 and 12,000 SNPs, between 8,000 and 11,000 SNPs, between 9,000 and 15,000 SNPs, between 9,000 and 14,000 SNPs, between 9,000 and 13,000 SNPs, between 9,000 and 12,000 SNPs or between 9,000 and 11,000 SNPs, or about 2,000 to 11,000 SNPs. 00 SNPs, 3,000-11,000 SNPs, 4,000-11,000 SNPs, 5,000-11,000 SNPs, 5,500-11,000 SNPs, 6,000-11,000 SNPs, 7,000-15,000 SNPs, 7,000-14,000 SNPs, 7,000-13,000 SNPs, 7,000-12,000 SNPs, 7,000-11,000 SNPs, 8,000-15,000 SNPs 209. The method of any one of embodiments 1-92 and 127-208, comprising between 8,000 and 14,000 SNPs, between 8,000 and 13,000 SNPs, between 8,000 and 12,000 SNPs, between 8,000 and 11,000 SNPs, between 9,000 and 15,000 SNPs, between 9,000 and 14,000 SNPs, between 9,000 and 13,000 SNPs, between 9,000 and 12,000 SNPs or between 9,000 and 11,000 SNPs.
211. The method of any one of embodiments 1-92 and 127-208, wherein said plurality of SNPs comprises 10,230 SNPs.
212. The plurality of SNPs may include between 2,000 and 11,000 SNPs, between 3,000 and 11,000 SNPs, between 4,000 and 11,000 SNPs, between 5,000 and 11,000 SNPs, between 5,500 and 11,000 SNPs, between 6,000 and 11,000 SNPs, between 7,000 and 15,000 SNPs, between 7,000 and 14,000 SNPs, between 7,000 and 13,000 SNPs, between 7,000 and 12,000 SNPs, between 7,000 and 11,000 SNPs. SNPs between 8,000 and 15,000 SNPs, between 8,000 and 14,000 SNPs, between 8,000 and 13,000 SNPs, between 8,000 and 12,000 SNPs, between 8,000 and 11,000 SNPs, between 9,000 and 15,000 SNPs, between 9,000 and 14,000 SNPs, between 9,000 and 13,000 SNPs, between 9,000 and 12,000 SNPs or between 9,000 and 11,000 SNPs, or about 2,000 to 11,000 SNPs. 000 SNPs, 3,000-11,000 SNPs, 4,000-11,000 SNPs, 5,000-11,000 SNPs, 5,500-11,000 SNPs, 6,000-11,000 SNPs, 7,000-15,000 SNPs, 7,000-14,000 SNPs, 7,000-13,000 SNPs, 7,000-12,000 SNPs, 7,000-11,000 SNPs, 8,000-15,000 SNPs 127. The plurality of primers of any one of embodiments 94-126, comprising between 8,000 and 14,000 SNPs, between 8,000 and 13,000 SNPs, between 8,000 and 12,000 SNPs, between 8,000 and 11,000 SNPs, between 9,000 and 15,000 SNPs, between 9,000 and 14,000 SNPs, between 9,000 and 13,000 SNPs, between 9,000 and 12,000 SNPs or between 9,000 and 11,000 SNPs.
213. The plurality of primers of any one of embodiments 94-126, wherein the plurality of SNPs comprises 10,230 SNPs.
214. The method of any one of embodiments 1-5, 11-93, 127-161, and 210-213, further comprising generating a pedigree comprising said DNA profile in relation to one or more DNA profiles contained within said reference set of DNA profiles.
215. The method of embodiment 214, wherein the pedigree tree comprises the DNA profile in association with one or more DNA profiles from blood relatives of the person of interest.
以下の実施例は、例示のみを目的として含まれ、本発明の範囲を限定することを意図していない。
実施例1:配列ライブラリーの生成および感度の決定
The following examples are included for illustrative purposes only and are not intended to limit the scope of the invention.
Example 1: Generation of sequence libraries and determination of sensitivity
この実施例は、本明細書に記載されるマルチプレックスポリメラーゼ連鎖反応の感度を決定して、配列決定可能なライブラリーを生成する方法を記載する。図1は、この実施例に記載される配列決定可能なライブラリーを生成するための方法の例示的な概略図を示す。
A.ゲノムDNA標的のPCR増幅
This example describes a method for determining the sensitivity of the multiplex polymerase chain reaction described herein to generate a sequenceable library. Figure 1 shows an exemplary schematic of the method for generating a sequenceable library described in this example.
A. PCR Amplification of Genomic DNA Targets
多重ポリメラーゼ連鎖反応を行って、ゲノムDNAサンプル中の10,230個の個々のアンプリコンを増幅した。各プライマーのペアは、ゲノムDNAサンプルの特定の一塩基多型(SNP)に選択的にハイブリダイズし、その増幅を促進するように設計した。50ng~50pg、より具体的には、5ng、2.5ng、1ng、500pg、250pg、100pgおよび50pgの入力ゲノムDNAを試験した。簡潔には、十分な緩衝液、dNTP、MgCl2、塩類およびPCR添加剤、例えばグリセロールを含有する18.5mlのPCRマスターミックスを96ウェルPCRプレートの単一ウェルに添加した。10,530個のプライマー対、2~4単位のDNAポリメラーゼ、例えばPhusion hot start DNAポリメラーゼ(Thermo Fisher、カタログ番号F549Lまたは任意の他の耐熱性DNAポリメラーゼ、50ng~50pgのゲノムDNAを含有する5マイクロリットルのプライマープールも加えた。 A multiplex polymerase chain reaction was performed to amplify 10,230 individual amplicons in genomic DNA samples. Each primer pair was designed to selectively hybridize to and promote the amplification of a specific single nucleotide polymorphism (SNP) in the genomic DNA sample. Input genomic DNA ranging from 50 ng to 50 pg was tested, more specifically, 5 ng, 2.5 ng, 1 ng, 500 pg, 250 pg, 100 pg, and 50 pg. Briefly, 18.5 ml of PCR master mix containing sufficient buffer, dNTPs, MgCl2, salts, and PCR additives, such as glycerol, was added to a single well of a 96-well PCR plate. Five microliters of primer pool containing 10,530 primer pairs, 2-4 units of DNA polymerase, such as Phusion hot start DNA polymerase (Thermo Fisher, catalog number F549L or any other thermostable DNA polymerase), and 50 ng-50 pg of genomic DNA, were also added.
PCRプレートを密封し、サーマルサイクラー(Veriti 96ウェルサーマルサイクラー、Thermo Fisher Scientific、4413964)に入れ、以下に記載されるテンペレートプロファイルで実行してアンプリコンライブラリーを作製した。
98℃で3分間
18サイクル:
96℃で45秒間
80℃で10秒間
54℃で4分間、適用可能なランプモード
66℃で90秒間、適用可能なランプモード
68℃で10分間
4℃で保持
The PCR plate was sealed and placed in a thermal cycler (Veriti 96-well thermal cycler, Thermo Fisher Scientific, 4413964) and run at the template profile described below to generate the amplicon library.
98°C for 3 minutes, 18 cycles:
96°C for 45 seconds 80°C for 10 seconds 54°C for 4 minutes, applicable lamp mode 66°C for 90 seconds, applicable lamp mode 68°C for 10 minutes Hold at 4°C
サイクリング後、アンプリコンライブラリーを、以下に概説する精製ステップに進むまで2~8℃で保持した。
B.インプットDNAおよびプライマーからのアンプリコンの精製
After cycling, the amplicon library was kept at 2-8°C until proceeding to the purification steps outlined below.
B. Purification of Amplicons from Input DNA and Primers
MagBind Total Pure NGSビーズ(Omega Biotek、M1378-02)の結合、洗浄、および1.6倍および0.6倍の体積比での溶出を使用した2回の浄化により、ゲノムDNAおよび未結合または過剰のプライマーが除去されることが分かった。本明細書に概説される増幅および精製ステップは、約150~350bp長のアンプリコンを産生する。次いで、精製されたアンプリコンを2回目のPCRで使用して、配列決定のためのアダプターを追加する。
C.配列決定可能なライブラリーを生成するための精製アンプリコンの濃縮
Two rounds of purification using MagBind Total Pure NGS beads (Omega Biotek, M1378-02), binding, washing, and elution at 1.6x and 0.6x volume ratios, were found to remove genomic DNA and unbound or excess primers. The amplification and purification steps outlined herein produce amplicons approximately 150-350 bp in length. The purified amplicons are then used in a second round of PCR to add adapters for sequencing.
C. Enrichment of Purified Amplicons to Generate a Sequenable Library
2回目のPCR増幅は、96ウェルPCRプレート中で、上記ステップからの精製されたアンプリコン25mlを、Forenseq Kintelligenceキット(Verogen PN:V16000120)に提供されているアダプター5mlおよびForenseq Kintelligenceキット(Verogen PN:V16000120)に提供されているKPCR2マスターミックス20mlと組み合わせることによって行う。PCRプレートを密封し、サーマルサイクラー(Veriti 96ウェルサーマルサイクラー、Thermo Fisher Scientific、4413964)に入れ、以下に記載されるテンペレートプロファイルで実行してアンプリコンライブラリーを作製した。
98℃で30秒間
15サイクル:
98℃で20秒間
66℃で30秒間
72℃で30秒間
72℃で1分間
4℃で保持
A second round of PCR amplification was performed in a 96-well PCR plate by combining 25 ml of purified amplicons from the previous step with 5 ml of adapters provided in the Forenseq Kintelligence kit (Verogen PN: V16000120) and 20 ml of KPCR2 Master Mix provided in the Forenseq Kintelligence kit (Verogen PN: V16000120). The PCR plate was sealed and placed in a thermal cycler (Veriti 96-well thermal cycler, Thermo Fisher Scientific, 4413964) and run using the template profile described below to generate the amplicon library.
98°C for 30 seconds, 15 cycles:
98°C for 20 seconds, 66°C for 30 seconds, 72°C for 30 seconds, 72°C for 1 minute, hold at 4°C
ライブラリーを、MagBind Total Pure NGSビーズ(Omega Biotek、M1378-02)の結合、洗浄、および1倍での溶出を使用して精製した。精製されたライブラリーを、Forenseq Kintelligenceキットユーザーガイド(Verogen PN:V16000120(その内容全体が参照により本明細書に組み込まれる))に記載されている指示に従って定量化、正規化、変性および希釈する。 The library was purified using MagBind Total Pure NGS beads (Omega Biotek, M1378-02) binding, washing, and elution with 1x. The purified library was quantified, normalized, denatured, and diluted according to the instructions in the Forenseq Kintelligence Kit User Guide (Verogen PN: V16000120, the entire contents of which are incorporated herein by reference).
変性されたライブラリーを、MiSeq FGx配列決定システム参照ガイド(文書番号VD2018006:その内容全体が参照により本明細書に組み込まれる)の指示に従って配列決定した。図2に示すように、検出された遺伝子座の数は、入力ゲノムDNA用量調整の範囲にわたって同様であった。 The denatured libraries were sequenced according to the instructions in the MiSeq FGx Sequencing System Reference Guide (Document No. VD2018006, the entire contents of which are incorporated herein by reference). As shown in Figure 2, the number of loci detected was similar across the range of input genomic DNA dosage adjustments.
結果を、Forenseqユニバーサル解析ソフトウェア2.1(Verogen、カリフォルニア州サンディエゴ)に概説され、参照ガイド文書番号VD2019002(その内容全体は参照により本明細書に組み込まれる)に提供されている指示に従って、Forenseqユニバーサル解析ソフトウェア2.1を使用して解析する。
実施例2:劣化DNAを使用した配列ライブラリーの生成
Results are analyzed using Forenseq Universal Analysis Software 2.1 (Verogen, San Diego, CA) according to the instructions outlined therein and provided in Reference Guide Document No. VD2019002, the entire contents of which are incorporated herein by reference.
Example 2: Generation of sequence libraries using degraded DNA
この実施例は、少量かつ高度に劣化したサンプルからのDNAの配列決定を記載する。劣化DNA 一連の劣化血液DNAを、Innogenomics(ルイジアナ州ニューオーリンズ)から得た。この実施例では10,327個の遺伝子座のプライマー対を使用したことを除いて、DNAサンプルを使用して、実施例1に記載されるように配列決定ライブラリーを作製した。マイクロアレイ(GSA)コールレートと比較した、本明細書に記載されるアッセイを使用して劣化DNAで検出された遺伝子座(コールレート)のパーセンテージを図3示す。劣化指数(DI)をx軸に示し、検出された遺伝子座の数をY軸に示す。これらの結果は、DIが158.3の高度に劣化したDNAであっても、アッセイが9167個の遺伝子座を検出し、これは血縁者を検索するために系図データベースにアップロードするのに十分であることを示している。マイクロアレイなどの代替技術では、高い劣化指数を有するサンプル中の遺伝子座を検出することができなかった。
実施例3:ライブラリー調製に対する阻害剤の活性の評価
This example describes the sequencing of DNA from small, highly degraded samples. Degraded DNA: A series of degraded blood DNA was obtained from Innogenomics (New Orleans, Louisiana). DNA samples were used to generate sequencing libraries as described in Example 1, except that primer pairs for 10,327 loci were used in this example. Figure 3 shows the percentage of loci detected in degraded DNA using the assay described herein compared to the microarray (GSA) call rate (call rate). The degradation index (DI) is shown on the x-axis, and the number of detected loci is shown on the y-axis. These results demonstrate that even with highly degraded DNA with a DI of 158.3, the assay detected 9,167 loci, sufficient for uploading to a genealogy database for relative search. Alternative technologies, such as microarrays, were unable to detect loci in samples with a high degradation index.
Example 3: Evaluation of inhibitor activity on library preparations
この実施例は、本明細書に開示されるライブラリーの調製に対するPCR阻害剤の効果の評価を記載する。犯罪現場からのDNAサンプルは、PCRを阻害する共精製不純物を含むことが多い。PCR阻害は、適切なコピーのDNAが存在する場合のPCR不全の最も一般的な原因である。腐植化合物は、腐敗プロセス中に生成される一連の物質であり、土壌、天然水および最近の沈降物中のDNAを汚染する物質と考えられてきた。他の一般的な阻害剤としては、ヘマチン(血液由来)、インディゴ(ブルージーン由来)およびタンニン酸が含まれる。 This example describes the evaluation of the effect of PCR inhibitors on the preparation of the libraries disclosed herein. DNA samples from crime scenes often contain co-purifying impurities that inhibit PCR. PCR inhibition is the most common cause of PCR failure when adequate copies of DNA are present. Humic compounds are a group of substances produced during the decay process and have been implicated as contaminants of DNA in soil, natural waters, and recent sediments. Other common inhibitors include hematin (derived from blood), indigo (derived from blue jean), and tannic acid.
法医学サンプル中に一般的に見出される阻害剤の影響を評価するために、200uMのヘマチン、50ng/uLのフミン酸、133uMのインディゴ、16uMのタンニン酸を上記の「増幅およびタグ標的」ステップにスパイクし、10380個の遺伝子座のプライマー対を使用したことを除いて、実施例1に記載されるようにライブラリー調製を行った。結果を図4に示し、いかなる阻害剤も含まないPCR反応を対照として標識する。
実施例4:関連度の決定
To assess the impact of inhibitors commonly found in forensic samples, library preparation was performed as described in Example 1, except that 200 uM hematin, 50 ng/uL humic acid, 133 uM indigo, and 16 uM tannic acid were spiked into the "amplify and tag target" step above, and primer pairs for 10,380 loci were used. The results are shown in Figure 4, with PCR reactions without any inhibitors labeled as controls.
Example 4: Determining relevance
この実施例は、上記の実施例1に一般的に記載されるように調製されたサンプルからの例示的な結果を記載する。 This example describes exemplary results from samples prepared as generally described in Example 1 above.
Illumina Global Screening Array(GSA)2.0を、Utah CEPH family 1463 DNA(Coriell Institute)の17個のサンプルの各々200ngで実行した。SNPコールをGEDmatchデータベース(Verogen)にアップロードした。例示的な家系図を図5に示す。サンプルの1つ、NA12889(父方の祖父)を、実施例1に記載されるようにライブラリー調製プロトコルで実行し、ForenSeq UAS 2.1モジュールで実行した。生成されたレポートを、データベースにアップロードし、関係を検索するための1:多ツールを使用して検索した。データベース内のアルゴリズムからの血縁係数を、予想される血縁係数と比較した。予想および観察された血縁係数を図6に示す。
実施例5:例示的な事例研究における血縁係数決定
The Illumina Global Screening Array (GSA) 2.0 was run on 200 ng of each of 17 samples of Utah CEPH family 1463 DNA (Coriell Institute). SNP calls were uploaded to the GEDmatch database (Verogen). An exemplary pedigree is shown in Figure 5. One of the samples, NA12889 (paternal grandfather), was run through the library preparation protocol described in Example 1 and run in the ForenSeq UAS 2.1 module. The generated report was uploaded to the database and searched using the 1:multi tool for relationship searching. The relatedness coefficients from the algorithm in the database were compared to the expected relatedness coefficients. The expected and observed relatedness coefficients are shown in Figure 6.
Example 5: Determining the Coefficient of Kinship in an Illustrative Case Study
この実施例は、血縁係数を決定するためにサンプルSNPプロファイルを使用した例示的な事例研究の結果を説明する。GEDmatchデータベース内の12~28人の家族構成員を有する10人の確立された系統を用いて、1:many検索アルゴリズムが潜在的な血縁者を検出する能力を試験した。本明細書に開示されるアッセイからのサンプルSNPプロファイルは、X氏=POI(関心のある人/未知の犯罪現場プロファイル)であると見なした。候補ヒット、血縁係数および相対的なステータスを図7に示す。 This example describes the results of an exemplary case study using sample SNP profiles to determine relatedness coefficients. Ten established pedigrees with 12-28 family members in the GEDmatch database were used to test the ability of the 1:many search algorithm to detect potential relatives. The sample SNP profile from the assay disclosed herein was considered to be Mr./Ms. X = POI (person of interest/unknown crime scene profile). Candidate hits, relatedness coefficients, and relative status are shown in Figure 7.
次いで、検索アルゴリズムから生成された結果を用いて、図8に示すように、X氏の家系図を生成した。家系図に示すように、X氏の3親等の関係であるいとこ(1C)および曾祖父(G GF)が最初の11件のヒット候補内に返された。X氏の高祖母(GG GM)、曾祖叔父/曾祖伯父(GG叔父/GG伯父)およびいとこの子供(1C1R)は、4親等の関係であり、最初の15件の候補ヒット内に返された。X氏のはとこ(2C)である5親等の関係が12件目のヒットとなった。
実施例6:遺伝子座のタイプによる評価を含む、配列ライブラリーの生成および感度の決定
The results generated from the search algorithm were then used to generate a family tree for Mr. X, as shown in Figure 8. As shown in the family tree, Mr. X's third-degree relatives, a cousin (1C) and great-grandfather (G GF), were returned within the first 11 candidate hits. Mr. X's great-great-grandmother (GG GM), great-great-uncles (Uncle GG/Uncle GG), and cousin's child (1C1R), were fourth-degree relatives and were returned within the first 15 candidate hits. Mr. X's fifth-degree relative, a second cousin (2C), was the 12th hit.
Example 6: Generation of sequence libraries and determination of sensitivity, including evaluation by locus type
この実施例は、本明細書に記載されるマルチプレックスポリメラーゼ連鎖反応の感度を決定して、配列決定可能なライブラリーを生成する方法を伴い、遺伝子座のタイプによる評価を含む。 This example involves a method for determining the sensitivity of the multiplex polymerase chain reaction described herein to generate a sequenceable library, including evaluation by locus type.
結果をForenseqユニバーサル解析ソフトウェアバージョン2.2を使用して解析したことを除いて、実施例1に記載したのと同じ方法で、DNAプロファイルとも呼ばれる配列ライブラリー(配列決定された核酸ライブラリー)を生成した。 Sequence libraries (sequenced nucleic acid libraries), also called DNA profiles, were generated in the same manner as described in Example 1, except that the results were analyzed using Forenseq Universal Analysis Software version 2.2.
結果が図9に示されており、これは、解析されている合計10,230個の遺伝子座のうち、異なる種類の遺伝子座、例えば、Y染色体SNP(Y-SNP)、X染色体SNP(X-SNP)、表現型SNP(piSNP)、血縁関係SNP(kiSNP)、同一性SNP(iiSNP)、および生物地理学SNP(aiSNP)の各々に対する入力DNAの量(ng)に基づいて検出された遺伝子座の数(3回の反復の平均として)を要約した表である。試験したゲノムDNAの入力用量調整には、5ng、2.5ng、1ng、0.5ng(500pg)、0.25ng(250pg)、0.10ng(100pg)および0.05ng(50pg)の入力ゲノムDNAが含まれた。図9に示すように、検出されたSNPの合計である0.05ng~5ngの範囲の入力DNAの量の各々により、遺伝子座の少なくとも98.9%(10,117個)が検出され、0.10ngおよびそれよりも多い入力DNAの量により、遺伝子座の少なくとも99.5%(10,179個)が検出された。 Results are shown in Figure 9, a table summarizing the number of loci detected (as the average of three replicates) based on the amount of input DNA (ng) for each of the different types of loci, e.g., Y-chromosome SNPs (Y-SNPs), X-chromosome SNPs (X-SNPs), phenotypic SNPs (piSNPs), kinship SNPs (kiSNPs), identity SNPs (iiSNPs), and biogeographic SNPs (aiSNPs), out of a total of 10,230 loci analyzed. Genomic DNA input dosage adjustments tested included 5 ng, 2.5 ng, 1 ng, 0.5 ng (500 pg), 0.25 ng (250 pg), 0.10 ng (100 pg), and 0.05 ng (50 pg) of input genomic DNA. As shown in Figure 9, at least 98.9% (10,117 loci) were detected with input DNA amounts ranging from 0.05 ng to 5 ng, representing the total number of detected SNPs, and at least 99.5% (10,179 loci) were detected with input DNA amounts of 0.10 ng and greater.
このデータは、異なるタイプのSNPを使用し、0.05ng(50pg)~5ngの範囲の量の入力DNAを使用して、10,000個を超える遺伝子座を高効率かつ高感度で検出できることを実証している。
実施例7:遺伝子座のタイプによる評価を含む、配列ライブラリー調製に対する阻害剤の活性の評価
The data demonstrate that over 10,000 loci can be detected with high efficiency and sensitivity using different types of SNPs and amounts of input DNA ranging from 0.05 ng (50 pg) to 5 ng.
Example 7: Evaluation of inhibitor activity on sequence library preparations, including evaluation by locus type
この実施例は、本明細書に開示される、DNAプロファイルとも呼ばれる配列ライブラリー(配列決定された核酸ライブラリー)の調製に対する特定の阻害剤の効果の評価を、検出および配列決定される遺伝子座のタイプによるものを含めて記載する。犯罪現場からのDNAサンプルは、増幅を阻害する共精製不純物を含むことが多い。一般的な阻害剤には、ヘマチン、フミン酸およびインディゴが含まれる。 This example describes the evaluation of the effect of specific inhibitors on the preparation of sequence libraries (sequenced nucleic acid libraries), also called DNA profiles, as disclosed herein, including by the type of locus being detected and sequenced. DNA samples from crime scenes often contain co-purifying impurities that inhibit amplification. Common inhibitors include hematin, humic acid, and indigo.
法医学サンプルに一般的に見られる阻害剤の影響を評価するために、結果をForenseqユニバーサル解析ソフトウェアバージョン2.2を使用して解析したことを除いて、実施例1に記載されるようにライブラリー調製を行い、試験した阻害剤が以下の通りであったことを除いて、増幅に対する特定の阻害剤の影響の評価を実施例3に記載されるように行った:200μMヘマチン、100μMヘマチン、50ng/μLフミン酸、25ng/μLフミン酸、16μMタンニン酸、8μMタンニン酸、133μMインディゴ、および66.5μMインディゴ、実施例1に記載されるように増幅ステップに含め、10230遺伝子座に対するプライマー対を使用した。阻害剤を含まない陽性対照反応も行った。1ngの入力DNAを使用した。 To assess the impact of inhibitors commonly found in forensic samples, library preparation was performed as described in Example 1, except results were analyzed using Forenseq Universal Analysis Software version 2.2. Evaluation of the impact of specific inhibitors on amplification was performed as described in Example 3, except the inhibitors tested were: 200 μM hematin, 100 μM hematin, 50 ng/μL humic acid, 25 ng/μL humic acid, 16 μM tannic acid, 8 μM tannic acid, 133 μM indigo, and 66.5 μM indigo, included in the amplification step as described in Example 1, and primer pairs for the 10230 locus were used. A positive control reaction without inhibitor was also performed. 1 ng of input DNA was used.
結果を図10に示す。これは、kiSNP、Y-SNP、X-SNP、piSNP、iiSNPおよびaiSNPを含む様々なSNPを、例えば、阻害剤の存在下であっても検出される各タイプのSNPの全部またはほぼ全部によって実証されるように、本明細書に記載される方法に従って互いに組み合わせて増幅および検出することができ、効率および検出率が高いことを実証している。例えば、検出されたkiSNP、Y-SNP、X-SNP、piSNP、iiSNPおよびaiSNPの数は各々、阻害剤を欠く陽性対照(図10)において検出された数と同様である。このデータは、サンプル中の共通の阻害剤の存在が、本明細書に記載される方法を使用したPCR反応において10,000個を超えるSNPを増幅する能力に有害な影響を及ぼさないことを実証している。
実施例8:模擬性的暴行後に得られたDNAサンプルを使用した配列ライブラリー調製の評価
The results are shown in Figure 10, demonstrating that a variety of SNPs, including kiSNPs, Y-SNPs, X-SNPs, piSNPs, iiSNPs, and aiSNPs, can be amplified and detected in combination with one another according to the methods described herein with high efficiency and detection rates, as demonstrated, for example, by all or nearly all of the SNPs of each type being detected even in the presence of inhibitors. For example, the number of kiSNPs, Y-SNPs, X-SNPs, piSNPs, iiSNPs, and aiSNPs detected is each similar to the number detected in the positive control lacking inhibitors (Figure 10). This data demonstrates that the presence of common inhibitors in a sample does not adversely affect the ability to amplify more than 10,000 SNPs in a PCR reaction using the methods described herein.
Example 8: Evaluation of sequence library preparation using DNA samples obtained after simulated sexual assault
この実施例は、配列ライブラリー、例えば配列決定された核酸ライブラリーが、少量の入力DNA、例えば500pgなど、推奨量1ng未満を使用して首尾よく生成され得るかどうかを確実にするために、模擬性的暴行サンプルからのDNAを使用して、DNAプロファイルとも呼ばれる配列ライブラリー(配列決定された核酸ライブラリー)の生成を記載する。 This example describes the generation of a sequence library (sequenced nucleic acid library), also called a DNA profile, using DNA from a simulated sexual assault sample to determine whether a sequence library, e.g., a sequenced nucleic acid library, can be successfully generated using small amounts of input DNA, e.g., 500 pg, the recommended amount being less than 1 ng.
模擬性的暴行の発生から9時間後および22時間後に採取したサンプルから模擬性的暴行DNAを得た。DNAを、示差抽出法を使用して精子画分から単離し、両方の時点からの精子画分を収集し、解析のために保存した。アッセイ(配列ライブラリーの生成のため)で入力として利用可能であった精子画分からのDNAの量はわずか500pgであり、これは1ngの推奨量の半分であった。 Simulated sexual assault DNA was obtained from samples collected 9 and 22 hours after the simulated sexual assault occurred. DNA was isolated from the sperm fraction using differential extraction, and sperm fractions from both time points were collected and stored for analysis. The amount of DNA from the sperm fraction available as input for the assay (to generate the sequencing library) was only 500 pg, half the recommended amount of 1 ng.
結果をForenseqユニバーサル解析ソフトウェアバージョン2.2を使用して解析したことを除いて、DNAサンプルを使用して、実施例1に記載の配列ライブラリー(配列決定された核酸ライブラリー)を生成した。アッセイにおいて検出された遺伝子座のパーセンテージ(コールレート)ならびに存在する各タイプのSNPの数を図11に示す。結果は、わずか500pgの入力DNAでも大部分のSNPが検出され、9時間の時点で全SNPの99.99%(10,230個のSNPのうち10,229個)が検出され、22時間の時点で全SNPの99.93%(10,230個のSNPのうち10,223個)が検出されることを実証している。具体的には、全てのaiSNP、iiSNP、piSNP、X-SNPおよびY-SNPが、模擬性的暴行の発生後9時間および22時間の両方の時点で検出された。9時間の時点では9,867個中1個のkiSNPしか検出されず、22時間の時点では9,867個中7個のkiSNPしか検出されなかった。検出された遺伝子座の数は、血縁者を検索するために系図データベースにアップロードするのに十分である。 The DNA samples were used to generate sequence libraries (sequenced nucleic acid libraries) as described in Example 1, except that the results were analyzed using Forenseq Universal Analysis Software version 2.2. The percentage of loci detected in the assay (call rate) and the number of SNPs of each type present are shown in Figure 11. Results demonstrate that the majority of SNPs were detected with as little as 500 pg of input DNA, with 99.99% of all SNPs (10,229 of 10,230 SNPs) detected at 9 hours and 99.93% of all SNPs (10,223 of 10,230 SNPs) detected at 22 hours. Specifically, all aiSNPs, iiSNPs, piSNPs, X-SNPs, and Y-SNPs were detected at both 9 and 22 hours after the simulated sexual assault. At 9 hours, only 1 kiSNP was detected in 9,867 samples, and at 22 hours, only 7 kiSNPs were detected in 9,867 samples. The number of loci detected is sufficient to upload to a genealogy database for relative searching.
このデータは、本明細書に記載される方法を使用して、様々なkiSNP、Y-SNP、X-SNP、piSNP、iiSNPおよびaiSNPを含む10,000個を超えるSNPを検出し、模擬性的暴行の発生から9時間後および22時間後にわずか500pgのDNAを使用して配列ライブラリーを作製することができ、全SNPの99.9%超が検出されることを実証している。したがって、本明細書に記載される方法は、性的暴行を含む犯罪事件後の推奨量未満、例えば500pgの、または災害または紛争の犠牲者由来の、または失踪した人物の残されたサンプル由来のDNAを含む配列ライブラリーの作製における使用に適している。
実施例9:唾液サンプルからの配列ライブラリーの生成時のPCIAキャリーオーバーの評価
This data demonstrates that the methods described herein can be used to detect over 10,000 SNPs, including various kiSNPs, Y-SNPs, X-SNPs, piSNPs, iiSNPs, and aiSNPs, and to generate sequence libraries using as little as 500 pg of DNA 9 and 22 hours after a simulated sexual assault occurred, with greater than 99.9% of all SNPs detected. Thus, the methods described herein are suitable for use in generating sequence libraries containing less than the recommended amount of DNA, e.g., 500 pg, following a criminal incident, including sexual assault, or from victims of disasters or conflicts, or from samples left behind by missing persons.
Example 9: Evaluation of PCIA carryover during generation of sequence libraries from saliva samples
この実施例は、フェノール-クロロホルム-イソアミルアルコール(PCIA)抽出法による有機抽出を使用して抽出された唾液サンプルに由来するDNAからの核酸ライブラリー(例えば、DNAプロファイルを生成するために)の配列決定を記載する。 This example describes sequencing a nucleic acid library (e.g., to generate a DNA profile) from DNA derived from a saliva sample extracted using organic extraction with phenol-chloroform-isoamyl alcohol (PCIA) extraction.
唾液DNAは唾液サンプルから得て、この場合、抽出されたDNAにキャリーオーバーとして抽出試薬PCIA(例えば、PCIAなし、軽PCIA、中程度PCIAおよび重PCIA)を意図的に多く残し、これは完全でない抽出をシミュレートするものである。その成分フェノールを含むPCIAは、PCR増幅の既知の阻害剤である。 Saliva DNA was obtained from saliva samples in which the extraction reagent PCIA (e.g., no PCIA, light PCIA, medium PCIA, and heavy PCIA) was intentionally left over in the extracted DNA as carryover, simulating an incomplete extraction. PCIA, which contains phenol, is a known inhibitor of PCR amplification.
結果をForenseqユニバーサル解析ソフトウェアバージョン2.2を使用して解析したことを除いて、PCIAなし、軽PCIA、中程度PCIAおよび重PCIAを有するDNAサンプルを使用して、実施例1に記載の配列ライブラリー(配列決定された核酸ライブラリー)を生成した。各サンプルについて検出されたSNPの総数を決定し、図12に示す。結果は、10,170個を超えるSNPが各サンプルで検出されたので、PCIAキャリーオーバーが、重PCIAキャリーオーバーを伴う高レベルであっても、アッセイがSNPを検出する能力に影響を及ぼさないことを示している。
実施例10:様々な基材による血液サンプルからの配列ライブラリーの生成およびヘムの影響の評価
DNA samples with no PCIA, light PCIA, moderate PCIA, and heavy PCIA were used to generate sequence libraries (sequenced nucleic acid libraries) as described in Example 1, except that the results were analyzed using Forenseq Universal Analysis Software version 2.2. The total number of SNPs detected for each sample was determined and is shown in Figure 12. The results indicate that PCIA carryover, even at high levels with heavy PCIA carryover, does not affect the assay's ability to detect SNPs, as over 10,170 SNPs were detected in each sample.
Example 10: Generation of sequence libraries from blood samples using various substrates and evaluation of the effect of heme
この実施例は、錆およびデニムを含む犯罪現場で典型的に見られる異なる基材に沈着した血液サンプル、ならびに420pgのDNAのみが利用可能であったスワブ上の血液サンプル、および増加するレベルのヘムがDNAと共に運ばれたCheleX(商標)を使用して抽出された血液サンプルに由来するDNAの核酸ライブラリー(例えば、DNAプロファイルを生成するために)の配列決定を記載する。ヘムは、PCR増幅の公知の阻害剤である。デニムは、PCR増幅の公知の阻害剤であるインディゴ色素を含む。 This example describes the sequencing of nucleic acid libraries (e.g., to generate DNA profiles) of DNA derived from blood samples deposited on different substrates typically found at crime scenes, including rust and denim, as well as blood samples on swabs where only 420 pg of DNA was available, and blood samples extracted using CheleX™ where increasing levels of heme were carried along with the DNA. Heme is a known inhibitor of PCR amplification. Denim contains indigo dye, a known inhibitor of PCR amplification.
血液および錆を含有するサンプル、デニムにおける2つの血液サンプル、スワブ上の420pgの血液サンプル、および対照として少量または中程度の量のヘムをキャリーオーバーしたか、またはヘムを含まない血液サンプル、ならびに陽性対照血液サンプルを含む、Forenseqユニバーサル解析ソフトウェアバージョン2.2を使用して結果を解析したことを除いて、DNAサンプルの各々を使用して、実施例1に記載されるような配列ライブラリー(配列決定された核酸ライブラリー)を生成した。各サンプルおよび参照対照について検出されたSNPの総数を決定し、図13に示す。結果は、異なる基材に沈着した血液サンプルでも、10,230個の総SNPのうち10,114個以上のSNPの検出が依然として可能であった。わずか420pgの血液サンプルで9,563個のSNPが検出され、ヘムを有するサンプルでは10,000個を超えるSNPが検出され、検出されたSNPの数はサンプル中に存在するヘムの量に影響されなかった。これは、犯罪現場で一般的に見られる様々な基材に沈着した血液サンプルから抽出されたDNAを、法医学用途のために10,000個を超えるSNPを検出するために本明細書で提供される方法に従って使用できることを実証している。
実施例11:関連するサンプル、関連する生前サンプル、関連しない死後サンプル、および関連する模擬死後サンプルを用いた血縁関係解析
Each of the DNA samples was used to generate sequence libraries (sequenced nucleic acid libraries) as described in Example 1, except that the results were analyzed using Forenseq Universal Analysis Software version 2.2, including the blood and rust-containing sample, two blood samples on denim, a 420 pg blood sample on a swab, and blood samples with low or moderate heme carryover or no heme as controls, as well as a positive control blood sample. The total number of SNPs detected for each sample and reference control was determined and is shown in Figure 13. Results show that even with blood samples deposited on different substrates, detection of more than 10,114 SNPs out of 10,230 total SNPs was still possible. While 9,563 SNPs were detected in the 420 pg blood sample, over 10,000 SNPs were detected in the sample with heme, and the number of SNPs detected was not affected by the amount of heme present in the sample. This demonstrates that DNA extracted from blood samples deposited on a variety of substrates commonly found at crime scenes can be used in accordance with the methods provided herein to detect over 10,000 SNPs for forensic applications.
Example 11: Kinship analysis using related samples, related antemortem samples, unrelated postmortem samples, and related mock postmortem samples
この実施例は、劣化していないサンプル、高度に劣化したサンプル、および低入力サンプルを含む4つの異なるサンプルセットにおいて最大3親等の関係を確認するために、本明細書に記載されるような血縁関係解析を実行することを記載する。具体的には、この実施例の目的は、潜在的な適合が(公的にアクセス可能なデータベースではなく)ローカルの私的データベースに存在する状態で、高プレキシティで配列決定された劣化したサンプルから最大3親等の家族関係を、そのような家族関係を正確に予測するのに十分なSNPを依然として可能にしながら、決定することであった。関与する方法論の概略が図14に示されており、これは、(a)一連の法医学的に関連するSNP標的をキュレートし、10,230個のSNPなどの>10,000個のSNPを選択するステップ;(b)標的をタグ付けおよびコピーし、標的を富化し、標的を精製し、標的量を正規化することによって、死後および生前タイプのDNAサンプルから配列決定ライブラリーを調製するステップ;(c)より高いプレキシティ、例えば12プレックスまたはそれを超えるプレックスで次世代配列決定を行うステップ;(d)SNPレポート(DNAプロファイルとも呼ばれる)を生成するステップ;(e)SNPレポートをローカルサーバにアップロードするステップ;(f)ペアワイズ比較を行うステップ;および(g)血縁係数および尤度比を計算し、最も可能性の高い家族関係をフィルタリングするステップ、を含む。いくつかの実施形態では、ステップ(a)においてキュレートすることは、前のワークフローで行われ、同じ選択されたSNP標的、例えば10,230個のSNP標的の特定のセットが本ワークフローで利用される。 This example describes performing kinship analysis as described herein to ascertain up to three degrees of kinship relationships in four different sample sets, including undegraded samples, highly degraded samples, and low-input samples. Specifically, the goal of this example was to determine up to three degrees of kinship relationships from degraded samples sequenced at high plexity, where potential matches existed in a local private database (rather than a publicly accessible database), while still allowing for enough SNPs to accurately predict such kinship relationships. The methodology involved is outlined in FIG. 14 and includes: (a) curating a set of forensically relevant SNP targets and selecting >10,000 SNPs, such as 10,230 SNPs; (b) preparing sequencing libraries from postmortem and antemortem DNA samples by tagging and copying targets, enriching targets, purifying targets, and normalizing target abundance; (c) performing next-generation sequencing at higher plexity, e.g., 12-plex or greater; (d) generating SNP reports (also called DNA profiles); (e) uploading the SNP reports to a local server; (f) performing pairwise comparisons; and (g) calculating relatedness coefficients and likelihood ratios and filtering the most likely familial relationships. In some embodiments, the curation in step (a) is performed in a previous workflow, and the same selected SNP targets, e.g., a specific set of 10,230 SNP targets, are utilized in this workflow.
10,230個のSNP標的のセットを、4セットのサンプルの各々において検出するために選択した。4つの異なるサンプルセットを配列決定して、実施例1に記載の配列ライブラリーを生成した。これらの4つの異なるサンプルセットは、以下を含む。(1)Coriellで検証された最大2親等の関係を含む、CEPH/Utahからの関連する生前サンプルのセット(本明細書では「関連のある生前CEPH/Utahサンプル」と呼ぶ);(2)最大5親等の関係を含む私的な家族からの関連する生前サンプルのセット(本明細書では「関連する生前の私的な家族サンプル」と呼ぶ);(3)骨(火葬、防腐処理、焼却、および埋葬されたもの)、歯の残骸/歯、および様々な劣化指数(DI)レベルの劣化血液を含む無関係の死後サンプルのセット(本明細書では「真の死後サンプル」と呼ぶ);および(4)セット(2)からの同じサンプルを含むが(a)DNAを24時間沸騰させることによって人工的に劣化させた(2.1~20のDI範囲)か、または(b)低入力のDNA(50pg)で配列決定されたDNAを含む関連模擬死後サンプルのセット(本明細書では「関連模擬死後サンプル」と呼ぶ)。 A set of 10,230 SNP targets was selected for detection in each of four sets of samples. The four different sample sets were sequenced to generate the sequence library described in Example 1. These four different sample sets included: (1) a set of related antemortem samples from CEPH/Utah, including Coriell-verified relatives up to the second degree (referred to herein as "related antemortem CEPH/Utah samples"); (2) a set of related antemortem samples from private family members including relatives up to the fifth degree (referred to herein as "related antemortem private family samples"); (3) a set of unrelated postmortem samples including bone (cremated, embalmed, incinerated, and buried), dental remains/teeth, and deteriorated blood at various Deterioration Index (DI) levels (referred to herein as "true postmortem samples"); and (4) a set of related mock postmortem samples including the same samples from set (2), but either (a) artificially deteriorated by boiling the DNA for 24 hours (DI range of 2.1-20) or (b) sequenced with low DNA input (50 pg) (referred to herein as "related mock postmortem samples").
MiSeq FGx配列決定システムを使用して真の死後サンプルを12プレックスで実行し、結果を図15に示し、これは、この真の死後サンプルのセット内の個々のサンプルについて検出されたSNPの数を示す。これは、「歯」、「劣化した血液」、「埋葬された骨」、「低入力サンプル」、「他の劣化サンプル」、および「他の真の死後サンプル」として標識された真の死後サンプルを含む。図15に示すように、真の死後サンプルについては、4つの埋葬された骨サンプルのうち3つが、検出された(またはコールされた)SNPの数が最も少なく、248~1319個のSNPの範囲であり、最も高いDIを有する劣化した血液サンプル(DI 158およびDI 56)は、検出されたSNPの数が次に少なく、それぞれ、4,603個および5,069個のSNPが検出された。残りの真の死後サンプルは全て、最小6,737個のSNPが検出され、最大9,903個のSNPが検出された(図15)。「合計パス」カウントは、10,230個のSNPのフルセットのうちの各サンプルについて検出されたSNPの総数を反映し、「カウントパス」カウントは、サンプルにわたって一貫してコールされる2,639個のSNPのサブセットの中から検出されたSNPの総数を反映する。図15に示すように、2,639個のSNPのサブセット(「カウントパス」SNP)の中から検出されるSNPの数は、全体としてコールされるSNPの総数よりもバリエーションが少ないため、サンプルにわたって一貫してコールされる、すなわち検出されるSNPのコアセットがある。 The true postmortem samples were run in 12-plex using the MiSeq FGx sequencing system, and the results are shown in Figure 15, which shows the number of SNPs detected for each individual sample within this set of true postmortem samples. This includes true postmortem samples labeled as "teeth," "degraded blood," "buried bone," "low-input samples," "other degraded samples," and "other true postmortem samples." As shown in Figure 15, for the true postmortem samples, three of the four buried bone samples had the fewest number of detected (or called) SNPs, ranging from 248 to 1,319 SNPs. The degraded blood samples with the highest DI (DI 158 and DI 56) had the next fewest number of detected SNPs, with 4,603 and 5,069 SNPs, respectively. The remaining true postmortem samples all had a minimum of 6,737 SNPs detected and a maximum of 9,903 SNPs detected (Figure 15). The "Total Pass" count reflects the total number of SNPs detected for each sample out of the full set of 10,230 SNPs, while the "Count Pass" count reflects the total number of SNPs detected among the subset of 2,639 SNPs that are consistently called across samples. As shown in Figure 15, the number of SNPs detected among the subset of 2,639 SNPs ("Count Pass" SNPs) varies less than the total number of SNPs called overall, so there is a core set of SNPs that are consistently called, i.e., detected, across samples.
模擬死後サンプルも、MiSeq FGx配列決定システムを使用して12プレックスで実行し、結果を図16に示す。図16に示すように、沸騰によって人工的に劣化させた関連する模擬死後サンプル、すなわち0を超えるDIを有するサンプルは、検出されたSNPの数が1,470~8,999の範囲であり、関連する親および娘からのサンプルについて平均6,462個のSNPが検出された。低入力DNAサンプルは、0のDIおよび0.05ngのDNAの入力を有していた(図16)。 Mock postmortem samples were also run in 12-plex using the MiSeq FGx sequencing system, and the results are shown in Figure 16. As shown in Figure 16, related mock postmortem samples artificially degraded by boiling, i.e., samples with a DI greater than 0, had a range of 1,470 to 8,999 detected SNPs, with an average of 6,462 SNPs detected for samples from related parents and daughters. Low-input DNA samples had a DI of 0 and an input of 0.05 ng of DNA (Figure 16).
MiSeq FGx配列決定システムを使用して、関連する生前CEPH/Utahサンプルを12プレックス、16プレックス、24プレックスおよび32プレックスで実行して、血縁関係解析のための十分に多い数の検出されたSNP(すなわち、SNPコール率)をもたらす最も高いプレキシティを決定した。24プレックスの配列決定の実行は、平均で9,691個のSNPの検出をもたらし、これは、サンプルに応じて、8,297個の検出SNPから最大9,982個の検出SNPまでの範囲であった。32プレックスのシーケンシングランは、平均で9,048個のSNPの検出をもたらし、これは、6,894個の検出SNPから最大9,827個の検出SNPの範囲であった(データは示さず)。これは、30プレックス実行が、検出SNPの数および血縁関係解析の信頼性を有意に損なうことなく、検出SNPの十分に高いスループットを可能にすることを実証した。 Using the MiSeq FGx sequencing system, related antemortem CEPH/Utah samples were run at 12-plex, 16-plex, 24-plex, and 32-plex to determine the highest plexity that would yield a sufficiently high number of detected SNPs (i.e., SNP call rate) for kinship analysis. 24-plex sequencing runs resulted in the detection of an average of 9,691 SNPs, ranging from 8,297 detected SNPs to a maximum of 9,982 detected SNPs, depending on the sample. 32-plex sequencing runs resulted in the detection of an average of 9,048 SNPs, ranging from 6,894 detected SNPs to a maximum of 9,827 detected SNPs (data not shown). This demonstrated that 30-plex runs allow for a sufficiently high throughput of detected SNPs without significantly compromising the number of detected SNPs and the reliability of kinship analysis.
MiSeq FGx配列決定システムを使用して30プレックスのシーケンシングランを使用して、関連する生前の私的な家族サンプルを3つの無関係なサンプルと共に配列決定した。結果を図17に示す。図17に示すように、「自己」サンプルの1つの複製物(「rep1*」と標識)を除いて、各サンプルで7,000を超えるSNPが検出され、これはその特定のサンプルについてのライブラリー調製のエラーに起因する可能性があった。7,000個を超えるSNPが検出されたサンプルは、「自己」サンプル、および「自己」個体のいくつかの血縁者を含み、いとこの子供、娘、姉妹、甥、いとこ、および夫からのサンプルを含んだ。 A related pre-mortem private family sample was sequenced along with three unrelated samples using a 30-plex sequencing run using a MiSeq FGx sequencing system. The results are shown in Figure 17. As shown in Figure 17, with the exception of one replicate of the "self" sample (labeled "rep1*"), over 7,000 SNPs were detected in each sample, which could be attributed to library preparation errors for that particular sample. Samples in which over 7,000 SNPs were detected included the "self" sample and several blood relatives of the "self" individual, including samples from a cousin's child, daughter, sister, nephew, cousin, and husband.
次いで、シーケンシングラン後に生成されたDNAプロファイルを使用して血縁関係解析を行った。関連する生前私的家族サンプル(30プレックスで配列決定した)と、同じ元の関連サンプルに由来するが、関連模擬死後サンプルが人工的に劣化されたかまたは低入力で使用された、模擬死後サンプル(12プレックスで配列決定した)とを比較した。0.031の最小血縁係数値を使用して、最大3親等の全ての予想される関係(例えば、いとこ)が適合し、偽適合は得られず(例えば、偽陽性なし)、それにより、100%の特異性および100%の感度が得られた(データは示さず)。予想される4親等の適合(例えば、いとこの子供)の全部ではなく一部が得られた(データは示さず)。これらのデータは、この方法が、行方不明者および災害/紛争犠牲者の状況で利用可能であり得るような高度に劣化した低入力サンプルであっても、全ての無関連の関係を除外しながら、最大3親等の関係を正確に確認することができることを確実にする。 The DNA profiles generated after the sequencing run were then used to perform kinship analysis. Related pre-mortem private family samples (sequenced at 30-plex) were compared with mock postmortem samples (sequenced at 12-plex) derived from the same original related sample, but where the related mock postmortem samples were artificially degraded or used at low input. Using a minimum relatedness coefficient value of 0.031, all expected relationships up to the third degree (e.g., cousins) were matched and no false matches were obtained (e.g., no false positives), resulting in 100% specificity and 100% sensitivity (data not shown). Some, but not all, expected fourth-degree matches (e.g., cousins' children) were obtained (data not shown). These data confirm that this method can accurately confirm relationships up to the third degree while ruling out all unrelated relationships, even with highly degraded, low-input samples such as those that may be available in missing persons and disaster/conflict victim situations.
次に、最も適切な血縁係数閾値を評価するために、関連する模擬死後サンプル(12プレックスで配列決定した)をGEDMatchデータベースと比較し、関連する模擬死後サンプルによって表される関連個体はGEDMatchデータベースにおいて近親血縁者がないと仮定した。100%の特異性(すなわち、偽陽性なし)を達成するためには、血縁係数が0.062である必要があることが決定された。この血縁係数値閾値(0.062)を、関連する模擬死後サンプル(12プレックスで配列決定された)に、適用することにより、関連する生前の私的な家族サンプル(30プレックスで配列決定された)と比較して、既知の3親等の関係のいくつかを除外することによって感度を低下させることが明らかになった。
実施例12:血縁関係を正確に決定するために最小数のSNPを評価する
Next, to assess the most appropriate relatedness threshold, related simulated postmortem samples (sequenced at 12-plex) were compared to the GEDMatch database, assuming that related individuals represented by the related simulated postmortem samples had no close relatives in the GEDMatch database. It was determined that a relatedness coefficient of 0.062 was required to achieve 100% specificity (i.e., no false positives). Applying this relatedness threshold (0.062) to related simulated postmortem samples (sequenced at 12-plex) compared to related premortem private family samples (sequenced at 30-plex) was found to reduce sensitivity by excluding some known third-degree relationships.
Example 12: Assessing the minimum number of SNPs to accurately determine relatedness
血縁関係を正確に決定するための検出SNP(すなわち、SNPコール率)の最小数を同定するために、検出されたSNPの範囲(すなわち、コールされたSNP)をシミュレートするGEDMatchデータベース内の既知の関係を比較した。これは、1親等、2親等および3親等の家族関係を確認する際の感度および特異性について、2,000個のSNP、4,000個のSNP、6,000個のSNP、8,000個のSNPおよび10,000個のSNPのコール率を試験することを含んだ。結果を図18A~Eに示し、2,000個のSNP(図18A)、4,000個のSNP(図18B)、6,000個のSNP(図18C)、8,000個のSNP(図18D)、および10,000個のSNP(図18E)についての結果の受信者動作特性(ROC)曲線を示す。最も低いSNPコール率(n=2,000)は、1親等、2親等および3親等の関係において低減した特異性をもたらし(図18A)、検出された2,000個のSNPのSNPコール率が、関係を正確に確認するためのSNPコール率における絶対下限(absolute floor)であることを示唆した。 To identify the minimum number of detected SNPs (i.e., SNP call rate) required to accurately determine relatedness, we compared known relationships in the GEDMatch database that simulated the range of detected SNPs (i.e., called SNPs). This involved testing call rates of 2,000 SNPs, 4,000 SNPs, 6,000 SNPs, 8,000 SNPs, and 10,000 SNPs for sensitivity and specificity in confirming first-, second-, and third-degree kinship. The results are shown in Figures 18A–E, which show receiver operating characteristic (ROC) curves for the results for 2,000 SNPs (Figure 18A), 4,000 SNPs (Figure 18B), 6,000 SNPs (Figure 18C), 8,000 SNPs (Figure 18D), and 10,000 SNPs (Figure 18E). The lowest SNP call rate (n = 2,000) resulted in reduced specificity for first-, second-, and third-degree relationships (Figure 18A), suggesting that the SNP call rate of the 2,000 detected SNPs represents an absolute floor in SNP call rates for accurately identifying relationships.
3プレックスで非劣化サンプルを配列決定する能力は、4親等および5親等の関係を確認する可能性を開く。GEDMatchデータベースを使用して同様の解析を行ったが、4親等および5親等の関係を確認するためであった。これは、4親等および5親等の家族関係を確認する際の感度および特異性について、2,000個のSNP、4,000個のSNP、6,000個のSNP、8,000個のSNPおよび10,000個のSNPのコール率を試験することを含んだ。結果を図19A~Eに示し、血縁者の2,000個のSNP(図19A)、4,000個のSNP(図19B)、6,000個のSNP(図19C)、8,000個のSNP(図19D)、および10,000個のSNP(図19E)の結果のROC曲線を示す。図19A~Eに示すように、真の4親等および5親等の関係を正確に確認するためには、コールされたSNPの最小数(約6,000)をより高くすることが必要である。
実施例13:関連するサンプル、模擬生前サンプル、および模擬死後サンプルを用いた血縁関係解析のための高プレキシティSNP配列決定
The ability to sequence undegraded samples in 3-plex opens the possibility of confirming fourth- and fifth-degree relationships. A similar analysis was performed using the GEDMatch database, but to confirm fourth- and fifth-degree relationships. This involved testing the call rates of 2,000 SNPs, 4,000 SNPs, 6,000 SNPs, 8,000 SNPs, and 10,000 SNPs for sensitivity and specificity in confirming fourth- and fifth-degree familial relationships. The results are shown in Figures 19A-E, which show ROC curves for results of 2,000 SNPs (Figure 19A), 4,000 SNPs (Figure 19B), 6,000 SNPs (Figure 19C), 8,000 SNPs (Figure 19D), and 10,000 SNPs (Figure 19E) for relatives. As shown in Figures 19A-E, a higher minimum number of called SNPs (approximately 6,000) is required to accurately confirm true fourth- and fifth-degree relationships.
Example 13: High-plexity SNP sequencing for kinship analysis using related, simulated antemortem, and simulated postmortem samples
この実施例は、劣化していないサンプル、高度に劣化したサンプル、および低入力の死後(PM)および生前(AM)サンプルを含む異なるサンプルセットにおいて関連度を確認するために、本明細書に記載されるような血縁関係解析を実行することを記載する。具体的には、この実施例の目的は、潜在的な適合が(公的にアクセス可能なデータベースではなく)ローカルの私的データベース内に存在する状態で、高プレキシティで配列決定された劣化したサンプルから最大3親等の家族関係を、そのような家族関係を正確に予測するのに十分なSNPを依然として可能にしながら、決定することであった。関与する方法論の概略が図14に示されており、これは、(a)一連の法医学的に関連するSNP標的をキュレートし、10,230個のSNPなどの>10,000個のSNPを選択するステップ;(b)標的をタグ付けおよびコピーし、標的を富化し、標的を精製し、標的量を正規化することによって、死後および生前タイプのDNAサンプルから配列決定ライブラリーを調製するステップ;(c)より高いプレキシティ、例えば12プレックスまたはそれを超えるプレックスで次世代配列決定を行うステップ;(d)SNPレポート(DNAプロファイルとも呼ばれる)を生成するステップ;(e)SNPレポートをローカルサーバにアップロードするステップ;(f)ペアワイズ比較を行うステップ;および(g)血縁係数および尤度比を計算し、最も可能性の高い家族関係をフィルタリングするステップ、を含む。いくつかの実施形態では、ステップ(a)においてキュレートすることは、前のワークフローで行われ、同じ選択されたSNP標的、例えば10,230個のSNP標的の特定のセットが本ワークフローで利用される。いくつかの実施形態では、ウィンドウ付き血縁関係アルゴリズムが使用される。
A.方法論
This example describes performing kinship analysis as described herein to confirm relatedness in different sample sets, including undegraded samples, highly degraded samples, and low-input postmortem (PM) and antemortem (AM) samples. Specifically, the goal of this example was to determine familial relationships up to the third degree from degraded samples sequenced at high plexity, with potential matches present in a local private database (rather than a publicly accessible database), while still allowing for enough SNPs to accurately predict such familial relationships. The methodology involved is outlined in Figure 14 and includes the steps of: (a) curating a set of forensically relevant SNP targets and selecting >10,000 SNPs, such as 10,230 SNPs; (b) preparing sequencing libraries from postmortem and antemortem type DNA samples by tagging and copying targets, enriching targets, purifying targets, and normalizing target abundance; (c) performing next-generation sequencing at higher plexity, e.g., 12-plex or greater; (d) generating SNP reports (also called DNA profiles); (e) uploading the SNP reports to a local server; (f) performing pairwise comparisons; and (g) calculating relatedness coefficients and likelihood ratios and filtering the most likely familial relationships. In some embodiments, the curation in step (a) is performed in a previous workflow, and the same selected SNP targets, e.g., a specific set of 10,230 SNP targets, are utilized in this workflow. In some embodiments, a windowed kinship algorithm is used.
A. methodology
模擬生前サンプルおよび模擬死後サンプルを含むサンプルの各セットにおいて検出するために10,230個のSNP標的のセットを選択した。 A set of 10,230 SNP targets was selected for detection in each set of samples, including mock antemortem and mock postmortem samples.
ライブラリーを、1ngのNA24385 DNAを陽性対照としてこれらの研究において実施例1に記載されるように生成し、結果を、予想される品質管理メトリックを用いてForenSeq Universal Softwareバージョン2.3(UAS)において自動的に解析した。 Libraries were generated as described in Example 1 in these studies, with 1 ng of NA24385 DNA as a positive control, and results were automatically analyzed in ForenSeq Universal Software version 2.3 (UAS) using expected quality control metrics.
模擬生前(AM)サンプルとして使用される市販の無傷のDNAをこれらの研究のために購入し、これは、1000ゲノムプロジェクト、CEPHコレクションからの81個のDNAサンプルまたはCoriell Institute for Medical Research(Camden NJ,USA)からのPersonal Genome Project DNAサンプル、およびInnogenomics Inc.(New Orleans,LA,USA)からの全血から抽出された4個のDNAサンプルを含む。低入力DNAサンプルは、サンプルNA24385を0.05ng、0.1ng、0.25ngおよび0.5ngの量で含んだ。 Commercially available intact DNA used as simulated antemortem (AM) samples was purchased for these studies and included 81 DNA samples from the 1000 Genomes Project, CEPH collection, or Personal Genome Project DNA samples from the Coriell Institute for Medical Research (Camden, NJ, USA), and four DNA samples extracted from whole blood from Innogenomics Inc. (New Orleans, LA, USA). The low-input DNA samples included sample NA24385 at 0.05 ng, 0.1 ng, 0.25 ng, and 0.5 ng.
模擬死後(PM)サンプルDNA抽出物は、CT1、CT2、CT3、CT4、およびCT5と指定される5つの現代の歯(CT)サンプル、7つの現代の骨サンプル、および東ヨーロッパ起源の古代の骨からの1つのDNA抽出物からなった。サンプルCB 1、CB 3、CB 4、CB 6、およびCB 7についてはPrepFiler(商標)法医学DNA抽出キット(Thermo Fisher,Waltham,MA,USA)、または骨サンプルCB 2およびCB 5については脱灰プロトコルのいずれかを使用して、7つの現代の骨(CB)サンプルからのDNAを抽出した。CB骨DNAサンプルの劣化指数およびDNA濃度は、Quantifiler(商標)Trio DNA Quantification Kit(Thermo Fisher,Waltham,MA,USA)を使用して決定した。CBサンプルのDIは、CB1、CB2、CB3、CB4、CB5、CB6、およびCB7について、それぞれ13.6、4.3、5.6、1.1、1.8、2.5、および6.5であった。 The simulated postmortem (PM) sample DNA extracts consisted of five modern tooth (CT) samples, designated CT1, CT2, CT3, CT4, and CT5, seven modern bone samples, and one DNA extract from an ancient bone of Eastern European origin. DNA from the seven modern bone (CB) samples was extracted using either a PrepFiler™ Forensic DNA Extraction Kit (Thermo Fisher, Waltham, MA, USA) for samples CB1, CB3, CB4, CB6, and CB7, or a decalcification protocol for bone samples CB2 and CB5. The degradation index and DNA concentration of CB bone DNA samples were determined using the Quantifiler™ Trio DNA Quantification Kit (Thermo Fisher, Waltham, MA, USA). The DI of the CB samples was 13.6, 4.3, 5.6, 1.1, 1.8, 2.5, and 6.5 for CB1, CB2, CB3, CB4, CB5, CB6, and CB7, respectively.
さらに、意図的に劣化させたDNAを模擬AMまたは模擬PMサンプルのいずれかとして使用した。2つのシリーズの劣化したDNAを、Innogenomics Inc.(New Orleans,LA,USA)から購入した:DNAを、2人の異なる男性ドナーからの有機法を使用して全血から抽出し、50℃で0~16時間の範囲の時間の超音波処理によって剪断した(サンプル1231および3551)。ヒトDNAの量および劣化状態も決定した。1231サンプルは、7、8、10、11、および12と指定された1231サンプルについて、それぞれ26.3、33.6、48.6、160.3、および459.8のDIを有していた。3551サンプルは、56および158と指定された3551サンプルについて、それぞれ56および158.3のDIを有していた。 Additionally, intentionally degraded DNA was used as either mock AM or mock PM samples. Two series of degraded DNA were purchased from Innogenomics Inc. (New Orleans, LA, USA): DNA was extracted from whole blood using organic methods from two different male donors and sheared by sonication at 50°C for times ranging from 0 to 16 hours (samples 1231 and 3551). The quantity and degradation state of human DNA was also determined. The 1231 samples had DIs of 26.3, 33.6, 48.6, 160.3, and 459.8 for the 1231 samples designated 7, 8, 10, 11, and 12, respectively. The 3551 samples had DIs of 56 and 158.3 for the 3551 samples designated 56 and 158, respectively.
頬側サンプルは、図26に示すような系図を有する、本明細書では親族(RF)と呼ばれる既知の系図(RF004、RF016-021)を有する家族からのボランティアから収集した。DNAを頬側スワブから抽出し、精製した。親族(RF004およびRF016)からのDNAサンプルのうちの2つを、以下のように高温処理を使用して人工的に劣化させた:各個体からの精製頬側DNAの5つの複製物を、98℃で1時間、引き続いて4℃で10分間の21サイクルの加熱および冷却に供した。続いて乾燥させたDNAにDNAグレードの水を添加して、DNAを溶液にした。全ての親族DNAサンプルについて、劣化指数およびDNA濃度を決定した。劣化指数は、サンプルRF004については1、2.1、2.6、5.1および20の値、サンプルRF016については1、1.5、2.0、2.2および2.9の値で複製物について様々であった。 Buccal samples were collected from volunteers from families with known pedigrees (RF004, RF016-021), referred to herein as relatives (RF), with the pedigree shown in Figure 26. DNA was extracted from buccal swabs and purified. Two of the DNA samples from the relatives (RF004 and RF016) were artificially degraded using high-temperature treatment as follows: Five replicates of purified buccal DNA from each individual were subjected to 21 cycles of heating and cooling at 98°C for 1 hour, followed by 4°C for 10 minutes. DNA-grade water was then added to the dried DNA to bring the DNA into solution. Degradation indices and DNA concentrations were determined for all relative DNA samples. Degradation indices varied across replicates, with values of 1, 2.1, 2.6, 5.1, and 20 for sample RF004 and 1, 1.5, 2.0, 2.2, and 2.9 for sample RF016.
DNA配列ライブラリーを、ForenSeq Kintelligence Kit(Verogen,San Diego,CA,USA)を製造業者の指示に従って使用して調製し、ライブラリーを、QuantiFluor ONE dsDNAシステム(Promega,Madison,WI,USA)を使用して定量した。より高いプレキシティを使用してライブラリーを配列決定する場合、固有のデュアルインデックスアダプター(UDI)を利用した。ライブラリー調製の前に、無傷なDNAサンプルをライブラリー調製に投入するために定量した。模擬PM DNAサンプルを、qPCR法を利用して定量した。特に明記しない限り、前記DNAを40pg/μLに希釈して、1ngの全DNAをライブラリー調製反応に添加した。陽性対照DNA NA24385を、500、250、100および50pgの総DNA入力のため、20、10、4および2pg/μLに段階希釈して、低入力PMサンプルを模倣した。購入した人工的に劣化させたサンプルは、ライブラリー調製反応に1ngのDNAを添加するのに十分なDNA濃度を有していた。劣化した親族サンプルの全てが、ライブラリー調製反応に1ngのDNAを入力するのに十分なDNA濃度を有していたわけではなかった。サンプルRF004については、2.1、20、5.1および2.6のDIを有する劣化した複製物600pg、600pg、700pgおよび250pgをそれぞれライブラリー調製反応に添加した。サンプルRF016については、2.0.2.2および2.9のDIを有する劣化した複製物は、ライブラリー調製反応に1ngを添加するのに十分なDNA濃度を有していた。低入力サンプルを模倣するために、1および50のDIを有する50pgのRF004ならびに1および1.5のDIを有する250pgのRF016をそれぞれライブラリー調製反応に添加した。約1400mtDNAコピー/μLのmtDNA定量に基づいて、古代の骨のDNA濃度は390pgであると推定された。ライブラリー調製物の各セットは、1ngのNA24385 DNAの1つの陽性増幅対照および1つの陰性鋳型対照(NTC)を含んだ。 DNA sequencing libraries were prepared using the ForenSeq Kintelligence Kit (Verogen, San Diego, CA, USA) according to the manufacturer's instructions, and libraries were quantified using the QuantiFluor ONE dsDNA system (Promega, Madison, WI, USA). When sequencing libraries at higher plexities, unique dual-index adapters (UDIs) were utilized. Prior to library preparation, intact DNA samples were quantified for input into the library preparation. Mock PM DNA samples were quantified using qPCR. Unless otherwise noted, the DNA was diluted to 40 pg/μL, and 1 ng of total DNA was added to the library preparation reaction. The positive control DNA NA24385 was serially diluted to 20, 10, 4, and 2 pg/μL for total DNA inputs of 500, 250, 100, and 50 pg to mimic low-input PM samples. The purchased artificially degraded samples had sufficient DNA concentrations to add 1 ng of DNA to the library prep reactions. Not all degraded relative samples had sufficient DNA concentrations to add 1 ng of DNA to the library prep reactions. For sample RF004, degraded replicates with DIs of 2.1, 20, 5.1, and 2.6 were added at 600 pg, 600 pg, 700 pg, and 250 pg, respectively, to the library prep reactions. For sample RF016, degraded replicates with DIs of 2.0, 2.2, and 2.9 had sufficient DNA concentrations to add 1 ng to the library prep reactions. To mimic low-input samples, 50 pg of RF004 with DIs of 1 and 50 and 250 pg of RF016 with DIs of 1 and 1.5 were added to the library preparation reactions, respectively. Based on mtDNA quantification of approximately 1400 mtDNA copies/μL, the DNA concentration of the ancient bones was estimated to be 390 pg. Each set of library preparations included one positive amplification control of 1 ng of NA24385 DNA and one negative template control (NTC).
標的の増幅および精製後、ライブラリーを0.75ng/μLに正規化した。ライブラリー収率が0.75ng/μL未満である場合、ライブラリーを希釈せずにそのままプールした。商業的に得られた無傷DNAから生成された模擬AMライブラリーは、0.67ng/μLの1つを除いて、ライブラリー収率>0.75ng/μLを示した。模擬PM、低DNA入力、および商業的に劣化させたDNAサンプルから生成されたいくつかのライブラリーも、>0.75ng/μLの収率を有していた。8μLの各々正規化されたかまたはそのままのライブラリーを1.7ml微量遠心管にピペッティングすることによって、ライブラリーを様々なプレキシティでプールした。模擬AMサンプルから生成されたライブラリーを、変性および配列決定のために3、12、16、24、30または32の総ライブラリーのサンプルプレキシティでプールした。模擬PM DNAサンプルから生成されたライブラリーを、変性および配列決定のために3または12の総ライブラリーのサンプルプレキシティでプールした。プールしたライブラリーを、室温で5分間のインキュベーションによって新たに希釈したNaOH(HP3)で変性させ、次いで、HT1で希釈した。ヒト配列決定対照(HSC)(陽性配列決定対照として働く33個のSTRからなるライブラリー)も同様に変性させ、HT1で希釈した。次いで、変性HSCと組み合わせた変性ライブラリープールを、製造業者の推奨に従ってMiSeq FGx Reagent Kitを用いてMiSeq FGx機器で配列決定した。可能であれば、シーケンシングランは、ForenSeq Universal Analysis Software v2.2で作成された。配列決定は、全てのライブラリーについて151サイクルのペアエンドリードを利用した。シーケンシングランは、UDIアダプターに存在するインデックスを利用してライブラリーを脱多重化するのに必要な2つの8サイクルのインデックス化リード(indexing read)を含む。 After target amplification and purification, libraries were normalized to 0.75 ng/μL. If the library yield was less than 0.75 ng/μL, the libraries were pooled undiluted. Mock AM libraries generated from commercially obtained intact DNA showed library yields >0.75 ng/μL, with the exception of one at 0.67 ng/μL. Several libraries generated from mock PM, low DNA input, and commercially degraded DNA samples also had yields >0.75 ng/μL. Libraries were pooled at various plexities by pipetting 8 μL of each normalized or intact library into a 1.7 ml microcentrifuge tube. Libraries generated from mock AM samples were pooled at sample plexities of 3, 12, 16, 24, 30, or 32 total libraries for denaturation and sequencing. Libraries generated from mock PM DNA samples were pooled at sample plexities of 3 or 12 total libraries for denaturation and sequencing. The pooled libraries were denatured with freshly diluted NaOH (HP3) by incubation at room temperature for 5 minutes and then diluted with HT1. The human sequencing control (HSC) (a library consisting of 33 STRs serving as a positive sequencing control) was similarly denatured and diluted with HT1. The denatured library pool, combined with the denatured HSC, was then sequenced on a MiSeq FGx instrument using the MiSeq FGx Reagent Kit according to the manufacturer's recommendations. Where possible, sequencing runs were generated with ForenSeq Universal Analysis Software v2.2. Sequencing utilized 151 cycles of paired-end reads for all libraries. The sequencing run included two 8-cycle indexing reads required to demultiplex the libraries using the indexes present in the UDI adapters.
シミュレーション研究のためにサンプルあたり非常に高いリードを有する模擬AMライブラリーの配列決定結果を生成するために、模擬AMサンプルからの30個のライブラリーを、NextSeq 500機器において、NextSeq 500/550 High Output Kit v2.5(300 Cycles)キット(Illumina,San Diego,CA,USA)を製造業者の推奨に従って使用して配列決定した(NextSeqおよび変性/プールガイドを参照)。 To generate sequencing results for the mock AM library with very high reads per sample for simulation studies, 30 libraries from the mock AM sample were sequenced on a NextSeq 500 instrument using the NextSeq 500/550 High Output Kit v2.5 (300 Cycles) kit (Illumina, San Diego, CA, USA) according to the manufacturer's recommendations (see NextSeq and Denaturation/Pooling Guide).
次いで、以下のように二次および三次データ解析を使用して配列決定データを解析した。
メトリックは、MiSeq FGx(商標)実行の品質のためにUASを用いて設定される。これらのメトリックは、クラスター密度、クラスター通過フィルタ、フェージング、プレフェージング、およびQスコア閾値を含む。クラスター密度は、実行の平方ミリメートルあたりのクラスターの数(K)であり、メトリックは、最適な配列決定結果のために400~1650K/mm2に設定される。フィルタメトリックを通過するクラスターは、Illumina chastityフィルタ(ref)を通過するクラスターのパーセンテージを介してベースコールの品質を測定し、メトリックは≧80%に設定された。このメトリックが失敗すると、使用可能なリードの数は影響を受けるが、それらの通過リードの品質は影響を受けない。フェージングメトリックは、リード内で現在のサイクルから遅れており、≦0.25%の値が通過しているクラスター内のDNA鎖のパーセンテージを表す。あるいは、プレフェージングは、リード内で現在のサイクルの前に実行され、≦0.15%の値が通過しているクラスター内の分子を表す。フェージングまたはプレフェージングが仕様外である場合、配列決定エラーがより高いパーセンテージで存在し得る。実行からのデータを使用する前に、HSCがそのメトリックを通過するかどうかを決定することが重要である。
The sequencing data were then analyzed using secondary and tertiary data analysis as follows.
Metrics are set using the UAS for the quality of a MiSeq FGx™ run. These metrics include cluster density, cluster pass filter, phasing, prephasing, and Q-score threshold. Cluster density is the number of clusters per square millimeter of the run (K), and the metric is set at 400-1650K/ mm² for optimal sequencing results. The cluster pass filter metric measures base call quality via the percentage of clusters passing an Illumina chastity filter (ref), and the metric was set at ≥ 80%. Failure of this metric affects the number of usable reads, but not the quality of those passing reads. The phasing metric represents the percentage of DNA strands in a cluster that lag behind the current cycle in the read and have a passing value of ≤ 0.25%. Alternatively, prephasing is performed before the current cycle in the read and represents molecules in a cluster that have a passing value of ≤ 0.15%. If phasing or prephasing is out of specification, there may be a higher percentage of sequencing errors. Before using data from a run, it is important to determine whether the HSC passes the metric.
MiSeq FGx上で配列決定されたForenSeq Kintelligence Kitに供給された6つのUDIアダプターを用いて調製された全てのライブラリーサンプルを、前記のように(Jager et al.,Forensic Sci.Int.Genet.,2017,28:52-70(その内容は参照によりその全体が本明細書に組み込まれる))、対立遺伝子および遺伝子型コールについて、ForenSeq Universal Analysis Software(UAS)v2.3(Verogen,San Diego,CA)を用いて解析した。より高いプレキシティのために追加のUDIアダプターを用いて調製されたライブラリーサンプルについて、シーケンシングランを、UASで利用されるのと同じ生物情報学パイプラインを使用して、しかし、コマンドラインツールを介して別個のサーバで解析した。このパイプライン(UAS内またはコマンドラインツールを介して実行される)は、ForenSeq DNA Signature解析(Jager ref)(Verogen,San Diego,CA,USA)に使用されるUAS v1.3に存在するSNP遺伝子型コールのための同じ基本アルゴリズムを有する。最初に、サンプルは、バイナリベースコール(BCL)ファイルを脱多重化し、FASTQファイルを生成することによって、UDIアダプター上に見出される供給されたインデックス配列に基づいて脱多重化される。リード1および2は、Smith-Waterman-Gotohアルゴリズム(Gotoh,O.,J.Mol.Biol.,1982,162:705-708)を使用してプライマー配列にアラインメントされる。特定のプライマーペアにアラインメントされたリードは、それらのペアに対応する遺伝子座に割り当てられる。次いで、アラインメントをBAMフォーマットで記載した。各SNPの位置で、参照ベースコールへの適合および代替ベースコールへの適合がカウントされ、30の最小ベース品質でフィルタリングされた。次いで、リードの数を、各遺伝子座におけるコールの各タイプ(参照または代替)について合計し、10リードを超える最小カバレッジを必要とした。次いで、SNP遺伝子型を、解析閾値(AT)および解釈閾値(IT)を共に3%に設定してフィルタリングすることによって決定した。ATおよびIT閾値は、その遺伝子座におけるリードカウントの合計に3%を乗算することによって決定した。低いカバレッジが発生したとき、最小650リードを使用して閾値を計算した。次いで、得られたATおよびIT値を、各遺伝子座の参照および代替対立遺伝子についての総リードカウントと比較した。コールがAT閾値およびIT閾値の両方を通過した場合、遺伝子型を各遺伝子座について決定した。次いで、遺伝子型決定した結果をバリアントコールフォーマット(VCF)に記した。 All library samples prepared with the six UDI adapters provided in the ForenSeq Kintelligence Kit sequenced on the MiSeq FGx were analyzed for allele and genotype calling using ForenSeq Universal Analysis Software (UAS) v2.3 (Verogen, San Diego, CA) as previously described (Jager et al., Forensic Sci. Int. Genet., 2017, 28:52-70, the contents of which are incorporated herein by reference in their entirety). For library samples prepared with additional UDI adapters for higher complexity, sequencing runs were analyzed on a separate server using the same bioinformatics pipeline utilized in UAS, but via command-line tools. This pipeline (run within UAS or via a command line tool) uses the same basic algorithm for SNP genotype calling present in UAS v1.3 used for ForenSeq DNA Signature analysis (Jager ref) (Verogen, San Diego, CA, USA). First, samples are demultiplexed based on the supplied index sequences found on the UDI adapter by demultiplexing binary base call (BCL) files and generating FASTQ files. Reads 1 and 2 are aligned to primer sequences using the Smith-Waterman-Gotoh algorithm (Gotoh, O., J. Mol. Biol., 1982, 162:705-708). Reads aligned to specific primer pairs are assigned to the loci corresponding to those pairs. The alignments are then written in BAM format. At each SNP position, matches to the reference base call and matches to the alternate base call were counted and filtered with a minimum base quality of 30. The number of reads was then summed for each type of call (reference or alternate) at each locus, requiring a minimum coverage of greater than 10 reads. SNP genotypes were then determined by filtering with an analysis threshold (AT) and interpretation threshold (IT), both set at 3%. The AT and IT thresholds were determined by multiplying the sum of the read counts at that locus by 3%. When low coverage occurred, a minimum of 650 reads was used to calculate the threshold. The resulting AT and IT values were then compared to the total read counts for the reference and alternate alleles at each locus. If the call passed both the AT and IT thresholds, a genotype was determined for each locus. Genotyping results were then written in a variant call format (VCF).
いくつかの研究では、全ゲノム血縁関係アルゴリズム試験のためにGEDMatchデータシミュレーションを行った。これらの研究のために、GEDMatchデータベースプロファイルをダウンロードし、Snedecor et al.,Forensic Sci.Int.Genet.,2022,61,102769,doi:10.1016/j.fsigen.2022.102769(その内容は参照によりその全体が本明細書に組み込まれる)に記載されているように解析した。「クエリーサンプル」と呼ばれる1000個の匿名化サンプルのセットをGEDMatchからランダムに選択した。次いで、これらのサンプルをGEDMatchデータベース内の血縁者について照会し、「標的サンプル」と呼ばれる任意のヒットを、GEDMatch1対多ツールによって計算された共有センチモルガン(cM)値に基づいて選択した。この検索は、適合したクエリーサンプルと共に2954個の標的サンプルをもたらした。これらの結果は、0個の共有cMを有し、真の関係のないペアを表すクエリー・標的ペアを含んでいた。したがって、標的サンプルの数は、関連する標的サンプルと関連しない標的サンプルの両方を含むため、クエリーサンプルの数よりも多い。1対多ツールから生成された得られた共有cM値を、https://dnapainter.com/tools/sharedcmv4でアクセス可能なDNA Painterによって提供される親等あたりの共有cMの予想範囲と比較することによって、関係親等を決定した。クエリーおよび標的セットに含まれるサンプルに分類された遺伝子座は、最初にパネル内の10,230個のSNPについてフィルタリングされ、次いで80%、60%、40%、および20%のコール率にランダムにフィルタリングされ、各クエリー・標的ペアでコールされたそれぞれ8000、6000、4000、および2000個の遺伝子座が生じた。全ゲノムの血縁係数を、各レベルの低減した遺伝子座コール率について、各クエリー・標的サンプルペアについて、血縁関係アルゴリズムを使用して計算した。0.031を超える全ゲノム血縁係数を有するペアは、関係があると考えられた。0.031未満またはそれに等しい全ゲノム血縁係数を有するペアは、無関係であると考えられた。これらの結果を1対多のツールクエリー結果と比較することによって、感度および特異性を計算した。換言すれば、1対多クエリー結果は真のセットと考えられ、血縁関係アルゴリズムによって生成された結果は試験セットと考えられた。 In several studies, GEDMatch data simulations were performed to test the genome-wide kinship algorithm. For these studies, GEDMatch database profiles were downloaded and analyzed as described in Snedecor et al., Forensic Sci. Int. Genet., 2022, 61, 102769, doi:10.1016/j.fsigen.2022.102769 (the contents of which are incorporated herein by reference in their entirety). A set of 1,000 de-identified samples, referred to as "query samples," was randomly selected from GEDMatch. These samples were then queried for relatives in the GEDMatch database, and any hits, referred to as "target samples," were selected based on the shared centimorgan (cM) values calculated by the GEDMatch one-to-many tool. This search yielded 2,954 target samples along with matched query samples. These results included query-target pairs with zero shared cM, representing true unrelated pairs. Therefore, the number of target samples is greater than the number of query samples, as it includes both related and unrelated target samples. Degrees of relatedness were determined by comparing the resulting shared cM values generated from the one-to-many tool with the expected range of shared cM per degree of kinship provided by DNA Painter, accessible at https://dnapainter.com/tools/sharedcmv4. Loci classified for samples included in the query and target sets were first filtered for the 10,230 SNPs in the panel and then randomly filtered to 80%, 60%, 40%, and 20% call rates, resulting in 8,000, 6,000, 4,000, and 2,000 loci called for each query-target pair, respectively. Genome-wide relatedness coefficients were calculated for each query-target sample pair for each level of reduced locus call rate using the kinship algorithm. Pairs with genome-wide relatedness coefficients greater than 0.031 were considered related. Pairs with genome-wide relatedness coefficients less than or equal to 0.031 were considered unrelated. Sensitivity and specificity were calculated by comparing these results with the one-to-many tool query results. In other words, the one-to-many query results were considered the true set, and the results generated by the kinship algorithm were considered the test set.
次いで、尤度比(LR)および血縁関係値を以下のように計算した。LRは、アルゴリズムpedprobr(Brustad et al.,Int.J.Legal Med.,2021,135:117-129(その内容は参照によりその全体が本明細書に組み込まれる))およびdvir(Vigeland et al.,Scientific Reports,2021,11:13661(その内容は参照によりその全体が本明細書に組み込まれる))を使用して計算した。ゲノム集約データベース(gnoMAD)(Karczewski et al.,Nature,2020,581:434-443(その内容は参照によりその全体が本明細書に組み込まれる))v3.0からの集団頻度の平均をLR計算に使用した。変異モデルは使用せず、シータは、解析のために選択されたSNPが低い連鎖不平衡(Karczewskiら、上記)を有するので0に設定した。LRは、以下のように計算され:
Snedecor et al.,Forensic Sci.Int.Genet.,2022,61:102769(その内容は参照によりその全体が本明細書に組み込まれる)に以前記載されているように、PC-Relate(Conomos et al.,American Journal of Human Genetics,2016,98:127-148(その内容は参照によりその全体が本明細書に組み込まれる))およびPC-AiR(Conomos et al.,Genetic Epidemiology,2015,39:276-293(その内容は参照によりその全体が本明細書に組み込まれる))を使用して、全ゲノム血縁係数、共有cMおよび最長セグメントcMを計算した。この方法は、2つの個体間の関係が未知であり、それによって系図を必要としない場合に有用である。 Genome-wide relatedness coefficients, shared cM, and longest segment cM were calculated using PC-Relate (Conomos et al., American Journal of Human Genetics, 2016, 98:127-148, the contents of which are incorporated herein by reference in their entirety) and PC-AiR (Conomos et al., Genetic Epidemiology, 2015, 39:276-293, the contents of which are incorporated herein by reference in their entirety) as previously described in Snedecor et al., Forensic Sci. Int. Genet., 2022, 61:102769, the contents of which are incorporated herein by reference in their entirety. This method is useful when the relationship between two individuals is unknown and therefore pedigrees are not required.
PC-AiR法は、最初に遺伝子型決定された個体のセットを取り、それらを2つの重複しないサブセットに分離する:一方のセットは、全ての個体の祖先を表す無関係な個体を含有し(無関係なサブセット)、他方のセットは、第1のサブセット内に少なくとも1つの血縁者を有する個体を含有する(関連するサブセット)。無関係なサブセットを構築するために、モデルを構築する際の計算効率を改良するために元のPC-AiR法に修正を加えた。無関係なサブセットには、血縁者を有さないサンプルまたは最も少ない血縁者を有するサンプルが追加されるが、より多くの血縁者を有するサンプルは無関係なサブセットから除外される。これは、Conomos et al.,Genetic Epidemiology,2015,39:276-293(その内容は参照によりその全体が本明細書に組み込まれる)のように、ペアごとに血縁関係値を計算し、厳格な閾値に基づいて、各個体を血縁者がいるかどうかに分類することによって行われる:血縁関係値が0.01より大きい場合は血縁者と考えられ、血縁関係値が-0.025未満の場合は関連しないと考えられた。5%未満の欠落SNPデータを有するサンプルは除外した。次に、無関係なサブセットに対して主成分解析(PCA)を実施し、次いで、無関係なサブセット内の個体との遺伝的類似性に基づいて、関連するサブセット内の全ての個体について変動の成分に沿って値を予測した。得られたコンポーネントは、未知の個体のセットにおける適合を確認するために静的な集団頻度の代わりに使用することができるモデルを表した。この研究で使用されたモデルは、GEDMatchデータベースを使用して構築された。 The PC-AiR method first takes a set of genotyped individuals and separates them into two non-overlapping subsets: one set contains unrelated individuals representing the ancestry of all individuals (unrelated subset), and the other set contains individuals who have at least one relative in the first subset (related subset). To construct the unrelated subset, modifications were made to the original PC-AiR method to improve computational efficiency in building the model. Samples with no relatives or the fewest relatives are added to the unrelated subset, while samples with more relatives are excluded from the unrelated subset. This is similar to the method described by Conomos et al. This was done by calculating a pairwise relatedness value and classifying each individual as related or unrelated based on a strict threshold, as described in [Random], Genetic Epidemiology, 2015, 39:276-293 (the contents of which are incorporated herein by reference in their entirety): relatedness values greater than 0.01 were considered related, and relatedness values less than -0.025 were considered unrelated. Samples with less than 5% missing SNP data were excluded. Principal component analysis (PCA) was then performed on the unrelated subset, and values along components of variation were then predicted for all individuals in the related subset based on their genetic similarity to individuals in the unrelated subset. The resulting components represented a model that could be used in place of static population frequencies to confirm fit in an unknown set of individuals. The model used in this study was built using the GEDMatch database.
PC-Relateは、PC-AiRからの主成分を使用し、遺伝的相関を2つの成分に分離する:1つは最近の共通祖先からの家系による同一の対立遺伝子の共有のためのものであり、もう1つはより遠い共通祖先による対立遺伝子共有のためのものである。PC-AiRからの成分を使用して、gnoMADからのものなどの静的集団頻度の代わりに線形回帰を使用して、個体の祖先のバックグラウンドに基づく対立遺伝子頻度を推定した。次いで、2つの個体iおよびjについて、血縁係数
上記のSnedecorらは、遠い関係をより正確に確認するために、「ウィンドウ付き血縁関係」と呼ばれる追加のステップを導入した。ウィンドウ付き血縁関係は、共有された血縁関係セグメントを見出すためにゲノム全体にわたる血縁関係のウィンドウを計算することからなる。これは、各染色体内の全ての可能なウィンドウを列挙し、全てのウィンドウの血縁係数を計算することによって実行される。次いで、これらのウィンドウは、最小血縁係数閾値によってフィルタリングされ、共有cMs計算に含まれる。次いで、フィルタリングされたセグメントを反復し、少なくとも1つの対立遺伝子および2つの対立遺伝子を共有するSNPのストレッチを別々に分類する。次いで、全共有cMが全セグメントにわたって計算される。総共有cMおよびcMの最長セグメントは、ウィンドウ付き血縁関係アルゴリズムを参照するときに関係を確認するために使用される。2つの個体間で共有されるSNPの数が6000~8000の間である場合、関係性を考えるためには、共有されるcM値は180を超えなければならず、cMの最長セグメントは30を超えなければならない。2つの個体間で共有されるSNPの数が8000~9000の間である場合、関係性を考えるためには、共有されるcM値は150を超えなければならず、cMの最長セグメントは30を超えなければならない。2つの個体間で共有されるSNPの数が9000またはそれを超える場合、関係性を考えるためには、共有されるcM値は140を超えなければならず、cMの最長セグメントは30を超えなければならない。全ゲノム血縁係数を使用して、共有される任意の数のSNPでフィルタリングすることができる。しかしながら、上記のSnedecorらは、共有cMおよび最長セグメントcMでフィルタリングするとき(例えば、ウィンドウ付き血縁関係を使用する)、SNP重複が6000より大きい場合、特により高い関連度について、より高い特異性を観察した。 Snedecor et al. (2013) introduced an additional step called "windowed kinship" to more accurately identify distant relationships. Windowed kinship involves calculating a genome-wide window of kinship to find shared related segments. This is performed by enumerating all possible windows within each chromosome and calculating the kinship coefficients for all windows. These windows are then filtered by a minimum kinship coefficient threshold and included in the shared cMs calculation. The filtered segments are then iterated, and stretches of SNPs that share at least one allele and two alleles are separately classified. Total shared cMs are then calculated across all segments. The total shared cMs and the longest segment of cMs are used to confirm relationships when referring to the windowed kinship algorithm. If the number of shared SNPs between two individuals is between 6,000 and 8,000, the shared cM value must exceed 180, and the longest segment of cMs must exceed 30, to consider the relationship. If the number of SNPs shared between two individuals is between 8,000 and 9,000, the shared cM value must exceed 150 and the longest segment of cM must exceed 30 to consider related. If the number of SNPs shared between two individuals is 9,000 or more, the shared cM value must exceed 140 and the longest segment of cM must exceed 30 to consider related. The whole-genome relatedness coefficient can be used to filter on any number of shared SNPs. However, Snedecor et al., supra, observed higher specificity when filtering by shared cM and longest segment of cM (e.g., using windowed relatedness) when the SNP overlap was greater than 6,000, particularly for higher degrees of relatedness.
より単純には、2つの個体間で分類されたSNPの数(SNP重複)を使用して、全ゲノム血縁関係アルゴリズムをいつ使用するか(<6000個のSNP重複)およびウィンドウ付き血縁関係アルゴリズムをいつ使用するか(>6000個のSNP重複)を決めることができる。そして、そのSNP重複に基づいて1つのアルゴリズムが決められると、選択されたアルゴリズムに応じて、データをフィルタリングして関係を確認するために値または値のセットが使用される。上記のSnedecorらで実証されているように、全ゲノム血縁関係とウィンドウ付き血縁関係の両方のカットオフを選択して、高い感度を確保したが、より重要なことには、高い特異性を確保した。これらの閾値を下げることは、より多くの関係を捕捉し得る(すなわち、感度を上げる)が、特により遠い関係(例えば、4親等および5親等)に対して、より多くの偽陽性ヒットをもたらすことが予想される。
上記の方法を使用して、より高いプレキシティでライブラリーを配列決定し、それによって総サンプルリードを低減させる研究を、血縁関係解析のための費用対効果の高い方法のための安定だがより小さい分類されたSNPセットを生成するために行った。
B.結果
More simply, the number of SNPs classified between two individuals (SNP overlap) can be used to determine when to use a genome-wide relatedness algorithm (<6,000 SNP overlap) and when to use a windowed relatedness algorithm (>6,000 SNP overlap). Once an algorithm is determined based on the SNP overlap, a value or set of values is used to filter the data and identify relationships, depending on the selected algorithm. As demonstrated in Snedecor et al., supra, cutoffs for both genome-wide relatedness and windowed relatedness were selected to ensure high sensitivity, but more importantly, high specificity. Lowering these thresholds may capture more relationships (i.e., increasing sensitivity), but is expected to result in more false-positive hits, especially for more distant relationships (e.g., fourth- and fifth-degree relatives).
Using the above method, studies were conducted to sequence libraries at higher plexity, thereby reducing total sample reads, in order to generate a stable but smaller typed SNP set for a cost-effective method for kinship analysis.
B. result
配列ライブラリーを使用した高プレキシティの実現可能性を示すために、模擬AMサンプルの中からの高品質DNAサンプルから生成された30個のライブラリーのセットで高プレキシティ(シーケンシングランで>3個のサンプル)をシミュレートした。30個の模擬AMサンプルを調製し、上記のように一緒に配列決定して、多数のリードを有するサンプルデータを生成した。BCLファイルは、NextSeqによって生成された生データの違いに起因してFASTQファイルの生成においてのみ異なる、ForenSeq UAS二次解析パイプラインのカスタムのローカル構築を使用して脱多重化された。16個の配列ライブラリーをシミュレートするためのリードの数を決定するために、25,000,000(リードの合計推定数)を16(サンプル数)で割り、アラインメントされた平均パーセント(96%)を掛け、このプレキシティでサンプルあたり合計1,500,000個のリードを得た。次いで、同じ計算を行って30個の配列ライブラリーをシミュレートしたが、16で割る代わりに30で割って800,000個のリードを得た。より少ないリードでシーケンシングランをシミュレートすることは、「ダウンサンプリング」と呼ばれる。seqtk(https://github.com/lh3/seqtk)などの生物情報学ツールを使用して、より少ないリードで実行をシミュレートするか、またはシーケンシングランをダウンサンプリングすることができる。Seqtkを使用して、各サンプルを150万リードにダウンサンプリングして16サンプル/実行のプレキシティをシミュレートするか、または800,000リードにダウンサンプリングして30サンプル/実行のプレキシティをシミュレートした。seqtkは、FASTQファイルからリードをランダムに選択し、所望のリード数を有する新しいFASTQを出力する。その後のダウンサンプリングされたFASTQは、上記のようにFASTQを解析したローカルに構築されたForenSeq UASパイプラインを介して処理された。 To demonstrate the feasibility of high plexity using sequence libraries, we simulated high plexity (>3 samples per sequencing run) with a set of 30 libraries generated from high-quality DNA samples from among the simulated AM samples. The 30 simulated AM samples were prepared and sequenced together as described above to generate sample data with a large number of reads. The BCL files were demultiplexed using a custom, local build of the ForenSeq UAS secondary analysis pipeline, which differed only in the generation of FASTQ files due to differences in the raw data generated by NextSeq. To determine the number of reads to simulate 16 sequence libraries, we divided 25,000,000 (the total estimated number of reads) by 16 (the number of samples) and multiplied by the average percent aligned (96%), yielding a total of 1,500,000 reads per sample at this plexity. The same calculations were then performed to simulate 30 sequence libraries, but instead of dividing by 16, we divided by 30 to obtain 800,000 reads. Simulating a sequencing run with fewer reads is called "downsampling." Bioinformatics tools such as seqtk (https://github.com/lh3/seqtk) can be used to simulate runs with fewer reads or downsample sequencing runs. Using Seqtk, each sample was downsampled to 1.5 million reads to simulate a plexity of 16 samples/run or 800,000 reads to simulate a plexity of 30 samples/run. seqtk randomly selects reads from the FASTQ file and outputs a new FASTQ with the desired number of reads. The resulting downsampled FASTQ was then processed through a locally built ForenSeq UAS pipeline that analyzed the FASTQs as described above.
産生されたサンプルあたりの全リードの範囲は8,086,090~32,707,490であり、平均23,186,251リードであった。高プレキシティをシミュレートするために、ダウンサンプリングと呼ばれる所望のリード数が満たされるまで、各サンプルについてのFASTQファイルからのリードをランダムに選択した。ダウンサンプリングは、所望のリード数が達成されるまでのFASTQファイルからのリードのランダムな選択として定義される。その後、ランダムに選択したリードを新しいFASTQファイルに出力した。得られたFASTQファイルを、上記の生物情報学アルゴリズムで解析した。各サンプルについてそれぞれ1.5Mリードおよび800,000リードにデータをダウンサンプリングすることによって、16および30の配列決定プレキシティをシミュレートした。サンプルあたりのリード数を減少させると、分類されたSNPの数の予想される減少がもたらされた。 The total reads generated per sample ranged from 8,086,090 to 32,707,490, with an average of 23,186,251 reads. To simulate high plexity, reads were randomly selected from the FASTQ file for each sample until the desired number of reads was met, referred to as downsampling. Downsampling is defined as the random selection of reads from the FASTQ file until the desired number of reads was achieved. The randomly selected reads were then output to a new FASTQ file. The resulting FASTQ file was analyzed with the bioinformatics algorithm described above. Sequencing plexities of 16 and 30 were simulated by downsampling the data to 1.5M and 800,000 reads for each sample, respectively. Reducing the number of reads per sample resulted in an expected decrease in the number of classified SNPs.
サンプルにわたるSNPコール率を決定するために、各シミュレートされた配列決定プレキシティ(16および30)で各サンプルについて、分類されたSNPの数を決定した。16サンプル実行(16プレックス)データは、FASTQファイル中の生リードをサンプルあたり150万リードにダウンサンプリングすることによって生成され、30サンプル実行(30プレックス)データは、生リードをサンプルあたり800,000リードにダウンサンプリングすることによって生成された。その後、遺伝子型決定を行い、サンプルあたりの分類されたSNPの数を合計した。16サンプル実行について、最小は7781であり、第1四分位数は8472であり、中央値は8630であり、第3四分位数は8708であり、最大は8848であった。30プレックスについて、最小は6375であり、第1四分位数は7179であり、中央値は7299であり、第3四分位数は7382であり、最大は7516であった。30個のライブラリーの2つのシミュレートされたプレキシティの分類されたSNPの分布を図20Aに示す。16のプレキシティの平均回収率は8586個のSNP(7781~8848個の範囲のSNP)であり、中央値は8630個のSNP、第1四分位数は8472個のSNP、第3四分位数は8708個のSNPであり、30のプレキシティの平均回収率は7234個のSNP(6375~7516個の範囲のSNP)であり、中央値は7299、第1四分位数は7179、第3四分位数は7382個のSNPであった(図20A)。 To determine the SNP call rate across samples, the number of classified SNPs was determined for each sample at each simulated sequencing complexity (16 and 30). The 16-sample run (16-plex) data was generated by downsampling the raw reads in the FASTQ file to 1.5 million reads per sample, and the 30-sample run (30-plex) data was generated by downsampling the raw reads to 800,000 reads per sample. Genotyping was then performed, and the number of classified SNPs per sample was summed. For the 16-sample run, the minimum was 7781, the first quartile was 8472, the median was 8630, the third quartile was 8708, and the maximum was 8848. For the 30-plex run, the minimum was 6375, the first quartile was 7179, the median was 7299, the third quartile was 7382, and the maximum was 7516. The distribution of sorted SNPs for two simulated plexities of 30 libraries is shown in Figure 20A. The mean recovery for a plexity of 16 was 8586 SNPs (ranging from 7781 to 8848 SNPs), with a median of 8630 SNPs, a first quartile of 8472 SNPs, and a third quartile of 8708 SNPs. The mean recovery for a plexity of 30 was 7234 SNPs (ranging from 6375 to 7516 SNPs), with a median of 7299 SNPs, a first quartile of 7179 SNPs, and a third quartile of 7382 SNPs (Figure 20A).
上記の血縁関係アルゴリズムおよび尤度比を使用して関係を決定することは、SNP重複とも呼ばれる、1対1の比較における各サンプルの分類されたSNPの数に有意に依拠する。 Determining relatedness using the above-described kinship algorithm and likelihood ratios relies significantly on the number of classified SNPs for each sample in a one-to-one comparison, also called SNP overlap.
両方のサンプルに分類されたSNPの数が多いほど、血縁関係および尤度比の値はより確実になる。したがって、シミュレートされた16および30のプレキシティシーケンシングランの両方におけるサンプル間の平均SNP重複を計算して、血縁関係および尤度比の値との真の関係を確認するために、十分な分類されたSNP遺伝子座がサンプル間で共有されるかどうかを調べた。シミュレートされた16および30のプレキシティシーケンシングランの両方におけるサンプルの全ての組み合わせにわたる一般的な分類されたSNP遺伝子座の平均は6998遺伝子座であり、最小重複は6058、最大重複は7322であった。シミュレーションは、各サンプルに対してより少ない全リードが得られるようにライブラリーを配列決定することが、血縁関係決定のために十分な重複を伴って各サンプルに対してより小さい安定なSNPセットを分類することを可能にすることを実証している。一般的な分類されたSNPの数は8000未満であり、これはより高次の関係(例えば、4親等および5親等)を確認するのに十分ではないかもしれないが、3親等までの関係を確認するのに十分であり得る。 The greater the number of SNPs classified in both samples, the more certain the relatedness and likelihood ratio values. Therefore, we calculated the average SNP overlap between samples in both the simulated 16- and 30-plexity sequencing runs to determine whether sufficient classified SNP loci were shared between samples to confirm true relatedness and the likelihood ratio values. The average common classified SNP loci across all sample combinations in both the simulated 16- and 30-plexity sequencing runs was 6,998 loci, with a minimum overlap of 6,058 and a maximum overlap of 7,322. The simulation demonstrates that sequencing libraries to obtain fewer total reads for each sample allows for the classification of a smaller, more stable set of SNPs for each sample with sufficient overlap for relatedness determination. The number of common classified SNPs was less than 8,000, which may not be sufficient to confirm higher-order relatedness (e.g., fourth- and fifth-degree relatedness), but may be sufficient to confirm relatedness up to the third degree.
増加したプレキシティでの配列決定ライブラリーは、より少ない数の分類されたSNPをもたらし、特にDNAが劣化したおよび/または少量の死後(PM)サンプルについて、対立遺伝子の脱落の増大およびその後のヘテロ接合性の減少をもたらし得ると予想された。より高いプレキシティでの遺伝子座および対立遺伝子の脱落およびヘテロ接合性のレベルを評価するために、上記のような模擬生前サンプル(AM)および模擬死後(PM)から生成されたライブラリーを、シーケンシングランあたり3サンプルの推奨されるプレキシティで配列決定し、次いでシーケンシングランあたり12、16、24、および32サンプルの4つのより高いプレキシティで配列決定した。結果として得られた分類されたSNPの数を図20Bに示す。図20Bに示すように、最小、第1四分位数、中央値、第3四分位数、および最大は、3プレックスについて、9853、9976、10009、10059、および10135であり;12プレックスについて、9332、9394、9419、9520、および9945であり;16プレックスについて、8881、9091、9303、9419、および9901であり;32プレックスについて、7653、8348、8515、8706、および9753であった。図20Cに示すように、最小、第1四分位数、中央値、第3四分位数、および最大は、3プレックスについて、7215、8677、9724、9923、および9991であり;12プレックスについて、4603、8261、9360、9664、および9903であった。図20Bに示されるように、許容された閾値(AT)を下回るリードを有する遺伝子座の数は、参照サンプルについてのプレキシティが増加するにつれて増加した。さらに、ATを下回る遺伝子座の分布は、配列決定プレキシティが増加するにつれて広がり、実行あたり3つのサンプルで配列決定されたサンプルについては平均10,111(最小9,853、最大10,135)個の分類されたSNPであり、実行あたり32個のサンプルで配列決定されたサンプルについては平均8,528(最小7,653、最大9,753)個の分類されたSNPであった。分類されたSNPの最小数は、試験されたシーケンシングランあたり32サンプルの最高プレキシティで7,000を超えたままであり、これは、高いプレキシティでこれらのライブラリーを配列決定することが、上記で議論され図20Aに示されるシミュレートした結果と比較して、より多くの分類されたSNP遺伝子座をもたらすことを示した。 It was expected that sequencing libraries at increased plexity would result in fewer classified SNPs and may result in increased allele dropout and subsequent decreased heterozygosity, especially for postmortem (PM) samples with degraded and/or low DNA abundance. To assess locus and allele dropout and heterozygosity levels at higher plexities, libraries generated from simulated antemortem (AM) and PM samples as described above were sequenced at the recommended plexity of three samples per sequencing run, followed by sequencing at four higher plexities of 12, 16, 24, and 32 samples per sequencing run. The resulting number of classified SNPs is shown in Figure 20B. As shown in Figure 20B, the minimum, 1st quartile, median, 3rd quartile, and maximum were 9853, 9976, 10009, 10059, and 10135 for 3-plex; 9332, 9394, 9419, 9520, and 9945 for 12-plex; 8881, 9091, 9303, 9419, and 9901 for 16-plex; and 7653, 8348, 8515, 8706, and 9753 for 32-plex. As shown in Figure 20C, the minimum, first quartile, median, third quartile, and maximum were 7215, 8677, 9724, 9923, and 9991 for 3-plex; and 4603, 8261, 9360, 9664, and 9903 for 12-plex. As shown in Figure 20B, the number of loci with reads below the accepted threshold (AT) increased as the plexity for the reference sample increased. Furthermore, the distribution of loci below the AT broadened as the sequencing plexity increased, with an average of 10,111 (minimum 9,853, maximum 10,135) classified SNPs for samples sequenced with three samples per run and an average of 8,528 (minimum 7,653, maximum 9,753) classified SNPs for samples sequenced with 32 samples per run. The minimum number of typed SNPs remained above 7,000 at the highest plexity of 32 samples per sequencing run tested, indicating that sequencing these libraries at high plexity resulted in many more typed SNP loci compared to the simulated results discussed above and shown in Figure 20A.
次に、ヘテロ接合遺伝子座についての姉妹対立遺伝子の喪失に対するより高いプレキシティ配列決定の影響を、実行あたり3サンプルの推奨されるプレキシティで配列決定されたサンプルライブラリーについて決定されたSNP遺伝子型を、実行時に32サンプルで配列決定された同じサンプルライブラリーについて決定されたSNP遺伝子型と比較することによって評価した。推奨されるプレキシティ配列決定(3プレックス)およびより高いプレキシティ配列決定(32プレックス)の各サンプルおよび各遺伝子座について、遺伝子型は、両方の実行が同じ対立遺伝子を分類した場合は一致し、そうでなければ不一致であると考えられた。3プレックス配列決定と32プレックス配列決定との間の平均重複は8,610個のSNPであり、最小は7,808個のSNPおよび最大は9,667個のSNPであった。常染色体遺伝子座の場合、一致していると考えられるためには、両方の対立遺伝子が適合しなければならない。各サンプルの対立遺伝子一致を、一致する対立遺伝子の数を、両方のシーケンシングランにおいて分類された遺伝子座における対立遺伝子の総数で割ることによって計算した。模擬生前サンプルの場合、対立遺伝子不一致(対立遺伝子がAT未満に低下する)は、32と比較して、3のプレキシティで配列決定されたライブラリー間で平均1.9%増加し、最小0.50%および最大2.8%であった(図21A、左y軸)。ヘテロ接合性は、サンプルあたりのヘテロ接合性遺伝子座の数を合計し、その値をコールされた遺伝子座の総数で割ることによって決定した。実行あたり32個のサンプル(32プレックス)で配列決定されたサンプルは、実行あたり3個のサンプル(3プレックス)の標準的なプレキシティと比較して、ヘテロ接合性の最も大きな差を示し、6.8%の平均差、2.0%の最小差、10.2%の最大差であり、3プレックスの配列決定は、これらの値によってヘテロ接合性がより大きいことを示す。(図21A、右y軸)。 Next, the impact of higher-plexity sequencing on sister allele loss for heterozygous loci was assessed by comparing SNP genotypes determined for sample libraries sequenced at the recommended plexity of three samples per run with SNP genotypes determined for the same sample libraries sequenced with 32 samples per run. For each sample and each locus, genotypes were considered concordant if both runs classified the same allele; otherwise, they were discordant. The average overlap between 3-plex and 32-plex sequencing was 8,610 SNPs, with a minimum of 7,808 SNPs and a maximum of 9,667 SNPs. For autosomal loci, both alleles must match to be considered concordant. Allelic concordance for each sample was calculated by dividing the number of concordant alleles by the total number of alleles at the locus classified in both sequencing runs. For simulated antemortem samples, allelic discordance (alleles dropping below AT) increased by an average of 1.9% between libraries sequenced at a plexity of 3 compared to 32, with a minimum of 0.50% and a maximum of 2.8% (Figure 21A, left y-axis). Heterozygosity was determined by summing the number of heterozygous loci per sample and dividing that value by the total number of loci called. Samples sequenced at 32 samples per run (32-plex) showed the greatest difference in heterozygosity compared to the standard plexity of 3 samples per run (3-plex), with a mean difference of 6.8%, a minimum difference of 2.0%, and a maximum difference of 10.2%, indicating that 3-plex sequencing exhibits greater heterozygosity by these values (Figure 21A, right y-axis).
MFIの犠牲者からのサンプルの特徴は、それらがしばしば劣化し、低レベルのゲノムDNAを含有し得ることである。しかしながら、費用対効果の、および全体を通した文脈において、シーケンシングランあたりのサンプル数を増加させることも有利であるが、これは、より少ない数の分類されたSNPおよびヘテロ接合性の減少をもたらし、それによってこれらの問題を悪化させる可能性がある。劣化DNAおよび低入力DNAについてシーケンシングランあたり3個のサンプルを用いる標準プロトコルと比較して配列決定プレキシティの増加が模擬死後サンプルにどのような影響を及ぼすかを評価するために、様々なレベルの劣化を有する30個の模擬死後(PM)サンプル、低入力DNAサンプル、歯の残骸、および火葬、防腐処理、焼却、および埋められた骨からライブラリーを生成した。これらのライブラリーを、標準3プレックスおよび12プレックスで配列決定した。サンプルあたりおよび実行あたりのATを超える分類たSNPの数は、2つのシーケンシングラン間で有意に異ならなかったが、より高いプレキシティで配列決定されたいくつかのサンプルは、有意により少ない数の分類されたSNPを有していた。例えば、図20Cに示すように、3プレックスでの配列決定は、模擬PMサンプルについて平均9,313個のSNP、最小7,215個のSNP、および最大9,991個のSNPをもたらしたが、12プレックスでの配列決定は、模擬PMサンプルについて平均8,796個のSNP、最小4,603個のSNP、および最大9,903個のSNPをもたらした。これらの結果は、劣化したおよび/または低DNA入力のサンプル、例えば死後サンプルについて実行あたりのサンプル数の増加はAT未満の遺伝子座の数を増加させるが、分類された遺伝子座の数に対する最大の影響は、DNAの劣化状態および/または量であることを示している。 A characteristic of samples from MFI victims is that they are often degraded and may contain low levels of genomic DNA. However, while increasing the number of samples per sequencing run is also advantageous in a cost-effective and overall context, this may result in a lower number of classified SNPs and reduced heterozygosity, thereby exacerbating these issues. To evaluate how increased sequencing plexity affects mock postmortem samples compared to the standard protocol using three samples per sequencing run for degraded and low-input DNA, we generated libraries from 30 mock postmortem (PM) samples with various levels of degradation, low-input DNA samples, dental remains, and cremated, embalmed, incinerated, and buried bones. These libraries were sequenced at standard 3-plex and 12-plex. The number of classified SNPs per sample and above AT per run did not differ significantly between the two sequencing runs, but some samples sequenced at higher plexity had significantly fewer classified SNPs. For example, as shown in Figure 20C, 3-plex sequencing yielded an average of 9,313 SNPs, a minimum of 7,215 SNPs, and a maximum of 9,991 SNPs for the mock PM samples, while 12-plex sequencing yielded an average of 8,796 SNPs, a minimum of 4,603 SNPs, and a maximum of 9,903 SNPs for the mock PM samples. These results indicate that for degraded and/or low-DNA input samples, such as postmortem samples, increasing the number of samples per run increases the number of sub-AT loci, but the greatest impact on the number of classified loci is the DNA degradation state and/or quantity.
3プレックスまたは12プレックスで配列決定されたライブラリーの模擬PMサンプルの遺伝子型コールの一致を、上記の模擬AMサンプルについて記載したように実行した。これは、現代の骨サンプルおよび現代の歯サンプルを含み、さらに、一連の2つの劣化したDNA(サンプル1231および3551)を、Innogenomics Inc.(New Orleans,LA,USA)から購入した。32プレックスまたは12プレックスをそれぞれの3プレックス実行と比較し、各遺伝子座での同じ対立遺伝子コールを一致として分類し、異なる対立遺伝子コールを不一致(AT未満)として分類することによって、一致パーセントを計算した。常染色体遺伝子座について一致していると考えられるためには、両方の対立遺伝子が適合しなければならない。適合する遺伝子座の数を、各サンプルについて両方の実行がコールした遺伝子座の総数で割ることによって、パーセンテージを計算した。図21Aの模擬AMサンプルについてコールされる遺伝子座の範囲は7808~9667であり、平均8610であった。図21Bの模擬PMサンプルについては、4580~9795であり、平均は8627であった。ヘテロ接合性パーセントは、ヘテロ接合性遺伝子座の数を合計し、その値をコールされた遺伝子座の総数で割ることによって決定した。模擬PMサンプルは、歯の残骸(Tooth)から抽出されたDNA、様々な劣化レベルの血液(1231および3551で始まるサンプル名)、埋められた骨(BB1)、火葬された骨(CB1)、防腐処理された骨(CB2およびCB3)、焼却された骨(CB5、CB6、CB7)、ならびに0.05、0.1、および0.25ngのCoriellサンプルNA24385の一連の低DNA入力(それぞれ50pg、100pg、250pg)であった。 Genotype call concordance for mock PM samples from 3-plex or 12-plex sequenced libraries was performed as described for mock AM samples above. This included a modern bone sample and a modern tooth sample, plus two sets of degraded DNA (samples 1231 and 3551) purchased from Innogenomics Inc. (New Orleans, LA, USA). Percent concordance was calculated by comparing the 32-plex or 12-plex run with each 3-plex run and classifying identical allele calls at each locus as concordant and distinct allele calls as discordant (less than AT). For autosomal loci to be considered concordant, both alleles must match. The percentage was calculated by dividing the number of matching loci by the total number of loci called by both runs for each sample. The range of loci called for the simulated AM samples in Figure 21A was 7808 to 9667, with an average of 8610. For the simulated PM samples in Figure 21B, the range was 4580 to 9795, with an average of 8627. Percent heterozygosity was determined by summing the number of heterozygous loci and dividing that value by the total number of called loci. The simulated PM samples included DNA extracted from tooth remains (Tooth), blood with various levels of degradation (sample names beginning with 1231 and 3551), buried bone (BB1), cremated bone (CB1), embalmed bone (CB2 and CB3), incinerated bone (CB5, CB6, CB7), and a series of low DNA inputs (50 pg, 100 pg, and 250 pg, respectively) of Coriell sample NA24385 at 0.05, 0.1, and 0.25 ng.
両方の実行で分類された遺伝子座の数は、4580~9795の範囲であり、平均8627個のSNP遺伝子座であった。対立遺伝子不一致(AT未満に低下する対立遺伝子)は、平均して1.2%増加し、最小0.1%および最大2.6%であった(図21B、右軸)。歯の残骸ならびに火葬された骨および焼却された骨は、最も低い対立遺伝子不一致を示し、平均不一致は0.6%、最小不一致は0.1%、最大不一致は1.3%であった。 The number of loci classified in both runs ranged from 4,580 to 9,795, with an average of 8,627 SNP loci. Allelic discordance (alleles falling below the AT) increased by an average of 1.2%, with a minimum of 0.1% and a maximum of 2.6% (Figure 21B, right axis). Dental remains and cremated and incinerated bones showed the lowest allelic discordance, with an average discordance of 0.6%, a minimum discordance of 0.1%, and a maximum discordance of 1.3%.
模擬AMサンプルについて上記のようにヘテロ接合性を計算した。ヘテロ接合性レベルは、入力DNAの劣化レベルおよび量に応じて変化した(図21B、右軸)。158および56の劣化指数を有する2つの劣化DNAサンプル(それぞれ3551_158および3551_56)、および埋葬骨サンプル(BB1)および0.05ng(50pg)のNA24385サンプルは、配列決定プレキシティの間でヘテロ接合性の最も高い差を実証した(それぞれ9.0%、13.5%、26.9%、および10.8%)。1231個のライブラリー7~8および10~12(図21B)を、劣化量を増加させながら同じDNAサンプルから生成した(それぞれ7、8、10、11、および12と指定された1231個のサンプルについての26.3、33.6、48.6、160.3、および459.8のDI)。ヘテロ接合性は、DNAの劣化の増加とともに減少し、MiSeq FGxにおいて12のプレキシティで配列決定されたこれらのライブラリーについて、26.3のDIを有するサンプル1231_7については37%のヘテロ接合性、459.8のDIを有するサンプル1231_12については31%のヘテロ接合性であった。BB1は、3プレックスで配列決定した場合、最も高いレベルのヘテロ接合性を有していた。このサンプル(BB1)の遺伝子座内バランス(ILB)の調査は、実行あたり3サンプルのプレキシティで配列決定したサンプルおよび12サンプルのプレキシティで配列決定したサンプルについて、それぞれ53%および28%のILBを示した。これらの結果は、実行あたり3サンプルのプレキシティで配列決定されたBB1サンプルについて観察されたヘテロ接合性の増加の原因が、ILBが非常に低いであろうという予想のため、配列決定エラーに起因しないことを示している。 Heterozygosity was calculated as described above for the mock AM samples. Heterozygosity levels varied depending on the degradation level and amount of input DNA (Figure 21B, right axis). Two degraded DNA samples with degradation indices of 158 and 56 (3551_158 and 3551_56, respectively), as well as the burial bone sample (BB1) and the 0.05 ng (50 pg) NA24385 sample, demonstrated the highest differences in heterozygosity across sequencing plexities (9.0%, 13.5%, 26.9%, and 10.8%, respectively). 1231 libraries 7-8 and 10-12 (Figure 21B) were generated from the same DNA samples with increasing amounts of degradation (DIs of 26.3, 33.6, 48.6, 160.3, and 459.8 for the 1231 samples designated 7, 8, 10, 11, and 12, respectively). Heterozygosity decreased with increasing DNA degradation, with sample 1231_7 having a DI of 26.3 and sample 1231_12 having a DI of 459.8 for these libraries sequenced on the MiSeq FGx at a plexity of 12. BB1 had the highest level of heterozygosity when sequenced at 3-plex. Examination of the intralocus balance (ILB) of this sample (BB1) showed 53% and 28% ILB for samples sequenced at a plexity of 3 and 12 samples per run, respectively. These results indicate that the increased heterozygosity observed for the BB1 sample sequenced at a plexity of 3 samples per run is not due to sequencing errors, as the ILB was expected to be very low.
CB指定を有する骨サンプル(焼却、防腐処理、または火葬された骨DNA抽出物)は、ヘテロ接合性の最小差を示した(7つのサンプルの中で、1.7%平均差;0.1%最小;3.9%最大)。さらに、このアプローチを使用したハイスループットは、歯の残骸で良好に機能し、ヘテロ接合性の2.5%の平均差を示し、1.8%の最小差および4.5%の最大差であった。 Bone samples with a CB designation (incinerated, embalmed, or cremated bone DNA extracts) showed the smallest differences in heterozygosity (among seven samples: 1.7% mean difference; 0.1% minimum; 3.9% maximum). Furthermore, high-throughput using this approach performed well with dental remains, showing a 2.5% mean difference in heterozygosity, with a 1.8% minimum difference and a 4.5% maximum difference.
MFIの犠牲者の血縁関係を評価するために、AMサンプルをPMサンプルと比較して関連性を試験し、1対1の比較となった。両方の個体に分類されたSNPの数(SNP重複)は、関係、特に遠い関係、例えば4親等および5親等の関係の決定に有意に影響する。したがって、12プレックスで配列決定された模擬PMサンプルと32プレックスで配列決定された模擬AMサンプルとの間のサンプルの全ての組み合わせの中でSNP重複(共通するSNP遺伝子座)を計算した。これは、各模擬PMサンプルを各模擬AMサンプルとペアリングし、両方のサンプルで遺伝子型決定されたSNP遺伝子座の数を同定し、その値を合計して、各ペアのSNP重複を得ることによって行った。模擬PMおよび模擬AMサンプルの組み合わせ間の平均重複は8,020であり、最小4,071および最大9,727であった。これらのデータは、平均して約8,000個のSNPで、このアプローチを使用してより高いプレキシティ(実行あたり、PMサンプルについては12個、AMサンプルについては32個)でこれらのライブラリーを配列決定することが、1親等、2親等、3親等、最大4親等の関係およびいくつかの5親等の関係を確認することを可能にすることを示している。 To assess the kinship of MFI victims, AM samples were compared with PM samples to test for relatedness, resulting in a one-to-one comparison. The number of SNPs classified in both individuals (SNP overlap) significantly influences the determination of relatedness, especially distant relationships, such as those between the fourth and fifth degrees of kinship. Therefore, we calculated the SNP overlap (shared SNP loci) among all sample combinations between simulated PM samples sequenced at 12-plex and simulated AM samples sequenced at 32-plex. This was done by pairing each simulated PM sample with each simulated AM sample, determining the number of SNP loci genotyped in both samples, and summing these values to obtain the SNP overlap for each pair. The average overlap between the simulated PM and simulated AM sample combinations was 8,020, with a minimum of 4,071 and a maximum of 9,727. These data indicate that sequencing these libraries at higher plexity (12 for PM samples and 32 for AM samples per run) using this approach, with an average of approximately 8,000 SNPs, allows for confirmation of first-, second-, third-, up to fourth-, and some fifth-degree relationships.
次に、SNPコール率が共通して<9000遺伝子座(2000~8000個の分類されたSNP)であった場合の関係を確認する全ゲノム血縁関係アルゴリズムの能力を調べた。上記のSnedecorらによって提示されたデータは、ウィンドウ付き血縁関係アルゴリズムを使用して、SNPコール率が約9,000遺伝子座であった場合に、全ての関連度を確認する高い精度を実証した。ウィンドウ付き血縁関係は、2つの個体間の共有セグメントを見出すためにゲノム全体の血縁関係のウィンドウを計算することにより機能する。上記のSnedecorらを参照されたい。全ゲノム血縁関係アルゴリズムは、ゲノム全体を2つの個体間のウィンドウではなく、血縁関係の1つのセグメントと考える。Snedecorらは、より高次の関係(例えば、4親等および5親等)を確認するために、ウィンドウ付き血縁関係は、2つの対応するサンプルに分類されたSNPの数(SNP重複)が少なくとも9000個のSNPである場合により正確であることを実証した。図20Bおよび図20Cに示されるように、高プレキシティで配列決定された模擬AMおよび模擬PMサンプルは、ウィンドウ付き血縁関係アルゴリズムに必要な>/=9000のSNPコール率を示す可能性が低かった。上記のSnedecorらに記載されているように、SNP重複が共通して6000~8000遺伝子座の範囲内にある場合、ウィンドウ付き血縁関係は、1親等、2親等、3親等、およびほとんどの4親等の関係について良好に機能した。しかしながら、SNP重複の範囲が共通して2000~4000遺伝子座である場合、ウィンドウ付き血縁関係の性能は減少した。 Next, we examined the ability of whole-genome kinship algorithms to confirm relationships when the SNP call rate was <9,000 loci in common (2,000-8,000 classified SNPs). The data presented by Snedecor et al., supra, demonstrated high accuracy in confirming all relatedness using a windowed kinship algorithm when the SNP call rate was approximately 9,000 loci. Windowed kinship works by calculating a genome-wide window of kinship to find shared segments between two individuals. See Snedecor et al., supra. The whole-genome kinship algorithm considers the entire genome as a single segment of kinship, rather than a window between two individuals. Snedecor et al. demonstrated that for confirming higher-order relationships (e.g., fourth- and fifth-degree kinship), windowed kinship is more accurate when the number of SNPs classified in two corresponding samples (SNP overlap) is at least 9,000 SNPs. As shown in Figures 20B and 20C, simulated AM and PM samples sequenced at high plexity were less likely to exhibit the SNP call rate of >/= 9000 required for the windowed kinship algorithm. As described in Snedecor et al., supra, windowed kinship performed well for first-, second-, third-, and most fourth-degree relationships when SNP overlaps were commonly in the range of 6000-8000 loci. However, the performance of windowed kinship decreased when SNP overlaps were commonly in the range of 2000-4000 loci.
関連するプロファイルをシミュレートするための上記の方法を使用して、次に、SNPコール率が共通して9,000遺伝子座未満(2,000~8,000個の分類されたSNP)である場合の関係を確認する全ゲノム血縁関係アルゴリズムの能力を調べた。 Using the methods described above to simulate relatedness profiles, we next examined the ability of whole-genome kinship algorithms to confirm relationships when the SNP call rate was less than 9,000 loci in common (2,000-8,000 classified SNPs).
ウィンドウ付き血縁関係アルゴリズムは、共有されたセンチモルガン(cM)および最長セグメントcMのメトリックとの関連性を報告するが、全ゲノム血縁関係アプローチは、全ゲノム血縁係数との関連性を報告し、血縁係数閾値が>0.031であると親類であるとみなされる。 The windowed kinship algorithm reports relatedness in terms of shared centimorgans (cM) and longest segment cM metrics, while the whole-genome kinship approach reports relatedness in terms of whole-genome kinship coefficients, with a kinship coefficient threshold of >0.031 being considered related.
1000個の匿名クエリープロファイルをGEDMatchデータベースからランダムに選択し、データベース全体で検索して、1~5親等に及ぶ関係ならびに0の共有cMを有する無関係なサンプルについて2954個の「関連」標的プロファイルを選択した。簡潔には、「クエリーサンプル」と呼ばれる一連の1000個の匿名化サンプルをGEDMatchからランダムに選択した。次いで、これらのサンプルをGEDMatchデータベース内の血縁者に対して照会し、「標的サンプル」と呼ばれる任意のヒットを、GEDMatch1対多ツールによって計算された共有センチモルガン(cM)値に基づいて選択した。この検索は、2954個の標的サンプルを、適合したクエリーサンプルと一緒にもたらした。これらの結果は、0個の共有cMを有し、真の無関係のペアを表すクエリー・標的ペアを含んでいた。したがって、標的サンプルの数は、関連する標的サンプルと関連しない標的サンプルの両方を含むため、クエリーサンプルの数よりも多い。1対多ツールから生成された得られた共有cM値を、DNA Painterによって提供される親等あたりの共有cMの予想範囲と比較することによって、関係親等(relationship degree)を決定した。プロファイルは、Kintelligenceマルチプレックスの10,230個のSNPについて最初にフィルタリングされた。その後、プロファイルを80%、60%、40%、および20%のコール率にランダムにフィルタリングし、各クエリー・標的ペアの各プロファイルにおいてそれぞれ8000、6000、4000、および2000の遺伝子座を得た。次いで、全ゲノム血縁関係アルゴリズムを計算して、合計446,182の比較について、全てのSNP数で全てのクエリー・標的ペアについて1対1の関係を試験した。 One thousand anonymous query profiles were randomly selected from the GEDMatch database and searched across the database to select 2,954 "related" target profiles for relationships ranging from the first to fifth degree of kinship, as well as unrelated samples with zero shared cM. Briefly, a set of 1,000 anonymized samples, referred to as "query samples," was randomly selected from GEDMatch. These samples were then queried against relatives in the GEDMatch database, and any hits, referred to as "target samples," were selected based on shared centimorgan (cM) values calculated by the GEDMatch one-to-many tool. This search yielded 2,954 target samples along with matched query samples. These results included query-target pairs with zero shared cM, representing truly unrelated pairs. Therefore, the number of target samples is greater than the number of query samples because it includes both related and unrelated target samples. Relationship degree was determined by comparing the resulting shared cM values generated from the one-to-many tool with the expected range of shared cM per degree provided by DNA Painter. Profiles were first filtered for the 10,230 SNPs in the Kintelligence multiplex. Profiles were then randomly filtered to call rates of 80%, 60%, 40%, and 20%, resulting in 8,000, 6,000, 4,000, and 2,000 loci in each profile for each query-target pair, respectively. A whole-genome kinship algorithm was then calculated to test for one-to-one relationships across all query-target pairs at all SNP counts, for a total of 446,182 comparisons.
1親等および2親等の関係は、図22Aに示されるように、2000個の分類されたSNPを有するプロファイルについてであっても(平均感度70.6%、平均特異性100%)、高い特異性および感度を示した(図22A~図22D)。感度は、3親等の関係について減少し始めたが、全ゲノム血縁関係アルゴリズムは、4,000~8,000個の分類されたSNPを有するプロファイルについてのウィンドウ付き血縁関係よりも、関係検出についてより良好に機能した(平均感度25.1%、平均特異性99.2%)(図22B、図22C、および図22D)。より少ない分類されたSNPでは、4親等および5親等の適合は、低い感度および特異性を示した(図22A~図22D)。ウィンドウ付き血縁関係アルゴリズムは、多数の分類されたSNPを有するこれらのライブラリープロファイルを用いて、これらのより高次の関係を、より高い感度およびより高い特異性で、確認した(Snedecor et al.,Forensic Sci Int Genet 2022,61,102769,doi:10.1016/j.fsigen.2022.102769(その内容は参照によりその全体が本明細書に組み込まれる))。重要なことに、全ての親等に対する特異性は99.98%を超えたままであり、6,000および8,000のSNP範囲は99.9975%を超えたままであった(図22Cおよび図22D)。これらの結果は、全ゲノム血縁関係が非常に低い偽陽性率を有することを示している。全体として、これらのデータは、本明細書においてより高いプレキシティで調製された配列決定ライブラリーが、1親等、2親等および3親等の関係を確実に確認するのに十分な分類されたSNPデータをもたらすことを示唆している。これらのシミュレートされた結果はまた、配列ライブラリーを生成するためのこのアプローチを本明細書に記載の全ゲノムアルゴリズムと組み合わせることが、災害犠牲者身元確認(DVI)のために機能するはずであり、(公共および/または法執行機関にアクセス可能なサーバとは対照的に)ローカルサーバに実装して、生前サンプルの小さなデータベースにわたる血縁関係決定を可能にすることができることを示唆している。 First- and second-degree relationships showed high specificity and sensitivity (average sensitivity 70.6%, average specificity 100%), even for profiles with 2,000 classified SNPs, as shown in Figure 22A (Figures 22A-D). Although sensitivity began to decrease for third-degree relationships, the whole-genome kinship algorithm performed better for relationship detection than windowed kinship for profiles with 4,000 to 8,000 classified SNPs (average sensitivity 25.1%, average specificity 99.2%) (Figures 22B, 22C, and 22D). With fewer classified SNPs, fourth- and fifth-degree matches showed lower sensitivity and specificity (Figures 22A-D). The windowed kinship algorithm confirmed these higher-order relationships with higher sensitivity and specificity using these library profiles with a large number of classified SNPs (Snedecor et al., Forensic Sci Int Genet 2022, 61, 102769, doi: 10.1016/j.fsigen.2022.102769, the contents of which are incorporated herein by reference in their entirety). Importantly, specificity for all degrees of kinship remained above 99.98%, and for the 6,000 and 8,000 SNP ranges remained above 99.9975% (Figures 22C and 22D). These results indicate that genome-wide kinship has a very low false positive rate. Overall, these data suggest that the sequencing libraries prepared at higher plexities herein yield sufficient typed SNP data to reliably confirm first-, second-, and third-degree relationships. These simulated results also suggest that combining this approach to generating sequence libraries with the whole-genome algorithm described herein should work for disaster victim identification (DVI) and could be implemented on a local server (as opposed to a publicly and/or law enforcement-accessible server) to enable kinship determination across small databases of antemortem samples.
次に、上記の方法によって調製されたライブラリー上の真の関係を確認する本明細書に記載の全ゲノムアルゴリズムの能力を、上記に記載され図23Aに示される関連する生前CEPH/Utahサンプルを用いて試験した。これらのサンプルは、2セットの祖父母、1セットの両親、および11人の兄弟姉妹を含み、それによって1親等および2親等の関係を表すので選択された(図23A)。これらのライブラリーを、既知の無関係なペアを除外しながら真の関係を確認する精度を維持することができる最も高いプレキシティを決定するために、シーケンシングランあたり12、16、24、または32サンプルのプレキシティで配列決定した。 Next, the ability of the whole-genome algorithm described herein to confirm true relationships on libraries prepared by the above method was tested using the related antemortem CEPH/Utah samples described above and shown in Figure 23A. These samples were selected because they contained two sets of grandparents, one set of parents, and 11 siblings, thereby representing first- and second-degree relationships (Figure 23A). These libraries were sequenced at a plexity of 12, 16, 24, or 32 samples per sequencing run to determine the highest plexity possible to maintain accuracy in confirming true relationships while excluding known unrelated pairs.
実行あたりの各サンプルに分類されたSNPの数を決定して、血縁関係および尤度比の計算を行うのに十分なSNPが分類されることを確実にした(図24)。SNPコール率は、実行あたりのサンプル数が増加するにつれて減少し(図24)、結果は、図20Bおよび20Cの初期ハイスループット試験に匹敵し、それにより、これらのライブラリーの高プレキシティ配列決定の再現性が示される。図24に示すように、最小、第1四分位数、中央値、第3四分位数、および最大は、12プレックスについて、9831、9859、9907、9987、および10079であり;16プレックスについて、9718、9816、9862、9957、および10024であり;24プレックスについて、9428、9570、9618、9798、および9907であり;32プレックスについて、8979、9294、9387、9588、および9743であった。 The number of SNPs classified in each sample per run was determined to ensure that enough SNPs were classified to perform relatedness and likelihood ratio calculations (Figure 24). The SNP call rate decreased as the number of samples per run increased (Figure 24), a result comparable to the initial high-throughput studies in Figures 20B and 20C, demonstrating the reproducibility of high-plexity sequencing of these libraries. As shown in Figure 24, the minimum, first quartile, median, third quartile, and maximum were 9831, 9859, 9907, 9987, and 10079 for 12-plex; 9718, 9816, 9862, 9957, and 10024 for 16-plex; 9428, 9570, 9618, 9798, and 9907 for 24-plex; and 8979, 9294, 9387, 9588, and 9743 for 32-plex.
次に、これらの高プレキシティプロファイルを使用して本明細書に記載のアルゴリズムの感度および特異性を確証するために、血縁関係メトリックを計算した。計算された血縁関係メトリックは、全ゲノム血縁係数、共有cM、最長ピークcM、および系図内のメンバーの全ての組み合わせに対する尤度比を含む。この家族のほとんどの構成員は関係があり、5つのペアの個体のみが無関係であった。無関係な対照の数を増加させ、行方不明者の事例に使用されるデータベース(大部分は犠牲者の家族構成員からの定義された模擬生前サンプルで構成される)を最良にシミュレートするために、ランダムに選択された1000ゲノムプロジェクトの100個のサンプルを含めた。International Genome Sample Resource database(Fairley et al.,Nucleic Acids Res 2020,48,D941-D947,doi:10.1093/nar/gkz836(その内容は参照によりその全体が本明細書に組み込まれる))から遺伝子型をダウンロードし、ForenSeq Kintelligence Kit(Verogen,Inc.)の10,230個のSNPパネル内の遺伝子座のみを含めるようにフィルタリングした。 Next, kinship metrics were calculated to validate the sensitivity and specificity of the algorithms described herein using these high-complexity profiles. The calculated kinship metrics included the genome-wide kinship coefficient, shared cM, longest peak cM, and likelihood ratios for all combinations of members within the pedigree. Most members of this family were related, with only five pairs of individuals being unrelated. To increase the number of unrelated controls and best simulate databases used in missing persons cases (which consist mostly of defined, simulated antemortem samples from victims' family members), we included 100 randomly selected samples from the 1000 Genomes Project. Genotypes were downloaded from the International Genome Sample Resource database (Fairley et al., Nucleic Acids Res 2020, 48, D941-D947, doi:10.1093/nar/gkz836, the contents of which are incorporated herein by reference in their entirety) and filtered to include only loci within the 10,230 SNP panel of the ForenSeq Kintelligence Kit (Verogen, Inc.).
上記で実証されたように、実行あたり12サンプルのプレキシティは、劣化したおよび/または低量のDNAを有する模擬死後(PM)サンプルから十分なSNPをコールするのに十分であることが決定された。DVIに対して実行されるようなPM対生前(AM)比較をシミュレートするために、12サンプルの実行サンプルをPMサンプルと考えた。次いで、各PMサンプルプロファイルを、全てのシーケンシングランからの他のサンプルプロファイル(実行あたり12、16、24、および32サンプル)ならびに1000ゲノムプロジェクトからの100個の無関係なプロファイルの各々とペアリングして、各ペアについて全ゲノム血縁係数、共有cM、最長セグメントcM、および尤度比を計算して関連ペアを同定した。Utah/CEPH 1463家族は、祖父母、両親、兄弟姉妹を含む。各固有のグラフは、12サンプルの実行対自身(12_vs_12)、16サンプル(12_vs_16)、24サンプル(12_vs_24)、および32サンプル(12_vs_32)の実行の比較を表し、死後対生前の比較をシミュレートし、生前サンプルの近い関係の正確な同定を維持することができる最も高いプレキシティを決定する。サンプルをペアリングし、各ペアについて血縁係数およびlogLRを計算した。Utah/CEPH 1463家族の血縁関係解析については、HGという接頭辞で始まる100個のランダムに選択されたサンプルを、無関係の対照として役立つように、1000ゲノムプロジェクト(Fairley et al.,Nucleic Acids Res 2020,48,D941-D947,doi:10.1093/nar/gkz836(その内容は参照によりその全体が本明細書に組み込まれる))から含めた。International Genome Sample Resourceデータベースから遺伝子型をダウンロードし、10,230個のKintelligence SNPパネル内の遺伝子座のみを含めるようにフィルタリングした。血縁係数が0.031より大きい場合、ペアは関連があるとみなされ、そうでない場合は無関係であり、図25Aの黒い縦線によって表されている。logLRが0より大きい場合、ペアは関連があると考えられ、そうでない場合は無関係であり、図25Bの黒い縦線によって表されている。サンプルは、祖父母(G)、両親(P)、兄弟姉妹(S)、無関係な対照(U)、無関係な祖父母(GU)、無関係な両親(PU)、および無関係な兄弟姉妹(SU)からのサンプルを含む。図25Aおよび図25Bに示すように、血縁係数およびlogLR閾値は、関連のあるペアを関連のないペアから区別するのに十分であった。 As demonstrated above, a plexity of 12 samples per run was determined to be sufficient to call sufficient SNPs from simulated postmortem (PM) samples with degraded and/or low DNA content. To simulate PM vs. antemortem (AM) comparisons as performed for DVI, the 12-sample run samples were considered PM samples. Each PM sample profile was then paired with other sample profiles from all sequencing runs (12, 16, 24, and 32 samples per run) and each of 100 unrelated profiles from the 1000 Genomes Project. Genome-wide relatedness coefficients, shared cM, longest segment cM, and likelihood ratios were calculated for each pair to identify related pairs. The Utah/CEPH 1463 family included grandparents, parents, and siblings. Each unique graph represents a comparison of a 12-sample run versus itself (12_vs_12), 16-sample (12_vs_16), 24-sample (12_vs_24), and 32-sample (12_vs_32) runs to simulate postmortem versus antemortem comparisons and determine the highest plexity possible to maintain accurate identification of close relatedness of antemortem samples. Samples were paired, and the coefficient of kinship and logLR were calculated for each pair. For the kinship analysis of the Utah/CEPH 1463 family, 100 randomly selected samples beginning with the prefix HG were included from the 1000 Genomes Project (Fairley et al., Nucleic Acids Res 2020, 48, D941-D947, doi:10.1093/nar/gkz836, the contents of which are incorporated herein by reference in their entirety) to serve as unrelated controls. Genotypes were downloaded from the International Genome Sample Resource database and filtered to include only loci within the 10,230 Kintelligence SNP panel. Pairs were considered related if the kinship coefficient was greater than 0.031; otherwise, they were unrelated, as represented by the vertical black line in Figure 25A. If the logLR is greater than 0, the pair is considered related; otherwise, it is unrelated, represented by the black vertical line in Figure 25B. Samples include samples from grandparents (G), parents (P), siblings (S), unrelated controls (U), unrelated grandparents (GU), unrelated parents (PU), and unrelated siblings (SU). As shown in Figures 25A and 25B, the relatedness coefficient and logLR threshold were sufficient to distinguish related pairs from unrelated pairs.
最小SNP重複は、全てのプレキシティで配列決定されたサンプル間で>8,900であったので、共有cMおよび最長セグメントcMは、上記のようにウィンドウ付き血縁関係アルゴリズムを使用して決定された。関係を決定するために上記の全ゲノムアルゴリズムを使用すると、血縁係数は、全ての予想される関連ペアについて0.031をはるかに超え、全ての予想される無関係のペアについて0.031未満であった。さらに、この家族は最大の2親等の関係を有するので、ウィンドウ付き血縁関係および全ゲノム血縁関係の両方が等しく良好に機能した。 Because the minimum SNP overlap was >8,900 among samples sequenced at all plexities, the shared cM and longest segment cM were determined using the windowed kinship algorithm as described above. Using the whole-genome algorithm described above to determine relationships, the coefficients of kinship were well above 0.031 for all predicted related pairs and below 0.031 for all predicted unrelated pairs. Furthermore, because this family has relationships up to the second degree, both windowed kinship and whole-genome kinship performed equally well.
全ゲノムの血縁係数は、予想される関係の各々を明確に区別し、偽陽性の関係は検出されない(図25A)。図25Aに示されるように、全ての無関係なペアは、血縁係数についての0.031の閾値を下回ったが、全ての関連するペアは、血縁係数についての0.031の閾値をはるかに上回っており、それにより、関連するペアと無関係なペアとの間を明確に区別した。全ての比較が少数の無関係な個体を含有するDVI事例で使用されるものなどの小さなデータベース内で行われたことを考慮すると、12個のサンプルで実行時に生成されたプロファイルを32個のサンプルで実行時に生成されたプロファイルと比較した場合でも、血縁関係の全ての測定は、Utah/CEPH 1463家族からの全ての関係を正確に確認することができた。尤度比は同様の傾向を示し、全ての予想される関連ペアは、0の閾値を上回る正の値を有することによって関連があると正しく確認され、全ての無関係なペアは、0の閾値を下回る負の値を有することによって無関係であると分類された(図25B)。これらのデータは、模擬AMライブラリーについて実行あたり32サンプルの最大プレキシティで、プロファイルが、行方不明者およびDVI事例で使用されるものなどの無関係な個体がほとんどない小さなデータベースで解析が実行される場合を含め、最大2親等の関係を正確に確認し、無関係なペアを除外するのに十分なSNPデータを含有することを実証している。 Genome-wide kinship coefficients clearly distinguished each predicted relationship, with no false-positive relationships detected (Figure 25A). As shown in Figure 25A, all unrelated pairs fell below the 0.031 threshold for kinship coefficients, while all related pairs were well above the 0.031 threshold for kinship coefficients, thereby clearly distinguishing between related and unrelated pairs. Considering that all comparisons were performed within small databases, such as those used in the DVI case, containing a small number of unrelated individuals, all measures of kinship were able to accurately confirm all relationships from the Utah/CEPH 1463 family, even when comparing profiles generated at run times of 12 samples with profiles generated at run times of 32 samples. Likelihood ratios showed a similar trend, with all predicted related pairs correctly identified as related by having positive values above the 0 threshold, and all unrelated pairs classified as unrelated by having negative values below the 0 threshold (Figure 25B). These data demonstrate that at a maximum plexity of 32 samples per run for the simulated AM library, profiles contain sufficient SNP data to accurately ascertain relationships up to the second degree and exclude unrelated pairs, including when analyses are performed on small databases with few unrelated individuals, such as those used in missing persons and DVI cases.
次に、上記しかつ図26に示すように、関連する生前の私的な家族(「親族」またはRF)サンプルを使用して、図26に示すように、1親等、2親等、3親等、4親等、および5親等の関係を含むより高次の関係を試験した。この関連する私的な家族は、自己サンプルと、両親(父および母)、叔母/伯母、いとこ(Cousin)、いとこの子供(1C1R)、およびはとこ(2nd Cousin)を含む自己サンプルとの特定の関係を有する個体とを含んでいた(図26)。図26内で関係を有すると標識されたこれらの個体を配列決定し、以下の血縁関係解析に含めた。 Next, as described above and shown in Figure 26, related pre-mortem private family ("relative" or RF) samples were used to test higher-order relationships, including first-, second-, third-, fourth-, and fifth-degree relationships, as shown in Figure 26. The related private family included the self-sample and individuals with specific relationships to the self-sample, including parents (father and mother), aunts/aunts, cousins, children of cousins (1C1R), and second cousins ( 2nd cousins) (Figure 26). These individuals labeled as related in Figure 26 were sequenced and included in the following kinship analysis.
いくつかの陽性および陰性増幅対照と共に8つの家族構成員の各々について3つの複製物ライブラリーを生成し、実行において合計30個のサンプルで配列決定した。 Three replicate libraries were generated for each of the eight family members, along with several positive and negative amplification controls, for a total of 30 samples sequenced in the run.
自己(RF016)および母(RF004)からの複製物を温度による人工劣化に供してPMサンプルを模倣し、具体的には、サンプルを98℃で1時間、続いて4℃で10分間の21サイクルの加熱および冷却に供した。劣化指数を測定し、母(RF004)の4つの複製物については2.1、2.6、5.1および20、自己(RF016)の4つの複製物については1.5、2.0、2.2および2.9のDIをもたらした。ライブラリーを、これらの劣化したサンプルならびに無傷な自己および母DNAサンプル(50pg)から生成した。劣化したサンプルおよび低入力サンプルは、実行あたり12サンプル(12プレックス)で配列決定され、無傷のサンプルは、30のプレキシティで配列決定され)、分類されたSNPの数が有意により少なく、広範囲にわたって分布していた12のプレキシティで配列決定された模擬PMサンプルと比較して、密な分布を有するより多数の分類されたSNPを示す(図27A)。これらのサンプルの最小、第1四分位数、中央値、第3四分位数、および最大は、劣化/低入力12プレックスについて、3256、8106、8391、8580、および8896であり;無傷の30プレックスについて、1470、5057、7807、8782、および9898であった(図27A)。 Replicates from the self (RF016) and maternal (RF004) DNA were subjected to artificial thermal degradation to mimic PM samples. Specifically, samples were subjected to 21 cycles of heating and cooling at 98°C for 1 hour, followed by 4°C for 10 minutes. Degradation indices were measured, yielding DIs of 2.1, 2.6, 5.1, and 20 for the four maternal (RF004) replicates and 1.5, 2.0, 2.2, and 2.9 for the four self (RF016) replicates. Libraries were generated from these degraded samples as well as intact self and maternal DNA samples (50 pg). The degraded and low-input samples were sequenced at 12 samples per run (12-plex), whereas the intact samples were sequenced at 30 plex. The number of classified SNPs was significantly lower and more widely distributed than the mock PM samples sequenced at 12 plex, showing a higher number of classified SNPs with a tighter distribution (Figure 27A). The minimum, first quartile, median, third quartile, and maximum for these samples were 3256, 8106, 8391, 8580, and 8896 for the degraded/low-input 12-plex run; and 1470, 5057, 7807, 8782, and 9898 for the intact 30-plex run (Figure 27A).
さらに、無傷DNAから生成されたライブラリーである模擬AMサンプルプロファイルは、同様のプレキシティで配列決定した市販のDNAサンプルから生成された模擬AMサンプルプロファイルと比較して、より少ない分類されたSNPを有していた(図20Bおよび図24と比較した図27A)。30のプレキシティで配列決定された無傷の模擬AM母(RF004)サンプルと12のプレキシティで配列決定された対応する劣化/低DNA入力模擬PM母(RF004)サンプルとの間のヘテロ接合性の平均パーセント差は14.6%であり、最小差は1.6%、最大差は25.5%であった。 Furthermore, mock AM sample profiles, libraries generated from intact DNA, had fewer classified SNPs compared to mock AM sample profiles generated from commercially available DNA samples sequenced at similar plexities (Figure 27A compared to Figure 20B and Figure 24). The average percent difference in heterozygosity between the intact mock AM maternal (RF004) sample sequenced at a plexity of 30 and the corresponding degraded/low DNA input mock PM maternal (RF004) sample sequenced at a plexity of 12 was 14.6%, with a minimum difference of 1.6% and a maximum difference of 25.5%.
各劣化/低入力模擬PMサンプルを各無傷模擬AMサンプルとペアリングして、全ゲノム血縁係数、共有cM、最長セグメントcM、および尤度比を計算することによって、1対1の比較を行った。最大3親等および3親等を含む全ての関係は、本明細書に記載の両方の血縁関係アルゴリズムを使用する場合、100%の感度および100%の特異性で決定された。可能な30個の4親等の関係のうちの8つが、本明細書中に記載されるウィンドウ付き血縁関係アルゴリズムを用いて確認されたが、可能な30個の4親等の関係のうちの4つのみが、本明細書中に記載される全ゲノムアルゴリズムを用いて確認されたが、5親等の関係は、いずれのアルゴリズムを用いても血縁関係閾値を通過しなかった。サンプルの可能な全ペアのうち39は、このデータセット内で無関係であり、偽陽性の関係は検出されなかった。19ペアのサンプルは、2,000個未満のSNPが重複しており、そのうちの18は、2.6のDIおよび7.2%のヘテロ接合性を有する模擬PMサンプル母(RF004)であり、そのうちの1つは、入力として50pgのDNAおよび15.4%のヘテロ接合性を有する模擬PMサンプル自己(RF0016)であった。この19ペアのうち、7つは1親等、3つは2親等、3つは3親等の関係であり、全て、0.031を超える血縁係数を有していた。3つのペアは、高い血縁係数を有する自己同士(self to self)であった。これらの結果は、本明細書に記載の方法を使用して、高いプレキシティで高い特異性で配列決定された模擬PMおよび模擬AMサンプルライブラリーについて、1~3親等の関係を決定することができることを確実にする。2.9のDIを有し、無傷な自己サンプルとペアにされた、1つの劣化した模擬PMサンプル(自己、RF016)、ならびに、既知の母(1親等)、既知の叔母/伯母(2親等)、既知のいとこ(3親等)、既知のいとこの子供(4親等)、および既知のはとこ(5親等)を含む模擬AMサンプルからの全ゲノム血縁係数および対応する対数尤度比の例を図27Bに示す。自己(RF016)(劣化指数2.9)模擬死後サンプルと無傷の模擬生前(AM)サンプルの血縁関係を、全ゲノムアルゴリズムを使用して決定した。図27Bに描かれている水平点線は、>0.031の血縁係数閾値を表す。SNP重複は、6つのペアにわたって7400で平均化され、最小7061および最大7755であった(図27B)。また、自己、母、叔母/伯母、いとこ、いとこの子供、および、はとこの対数尤度比は、それぞれ167、94.5、26.1、8.9、2.2、0.4であった。いとこの子供およびはとこ(4親等および5親等)を除く全ての関係は、本明細書に記載の方法論を使用するウィンドウ付き血縁関係および全ゲノムアルゴリズムに必要な0.031の閾値を通過し、それにより、本明細書に記載の方法を使用して1、2および3親等の血縁者を確認するためにこれらのアルゴリズムを使用することの有効性を確実にした。
C.考察
Head-to-head comparisons were performed by pairing each degraded/low-input simulated PM sample with each intact simulated AM sample and calculating the whole-genome relatedness coefficient, shared cM, longest segment cM, and likelihood ratio. All relationships up to and including the third degree of kinship were determined with 100% sensitivity and 100% specificity using both kinship algorithms described herein. Eight of the 30 possible fourth-degree relationships were confirmed using the windowed kinship algorithm described herein, whereas only four of the 30 possible fourth-degree relationships were confirmed using the whole-genome algorithm described herein. However, no fifth-degree relationships passed the relatedness threshold using either algorithm. Thirty-nine of all possible pairs of samples were unrelated within this dataset, and no false-positive relationships were detected. Nineteen paired samples overlapped with fewer than 2,000 SNPs, 18 of which were mock PM sample mothers (RF004) with a DI of 2.6 and 7.2% heterozygosity, and one of which was a mock PM sample self (RF0016) with 50 pg of input DNA and 15.4% heterozygosity. Of these 19 pairs, seven were first-degree, three were second-degree, and three were third-degree related, all with a coefficient of kinship greater than 0.031. Three pairs were self-to-self with a high coefficient of kinship. These results confirm that the methods described herein can be used to determine first- to third-degree relatedness for mock PM and AM sample libraries sequenced with high plexity and high specificity. An example of the whole-genome relatedness coefficients and corresponding log-likelihood ratios from one degraded simulated PM sample (self, RF016) paired with an intact self sample, with a DI of 2.9, and simulated AM samples including a known mother (first degree), a known aunt/aunt (second degree), a known cousin (third degree), a child of a known cousin (fourth degree), and a known second cousin (fifth degree), is shown in Figure 27B. The relatedness of the self (RF016) (degradation index 2.9) simulated postmortem sample to the intact simulated antemortem (AM) sample was determined using a whole-genome algorithm. The horizontal dotted line depicted in Figure 27B represents a relatedness coefficient threshold of >0.031. The SNP overlap was averaged at 7400 across the six pairs, with a minimum of 7061 and a maximum of 7755 (Figure 27B). Additionally, the log-likelihood ratios for self, maternal, aunt/aunt, first cousin, child of first cousin, and second cousin were 167, 94.5, 26.1, 8.9, 2.2, and 0.4, respectively. All relationships except for child of first cousin and second cousin (fourth and fifth degrees of kinship) passed the 0.031 threshold required for the windowed kinship and whole genome algorithms using the methodology described herein, thereby ensuring the validity of using these algorithms to ascertain first-, second-, and third-degree relatives using the methods described herein.
C. Consideration
DNAを用いた災害犠牲者身元確認(DVI)は、典型的には、ゲノムの高度に多型の領域、具体的には常染色体ショートタンデムリピート(STR)、Y染色体上のSTR、およびミトコンドリアDNA(mtDNA)を調べることからなる(Alonso et al.,Croat Med J 2005,46,540-548;Ambers et al.,Int J Legal Med 2018,132,1545-1553;Alvarez-Cubero et al.,Pathobiology 2012,79,228-238;Watherston et al.,Forensic Sci Int Genet 2018,37,270-282;Prinz et al.,Forensic Sci Int Genet 2007,1,3-12、その内容は参照によりその全体が本明細書に組み込まれる)。STRマーカーは、いくつかの大量の死亡事故(MFI)における遺体を身元確認するために使用されてきたが、1親等および2親等の関係を確認するのに十分な情報を提供することしかできず、高い偽陽性率をもたらし得る(Alonso et al.,Croat Med J 2005,46,540-548;Alvarez-Cubero et al.,Pathobiology 2012,79,228-238;Birus et al.,Croat Med J 2003,44,322-326;Brenner et al.,Theor Popul Biol 2003,63,173-178;Graham et al.,Forensic Sci Med Pathol 2006,2,203-207(その内容全体が参照により本明細書に組み込まれる))。STR解析のための次世代配列決定(NGS)アッセイの開発は、DVIのためにSTRを利用することの障害のいくつかを克服している(Alvarez-Cubero et al.,Ann Hum Biol 2017,44,581-592;Zavala et al.,Impact of DNA degradation on massively parallel sequencing-based autosomal STR,iiSNP,and mitochondrial DNA typing systems,2019;Senst et al.,Forensic Science International:Genetics 2023,62;Senst et al.,J Forensic Sci 2022,67,1382-1398;Ambers et al.,BMC Genomics 2016,17,750(これらの内容は参照によりその全体が本明細書に組み込まれる))。mtDNA制御領域、または超可変領域、または全ミトコンドリアゲノム(mtGenome)もまた、遺体を身元確認するために使用されている(Holland et al.,Mitochondrial DNA Sequence Analysis-Validation and Use for Forensic Casework.Forensic science review 1999;Holland et al.,Croat Med J 2003,44,264-272(その内容全体が参照により本明細書に組み込まれる))。mtGenomeは、高いコピー数を有し、環状ゲノムである;したがって、断片化された、年月を経た遺体中の核DNAと比較してmtDNAの回収の機会がより高い(Amorim et al.,PeerJ 2019,7,e7314,doi:10.7717/peerj.7314、その内容は参照によりその全体が本明細書に組み込まれる)。しかしながら、mtDNAは母系系統を分類し、これは、複数の家族構成員がMFIの影響を受けるか、または、血縁関係解析のために父系の親戚の血縁者のみが利用可能である場合に問題となり得る(Zavala et al.,Impact of DNA degradation on massively parallel sequencing-based autosomal STR,iiSNP,and mitochondrial DNA typing systems,2019;Holland et al.,Mitochondrial DNA Sequence Analysis-Validation and Use for Forensic Casework.Forensic science review 1999;Holland et al.,Croat Med J 2003,44,264-272;Amorim et al.,PeerJ 2019,7,e7314,doi:10.7717/peerj.7314。逆に、一塩基多型(SNP)は、父系または母系のどちらかの系統関係または両方の血縁関係決定に使用することができる(Watherston et al.,Forensic Sci Int Genet 2018,37,270-282;Amorim et al.,Forensic Sci Int 2005,150,17-21;Gorden et al.,Forensic Sci Int Genet 2022,57,102636)。さらに、PCRベースのアッセイの場合、SNPアンプリコンは、STRのものよりも短い傾向があり、損なわれたサンプルでは増幅される可能性が高い(Watherston et al.,Forensic Sci Int Genet 2018,37,270-282;Zavala et al.,Impact of DNA degradation on massively parallel sequencing-based autosomal STR,iiSNP,and mitochondrial DNA typing systems.2019;Senst et al.,J Forensic Sci 2022,67,1382-1398;Ambers et al.,BMC Genomics 2016,17,750(これらの内容は参照によりその全体が本明細書に組み込まれる))。また、調査されるSNPの数が多いと、血縁関係および特に尤度比の値は、STRよりも識別的である(Turner et al.,Front Genet 2022,13,882268;Cho et al.,Transfus Med Hemother 2016,43,429-432;Tillmar et al.,Genes 2021,12,1968)。STRはSNPよりも多型であるが(Devesse et al.,Forensic Sci Int Genet 2018,34,57-61;Phillips et al.,ELECTROPHORESIS 2018,39,2708-2724;Gettings et al.,Forensic Science International:Genetics 2016,21,15-21;Novroski et al.,Forensic Sci Int Genet 2016,25,214-226;Wendt et al.,Forensic Sci Int Genet 2017,28,146-154;Delest et al.,Forensic Sci Int Genet 2020,47,102304(これらの内容は参照によりその全体が本明細書に組み込まれる))、SNPアッセイは、STRを用いた数十のデータポイントと比較して数百から数千のデータポイントを調べる。高密度のSNPデータは、偽陽性率を低減させることができる(Snedecor et al.,Forensic Sci Int Genet 2022,61,102769(その内容は参照によりその全体が本明細書に組み込まれる))。最後に、SNPは、劣化したDNAの状況で以前に使用されており、遺体を身元確認するのに十分な識別力を提供することが証明されている(Snedecor et al.,Forensic Sci Int Genet 2022,61,102769;Gorden et al.,Forensic Sci Int Genet 2022,57,102636;Marshall et al.,Genes(Basel)2020,11,doi:10.3390/genes11080938(その内容は参照によりその全体が本明細書に組み込まれる))。 Disaster victim identification (DVI) using DNA typically consists of examining highly polymorphic regions of the genome, specifically autosomal short tandem repeats (STRs), STRs on the Y chromosome, and mitochondrial DNA (mtDNA) (Alonso et al., Croat Med J 2005, 46, 540-548; Ambers et al., Int J Legal Med 2018, 132, 1545-1553; Alvarez-Cubero et al., Pathobiology 2012, 79, 228-238; Waterston et al., Forensic Sci Int Genet 2018, 37, 270-282; Prinz et al., Forensic Sci Int Genet 2007, 1, 3-12, the contents of which are incorporated herein by reference in their entirety). STR markers have been used to identify remains in several mass fatality incidents (MFIs), but can only provide enough information to confirm first- and second-degree relationships and can result in a high false-positive rate (Alonso et al., Croat Med J 2005, 46, 540-548; Alvarez-Cubero et al., Pathobiology 2012, 79, 228-238; Birus et al., Croat Med J 2003, 44, 322-326; Brenner et al., Theor Popul Biol 2003, 63, 173-178; Graham et al., Forensic Sci Med Pathol 2006, 2, 203-207 (the entire contents of which are incorporated herein by reference). The development of next-generation sequencing (NGS) assays for STR analysis has overcome some of the obstacles to utilizing STRs for DVI (Alvarez-Cubero et al., Ann Hum Biol 2017, 44, 581-592; Zavala et al., Impact of DNA degradation on massively parallel sequencing-based autosomal STR, iiSNP, and mitochondrial DNA typing systems, 2019; Senst et al., Forensic Science International: Genetics 2023, 62; Senst et al., J Forensic Sci 2022, 67, 1382-1398; Ambers et al., BMC Genomics 2016, 17, 750 (the contents of which are incorporated herein by reference in their entireties). The mtDNA control region, or hypervariable region, or the entire mitochondrial genome (mtGenome) has also been used to identify remains (Holland et al., Mitochondrial DNA Sequence Analysis - Validation and Use for Forensic Casework. Forensic science review 1999; Holland et al., Croat Med J 2003, 44, 264-272, the contents of which are incorporated herein by reference in their entirety). The mtGenome has a high copy number and is a circular genome; therefore, there is a higher chance of recovery of mtDNA compared to fragmented nuclear DNA in aged remains (Amorim et al., PeerJ 2019, 7, e7314, doi:10.7717/peerj.7314, the contents of which are incorporated herein by reference in their entirety). However, mtDNA classifies maternal lineages, which can be problematic when multiple family members are affected by MFI or when only paternal relatives are available for kinship analysis (Zavala et al., Impact of DNA degradation on massively parallel sequencing-based autosomal STRs, SNPs, and mitochondrial DNA typing systems, 2019; Holland et al., Mitochondrial DNA Sequence Analysis - Validation and Use for Forensic Casework. Forensic science). review 1999; Holland et al., Croat Med J 2003, 44, 264-272; Amorim et al., PeerJ 2019, 7, e7314, doi:10.7717/peerj.7314. Conversely, single nucleotide polymorphisms (SNPs) can be used to determine either paternal or maternal lineages or both (Waterston et al., Forensic Sci Int Genet 2018, 37, 270-282; Amorim et al., Forensic Sci Int 2005, 150, 17-21; Gorden et al., Forensic Sci Int Genet 2022, 57, 102636). Furthermore, in PCR-based assays, SNP amplicons tend to be shorter than STR amplicons and are more likely to be amplified in compromised samples (Waterston et al., Forensic Sci Int Genet 2018, 37, 270-282; Zavala et al., Impact of DNA degradation on massively parallel sequencing-based autosomal STR, SNP, and mitochondrial DNA typing systems. 2019; Senst et al., J Forensic Sci 2022, 67, 1382-1398; Ambers et al., BMC Genomics 2016, 17, 750 (the contents of which are incorporated herein by reference in their entirety). Also, when a large number of SNPs are investigated, kinship and especially likelihood ratio values are more discriminatory than STRs (Turner et al., Front Genet 2022, 13, 882-268; Cho et al., Transfus Med Hemother 2016, 43, 429-432; Tillmar et al., Genes 2021, 12, 1968). Although STRs are more polymorphic than SNPs (Devesse et al., Forensic Sci Int Genet 2018, 34, 57-61; Phillips et al. , ELECTROPHORESIS 2018, 39, 2708-2724; Gettings et al. , Forensic Science International: Genetics 2016, 21, 15-21; Novroski et al. , Forensic Sci Int Genet 2016, 25, 214-226; Wendt et al. , Forensic Sci Int Genet 2017, 28, 146-154; Delest et al. , Forensic Sci Int Genet 2020, 47, 102304 (the contents of which are incorporated herein by reference in their entireties), SNP assays examine hundreds to thousands of data points compared to tens of data points using STR. High density SNP data can reduce the false positive rate (Snedecor et al., Forensic Sci Int Genet 2022, 61, 102769 (the contents of which are incorporated herein by reference in their entireties)). Finally, SNPs have previously been used in the context of degraded DNA and have proven to provide sufficient discriminatory power to identify remains (Snedecor et al., Forensic Sci Int Genet 2022, 61, 102769; Gorden et al., Forensic Sci Int Genet 2022, 57, 102636; Marshall et al. al., Genes (Basel) 2020, 11, doi:10.3390/genes11080938 (the contents of which are incorporated herein by reference in their entirety).
ForenSeq Kintelligence Library Prep Kit(登録商標)は、法医学の遺伝的系譜(Kling et al.,Forensic Sci Int Genet 2021,52,102474;Snecedor et al.,Forensic Science International:Genetics 2022,61,102769;Peck et al.,Internal Validation of the ForenSeq Kintelligence Kit for Application to Forensic Genetic Genealogy.bioRxiv 2022,2022.2010.2028.514056,doi:10.1101/2022.10.28.514056;Verogen.ForenSeq Kintelligence Kit Datasheet:Document # VD2020054.Rev.A.2021.Available online:https://verogen.com/wp-content/uploads/2021/03/forenseq-kintelligence-datasheet-vd2020054-a.pdf;Verogen.High-Quality Outcomes from Low-Quality Samples with ForenSeq Kintellingence Application Note:Document # VD2021002 Rev.B.2021.2021(その内容全体が参照により本明細書に組み込まれる))を利用して暴力犯罪および行方不明者の事例を解決するために使用できる、10,230個の法医学的に関連するSNPのセットを含む。ForenSeq Kintelligenceは、オレゴン州の身元確認されていない遺体の事例を解決するために使用されている(International,D.L.DNA Labs Internationalは、身元確認されていない遺体の身元確認を支援するためにForenSeq Kintelligence Systemを使用する最初の認定研究室である。2022)。Kintelligenceの結果は、データベースで利用可能な未知の血縁者を検索するために、GEDMatch PROまたはFamilyTreeDNA(Verogen.Verogen and Gene by Gene Form Groundbreaking Partnership to Accelerate Adoption for Forensic Investigative Genetic Genealogy.入手可能なオンライン:https://www.businesswire.com/news/home/20220815005116/en/Verogen-and-Gene-by-Gene-Form-Groundbreaking-Partnership-to-Accelerate-Adoption-of-Forensic-Investigative-Genetic-Genealogy)などのデータベースにアップロードすることができる。GEDMatch PROで利用されるアルゴリズムは、Kintelligenceキット内の10,230個のSNPで動作するように特に設計されたが、血縁者を検索するために公共データベースにアップロードする必要があり、アップロードには、サンプル中に分類された最低6000個のSNPが必要である。さらに、Kintelligenceキットの現在の構成は、Miseq FGx上で最大3つのサンプルを一度に配列決定することを可能にし、GEDMatch PROアップロードのために十分なSNPが分類されることを保証するが、遠い関係が望ましくないMFI事例についてのコスト効率も低減させる。さらに、血縁者が既知であるが2つのデータベースのうちの1つに存在しない場合、適合する死後(PM)サンプルは、既知の血縁者がそれらのプロファイルをデータベースにアップロードすることを必要とする。 The ForenSeq Kintelligence Library Prep Kit® is a library prep kit for forensic genetic genealogy (Kling et al., Forensic Sci Int Genet 2021, 52, 102474; Snecedor et al., Forensic Science International: Genetics 2022, 61, 102769; Peck et al., Internal Validation of the ForenSeq Kintelligence Kit for Application to Forensic Genetic Geneology.bioRxiv 2022, 2022.2010.2028.514056, doi:10.1101/2022.10.28.514056; Verogen. ForenSeq Intelligence Kit Datasheet: Document # VD2020054. Rev. A. 2021. Available online: https://verogen. com/wp-content/uploads/2021/03/forenseq-kintelligence-datasheet-vd2020054-a. pdf; Verogen. High-Quality Outputs from Low-Quality Samples with ForenSeq Kinterlingence Application Note: Document # VD2021002 Rev. B. 2021.2021 (the entire contents of which are incorporated herein by reference) contains a set of 10,230 forensically relevant SNPs that can be used to solve violent crime and missing persons cases. ForenSeq Kintelligence has been used to resolve cases of unidentified remains in Oregon (International, D.L. DNA Labs International is the first certified laboratory to use the ForenSeq Kintelligence System to assist in the identification of unidentified remains. 2022). Kintelligence results were analyzed using GEDMatch PRO or FamilyTreeDNA (Verogen and Gene by Gene Form Groundbreaking Partnership to Accelerate Adoption for Forensic Investigational Genetic Genetics) to search for unknown relatives available in the database. Geneology. Available online: https://www.businesswire.com/news/home/20220815005116/en/Verogen-and-Gene-by-Gene-Form-Groundbreaking-Partnership-to-Accelerate-Adoption-of-Forensic-Investigative-Genetic-Genetics. The algorithm utilized in GEDMatch PRO was specifically designed to work with the 10,230 SNPs in the Kintelligence kit, but uploading to a public database for relative searching is required, which requires a minimum of 6,000 SNPs typed in the sample. Additionally, the current configuration of the Kintelligence kit allows for up to three samples to be sequenced at once on the Miseq FGx, ensuring that enough SNPs are typed for GEDMatch PRO upload, but also reducing cost-effectiveness for MFI cases where distant relationships are undesirable. Furthermore, if relatives are known but not present in one of the two databases, matching postmortem (PM) samples require known relatives to upload their profiles to the database.
ライブラリー調製キットおよび核酸ライブラリー生成のための同様の方法論、例えばForenSeq Kintelligence Library Prep Kit(登録商標)の、より高いスループットおよび費用対効果の高い方法でDVIのための利用を支援するために、1シーケンシングランあたり3ライブラリーの推奨されるプレキシティを超えるプレキシティでライブラリーを配列決定した。目標は、関係を確認する際の精度を最大3親等に維持しながら、生前(AM)および死後(PM)サンプルの両方についてのプレキシティを最大化することであった。 To support the use of library preparation kits and similar methodologies for nucleic acid library generation, such as the ForenSeq Kintelligence Library Prep Kit®, for DVI in a higher-throughput and cost-effective manner, libraries were sequenced at a plexity exceeding the recommended plexity of three libraries per sequencing run. The goal was to maximize plexity for both antemortem (AM) and postmortem (PM) samples while maintaining accuracy in confirming relationships up to the third degree.
最大3親等の関係決定のための配列決定の最適なプレキシティは、シミュレーション(図20A)およびMiSeq FGxでの配列決定模擬AMおよびPMサンプル(図20B、20C、24、および27A)に基づき、シーケンシングランあたり12個の模擬PMライブラリーまたは32個の模擬AMライブラリーであった。SNP対立遺伝子および遺伝子座は、シーケンシングランあたり3サンプルの推奨されるプレキシティと比較して、より高いプレキシティでライブラリー配列決定についてATを下回ったが(図21A、図21B)、高度に劣化したサンプルおよび低DNA入力サンプルであっても、最大3親等の関係を決定することができるように、模擬AMサンプルとPMサンプルとの間で十分な遺伝子座が共通して分類された(図22、図25A、図25B、および図27B)。 The optimal sequencing plexity for determining relationships up to three degrees was 12 simulated PM libraries or 32 simulated AM libraries per sequencing run, based on simulations (Figure 20A) and sequencing simulated AM and PM samples on the MiSeq FGx (Figures 20B, 20C, 24, and 27A). Although SNP alleles and loci fell below AT for library sequencing at higher plexities compared to the recommended plexity of three samples per sequencing run (Figures 21A and 21B), sufficient loci were commonly classified between simulated AM and PM samples to allow determination of relationships up to three degrees, even for highly degraded and low-DNA-input samples (Figures 22, 25A, 25B, and 27B).
親族(RF)を用いて行った解析は、いくつかの4親等の関係を確認することに加えて、3親等までの関係を確認することを確実にした(図27B)。4親等の関係を有するサンプル間のSNP重複は1356~7872個のSNPの範囲であった。30の可能なペアのうち、7000を超えるSNPの重複を有する8つのペアは、血縁関係決定のための閾値を通過しなかった。PMサンプルの品質が高いSNPコール率を維持するのに十分良好である場合、4親等の関係が決定され得るが、閾値を通過し得ない(図22A~図22D)。 Analyses using relative frequency (RF) confirmed the confirmation of relationships up to the third degree, in addition to confirming some fourth-degree relationships (Figure 27B). SNP overlap between samples with fourth-degree relationships ranged from 1,356 to 7,872 SNPs. Of the 30 possible pairs, eight pairs with overlaps of more than 7,000 SNPs did not pass the threshold for determining relatedness. If the quality of the PM samples is good enough to maintain a high SNP call rate, fourth-degree relationships can be determined but may not pass the threshold (Figures 22A-22D).
図21Aおよび図21Bに関する研究に記載されているように、模擬PM解析で観察されたSNPコール率の低下および対立遺伝子脱落の増加、ならびに図26に示されているような系図を用いた図27Aに関する研究に記載されているように、劣化した親族サンプルの解析では、PM DNAの品質が減少するにつれて、PMサンプルとAMサンプルの間でコールされる遺伝子座の重複は減少する。この重複は、より高い関連度で感度を低下させる血縁関係アルゴリズムの性能に有意に影響する(図22A~図22D)。したがって、遺伝子座のさらなる喪失を防ぐために、AMサンプルに分類されたSNPの数を最大化しなければならない。MFIの探索においてより遠い関係が予想され、PMサンプルが低いSNPコール率を示す場合、これらのライブラリーは、十分なSNPがコールされることを確実にするために、より低いプレキシティで再配列決定することができる(can be resequence)。 As noted in the studies in Figures 21A and 21B, the decreased SNP call rate and increased allele dropout observed in simulated PM analyses, and in the study in Figure 27A using pedigrees like those shown in Figure 26, the overlap of loci called between PM and AM samples decreases as the quality of PM DNA decreases in analyses of degraded kinship samples. This overlap significantly impacts the performance of kinship algorithms, reducing sensitivity at higher degrees of relatedness (Figures 22A-22D). Therefore, to prevent further loss of loci, the number of SNPs classified in AM samples must be maximized. If more distant relationships are expected in MFI searches and PM samples show low SNP call rates, these libraries can be resequenced at a lower plexity to ensure sufficient SNPs are called.
図20Aの文脈で行われた高スループットシミュレーションならびに図20Bおよび図20Cの文脈で実行された実際の高スループット解析は、プレキシティの増加が、分類されたSNPの数を減少させることを実証した。PMサンプルについてのより高いレベルの劣化およびより少ない量のDNAは、分類されたSNPの数にさらに影響を及ぼす。GEDMatchデータベースから匿名化された血縁者をサンプリングし、SNPの数を8000、6000、4000、および2000にランダムに低減させることによって血縁関係を決定した研究で実証されているように、全ゲノム血縁関係(共有cMの代わりに関係を確認するために血縁係数を使用する)は、高いレベルの特異性および感度で最大3親等を確認することができた(図22A~図22D)。血縁係数閾値の低下は、感度(可能な適合の数)を改良する;しかしながら、特異性が損なわれ、より多くの偽陽性(真適合と呼ばれる偽適合の数)が生じる。本研究で使用された閾値は、より高い特異性(ほぼ100%)をもたらし、偽陽性の増加を回避するために真陽性の喪失を優先した。さらに、これらのより低いSNPコール率では、4親等および5親等のようなより遠い関係を確認することが困難になる。全ゲノム血縁関係アルゴリズムおよびウィンドウ付き血縁関係アルゴリズムの両方とも、試験される2つの個体間に分類されたSNPの数に敏感である。劣化したサンプルおよび低入力サンプルの両方を含む親族解析では、本発明者らは、最大3親等および3親等を含む全ての関係を確認することができた。しかしながら、分類されたSNPの平均数が低すぎて、4親等および5親等の関係についてのウィンドウ付き血縁関係(6000未満)を参照することができなかったので、本発明者らは、これらのより遠い関係についてより具体的なウィンドウ付き血縁関係アルゴリズムを利用することができなかった。全ゲノム血縁関係アルゴリズムは、4親等および5親等の関係の確認においてウィンドウ付き血縁関係アルゴリズムほど特異的でも高感度でもない。 High-throughput simulations performed in the context of Figure 20A and actual high-throughput analyses performed in the context of Figures 20B and 20C demonstrated that increasing plexity reduces the number of classified SNPs. Higher levels of degradation and lower amounts of DNA for PM samples further impact the number of classified SNPs. As demonstrated in a study that sampled de-identified relatives from the GEDMatch database and determined relatedness by randomly reducing the number of SNPs to 8,000, 6,000, 4,000, and 2,000, whole-genome relatedness (using relatedness coefficients to confirm relatedness instead of shared cM) could confirm up to the third degree of kinship with high levels of specificity and sensitivity (Figures 22A-22D). Lowering the relatedness coefficient threshold improves sensitivity (number of possible matches); however, specificity is compromised, resulting in more false positives (number of false matches referred to as true matches). The threshold used in this study yielded higher specificity (nearly 100%) and prioritized the loss of true positives to avoid an increase in false positives. Furthermore, these lower SNP call rates make it difficult to confirm more distant relationships, such as those between the fourth and fifth degrees. Both the whole-genome kinship algorithm and the windowed kinship algorithm are sensitive to the number of SNPs classified between the two individuals tested. In kinship analyses involving both degraded and low-input samples, we were able to confirm all relationships, including those up to the third degree. However, because the average number of classified SNPs was too low to reference windowed kinship (less than 6,000) for fourth- and fifth-degree relationships, we were unable to utilize the more specific windowed kinship algorithm for these more distant relationships. The whole-genome kinship algorithm is not as specific or sensitive as the windowed kinship algorithm in confirming fourth- and fifth-degree relationships.
ヘテロ接合性は、データ脱落の別の尺度であり、低すぎると尤度比および血縁関係値の精度に影響を及ぼし得る。ヘテロ接合性の喪失は、サンプル中の高劣化または少量のDNAに起因して起こる。親族サンプルで観察された7.2%のヘテロ接合性を示す劣化したサンプルであっても、全ての1親等、2親等および3親等の関係が捕捉された。22.6%のヘテロ接合性を示す模擬PMサンプルを用いて、4親等の関係を決定した。劣化したサンプルおよび低入力サンプルで観察された遺伝子座の脱落のレベルと共に、併せて配列決定することができるサンプルの数を、劣化したサンプルおよび/または低DNA入力サンプルについては12に、AMサンプルについては32に増加させることにより、最大3親等関係および3親等関係を含む全ての関係を捕捉することができると予想される。 Heterozygosity is another measure of data loss, and if it is too low, it can affect the accuracy of likelihood ratios and kinship values. Loss of heterozygosity occurs due to high degradation or low amounts of DNA in the sample. Even with degraded samples, which exhibited the 7.2% heterozygosity observed in the kinship samples, all first-, second-, and third-degree relationships were captured. Fourth-degree relationships were determined using mock PM samples, which exhibited 22.6% heterozygosity. Given the level of locus loss observed in degraded and low-input samples, increasing the number of samples that can be sequenced together to 12 for degraded and/or low-DNA input samples and to 32 for AM samples is expected to capture all relationships, including those up to and including third-degree relationships.
PMサンプルが4親等または5親等の血縁者であると予想される場合、併せて配列決定されるサンプルの数を減少させることによってSNP重複を最大化することが、特に入力が低いおよび/またはサンプルが高度に劣化している場合に推奨される。あるいは、PMサンプルが1親等、2親等または3親等の血縁者であると予想される場合、劣化したサンプルおよび/または低入力サンプルであっても、より多くの数のサンプル(最大12個)が併せて配列決定されることは、1~3親等の関係を確認するための血縁関係の能力に影響を及ぼさないはずである。あるいは、AMサンプルの場合、上記のように、分類されたSNPの数を最大化しなければならない。しかしながら、併せて配列決定された最大32個のサンプルが、記載された血縁関係アルゴリズムおよび尤度比の両方を用いて、最大3親等の関係および3親等を含む関係の全てを確認することができることが観察された。 If PM samples are expected to represent fourth- or fifth-degree relatives, maximizing SNP overlap by reducing the number of samples sequenced together is recommended, especially if the input is low and/or the samples are highly degraded. Alternatively, if PM samples are expected to represent first-, second-, or third-degree relatives, co-sequencing a larger number of samples (up to 12), even degraded and/or low-input samples, should not affect the ability of the co-sequencing algorithm to confirm first- to third-degree relationships. Alternatively, for AM samples, as described above, the number of classified SNPs should be maximized. However, it has been observed that up to 32 co-sequenced samples can confirm all relationships up to and including third-degree relatives using both the described kinship algorithm and likelihood ratio.
結論として、本明細書中に記載される方法論による高多重度での配列決定ライブラリーは、PMサンプルについては多重度を3から12に、AMサンプルについては最大32に増加させることによって、関係確認の費用効果を改良する。アルゴリズムに設定された高度に調整された閾値、およびSNPの大きなパネルは、完全な感度および特異性で、最大3親等の全ての関係(例えば、いとこまたは曾祖父母)を確認しながら、関係の確認における偽陽性率を0に低減させる。尤度比計算のための追加の方法を用いて私的サーバにインストールされ、血縁者を見出し、より高い多重化配列決定の費用対効果と相まってMFIの関係を正確に決定する能力を有する私的データベースとして機能する、これらの血縁関係アルゴリズムは、DVIの解決策である。 In conclusion, sequencing libraries at high multiplexing using the methodology described herein improves the cost-effectiveness of relationship confirmation by increasing the multiplexing from 3 to 12 for PM samples and up to 32 for AM samples. The highly tuned thresholds set in the algorithm and the large panel of SNPs reduce the false positive rate in relationship confirmation to zero, while confirming all relationships up to the third degree (e.g., cousins or great-grandparents) with perfect sensitivity and specificity. Installed on a private server with additional methods for likelihood ratio calculation, these relationship algorithms function as a private database with the ability to find relatives and accurately determine MFI relationships combined with the cost-effectiveness of higher multiplexed sequencing, and are a solution to DVI.
本発明は、例えば本発明の様々な実施形態を説明するために提供される特定の開示された実施形態に範囲が限定されることを意図していない。記載される組成物および方法に対する様々な改変は、本明細書の記載および教示から明らかになるであろう。そのような変形は、本開示の真の範囲および精神から逸脱することなく実行することができ、本開示の範囲内に含まれることが意図されている。 The present invention is not intended to be limited in scope to the particular disclosed embodiments, which are provided, for example, to illustrate various embodiments of the invention. Various modifications to the compositions and methods described will become apparent from the descriptions and teachings herein. Such variations can be made without departing from the true scope and spirit of the present disclosure and are intended to be included within the scope of the present disclosure.
Claims (215)
関心のある人からの核酸サンプルを提供すること、
複数の少なくとも2,000~50,000個の間または約2,000~50,000個の間の一塩基多型(SNP)を集合的に含む複数の標的配列に特異的にハイブリダイズする複数のプライマーを用いて前記核酸サンプルを増幅させ、それによって増幅産物を生成することであって、前記増幅を1つまたはそれを超えるマルチプレックスPCR反応で行うことと、
前記増幅産物から核酸ライブラリーを生成することと、
前記増幅産物から生成された前記核酸ライブラリーを配列決定すること、
前記増幅産物の前記配列を解析することと、
前記複数のSNPの遺伝子型を決定し、それによってDNAプロファイルを生成することと、
前記DNAプロファイルと1つまたはそれを超える参照DNAプロファイルとの関連度を計算することであって、前記1つまたはそれを超える参照DNAプロファイルが、前記関心のある人の血縁者からの1つまたはそれを超える参照DNAプロファイルを含むDNAプロファイルの参照セット内に含まれる、計算することと、
を含む方法。 1. A method for performing DNA-based kinship analysis, comprising:
providing a nucleic acid sample from the person of interest;
amplifying the nucleic acid sample with a plurality of primers that specifically hybridize to a plurality of target sequences that collectively comprise a plurality of between at least or about 2,000 and 50,000 single nucleotide polymorphisms (SNPs), thereby generating amplification products, wherein the amplification is performed in one or more multiplex PCR reactions;
generating a nucleic acid library from the amplification products;
sequencing the nucleic acid library generated from the amplification products;
analyzing the sequence of the amplification product;
genotyping the plurality of SNPs, thereby generating a DNA profile; and
calculating a degree of relatedness between said DNA profile and one or more reference DNA profiles, said one or more reference DNA profiles being included in a reference set of DNA profiles comprising one or more reference DNA profiles from blood relatives of said person of interest;
A method comprising:
関心のある人からの核酸サンプルを提供すること、
複数の少なくとも2,000~50,000個の間または約2,000~50,000個の間の一塩基多型(SNP)を集合的に含む複数の標的配列に特異的にハイブリダイズする複数のプライマーを用いて前記核酸サンプルを増幅させ、それによって増幅産物を生成することであって、前記増幅を1つまたはそれを超えるマルチプレックスPCR反応で行うことと、
前記増幅産物から核酸ライブラリーを生成することと、
前記増幅産物から生成された前記核酸ライブラリーを配列決定すること、
前記複数のSNPの遺伝子型を決定し、それによってDNAプロファイルを生成することと、
前記DNAプロファイルと1つまたはそれを超える参照DNAプロファイルとの関連度を計算することであって、前記1つまたはそれを超える参照DNAプロファイルが、前記関心のある人の血縁者からの1つまたはそれを超える参照DNAプロファイルを含むDNAプロファイルの参照セット内に含まれる、計算することと、
を含む方法。 1. A method for performing DNA-based kinship analysis, comprising:
providing a nucleic acid sample from the person of interest;
amplifying the nucleic acid sample with a plurality of primers that specifically hybridize to a plurality of target sequences that collectively comprise a plurality of between at least or about 2,000 and 50,000 single nucleotide polymorphisms (SNPs), thereby generating amplification products, wherein the amplification is performed in one or more multiplex PCR reactions;
generating a nucleic acid library from the amplification products;
sequencing the nucleic acid library generated from the amplification products;
genotyping the plurality of SNPs, thereby generating a DNA profile; and
calculating a degree of relatedness between said DNA profile and one or more reference DNA profiles, said one or more reference DNA profiles being included in a reference set of DNA profiles comprising one or more reference DNA profiles from blood relatives of said person of interest;
A method comprising:
関心のある人からの核酸サンプルを提供すること、
複数の少なくとも2,000~50,000個の間または約2,000~50,000個の間の一塩基多型(SNP)を集合的に含む複数の標的配列に特異的にハイブリダイズする複数のプライマーを用いて前記核酸サンプルを増幅させ、それによって増幅産物を含む核酸ライブラリーを生成することであって、前記増幅を1つまたはそれを超えるマルチプレックスPCR反応で行うことと、
を含む方法。 1. A method for constructing a nucleic acid library for a person of interest, comprising:
providing a nucleic acid sample from the person of interest;
amplifying the nucleic acid sample with a plurality of primers that specifically hybridize to a plurality of target sequences that collectively comprise a plurality of between at least or about 2,000 and 50,000 single nucleotide polymorphisms (SNPs), thereby generating a nucleic acid library comprising amplified products, wherein the amplification is performed in one or more multiplex PCR reactions;
A method comprising:
関心のある人の血縁者からの核酸サンプルを提供すること、
複数の少なくとも2,000~50,000個の間または約2,000~50,000個の間の一塩基多型(SNP)を集合的に含む複数の標的配列に特異的にハイブリダイズする複数のプライマーを用いて前記核酸サンプルを増幅させ、それによって増幅産物を含む核酸ライブラリーを生成することであって、前記増幅を1つまたはそれを超えるマルチプレックスPCR反応で行うことと、
を含む方法。 1. A method for constructing a nucleic acid library for a reference DNA sample, comprising:
providing nucleic acid samples from relatives of the person of interest;
amplifying the nucleic acid sample with a plurality of primers that specifically hybridize to a plurality of target sequences that collectively comprise a plurality of between at least or about 2,000 and 50,000 single nucleotide polymorphisms (SNPs), thereby generating a nucleic acid library comprising amplified products, wherein the amplification is performed in one or more multiplex PCR reactions;
A method comprising:
少なくとも2,000~50,000個の間または約2,000~50,000個の間のSNPの遺伝子型を含むDNAプロファイルを得ることであって、前記DNAプロファイルが関心のある人からのものである、得ることと、
前記DNAプロファイルと1つまたはそれを超える参照DNAプロファイルとの関連度を計算することであって、前記1つまたはそれを超える参照DNAプロファイルが、前記関心のある人の血縁者からの1つまたはそれを超える参照DNAプロファイルを含むDNAプロファイルの参照セット内に含まれる、計算することとを含む、方法。 1. A method for calculating relatedness, comprising:
obtaining a DNA profile comprising genotypes of at least between or about 2,000 and 50,000 SNPs, wherein the DNA profile is from a person of interest;
and calculating a degree of relatedness between the DNA profile and one or more reference DNA profiles, wherein the one or more reference DNA profiles are included in a reference set of DNA profiles that includes one or more reference DNA profiles from blood relatives of the person of interest.
少なくとも2,000~50,000個の間または約2,000~50,000個の間のSNPの遺伝子型を含むDNAプロファイルを生成することであって、前記DNAプロファイルが関心のある人からのものである、生成することと、
前記DNAプロファイルと1つまたはそれを超える参照DNAプロファイルとの関連度を計算することであって、前記1つまたはそれを超える参照DNAプロファイルが、前記関心のある人の血縁者からの1つまたはそれを超える参照DNAプロファイルを含むDNAプロファイルの参照セット内に含まれる、計算することとを含む、方法。 1. A method for calculating relatedness, comprising:
generating a DNA profile comprising genotypes of at least between or about 2,000 and 50,000 SNPs, wherein the DNA profile is from a person of interest;
and calculating a degree of relatedness between the DNA profile and one or more reference DNA profiles, wherein the one or more reference DNA profiles are included in a reference set of DNA profiles that includes one or more reference DNA profiles from blood relatives of the person of interest.
前記1つまたはそれを超える参照サンプルは、前記関心のある人の血縁者からのサンプルを含み、
1つまたはそれを超えるマルチプレックスPCR反応において前記複数のプライマーを使用して、前記関心のある人からの前記核酸サンプルおよび1つまたはそれを超える参照サンプルからの前記核酸サンプルを増幅することが、増幅産物をもたらす、複数のプライマー。 a plurality of primers that specifically hybridize to a plurality of target sequences comprising between at least or between about 2,000 and 50,000 single nucleotide polymorphisms (SNPs) in a nucleic acid sample from the person of interest and one or more reference samples;
the one or more reference samples comprise samples from relatives of the person of interest;
A plurality of primers, wherein amplifying said nucleic acid sample from said person of interest and said nucleic acid sample from one or more reference samples using said plurality of primers in one or more multiplex PCR reactions results in amplification products.
関心のある人からの核酸サンプルを提供すること、
複数の少なくとも2,000~50,000個の間または約2,000~50,000個の間の一塩基多型(SNP)を集合的に含む複数の標的配列に特異的にハイブリダイズする複数のプライマーを用いて、前記核酸サンプルを増幅させ、それによって増幅産物を生成することであって、前記増幅を1つまたはそれを超えるマルチプレックスPCR反応で行うことと、
前記増幅産物を配列決定することと、
前記複数のSNPの遺伝子型を決定し、それによってDNAプロファイルを生成することと、
を含む方法。 1. A method for constructing a DNA profile, comprising:
providing a nucleic acid sample from the person of interest;
amplifying the nucleic acid sample using a plurality of primers that specifically hybridize to a plurality of target sequences that collectively comprise a plurality of between at least or about 2,000 and 50,000 single nucleotide polymorphisms (SNPs), thereby generating amplification products, wherein the amplification is performed in one or more multiplex PCR reactions;
sequencing the amplification products;
genotyping the plurality of SNPs, thereby generating a DNA profile; and
A method comprising:
関心のある人からの核酸サンプルを提供すること、
前記関心のある人の血縁者からの核酸サンプルを提供することと、
複数の少なくとも2,000~50,000個の間または約2,000~50,000個の間の一塩基多型(SNP)を集合的に含む複数の標的配列に特異的にハイブリダイズする複数のプライマーを用いて、前記関心のある人からの前記核酸サンプルおよび前記血縁者からの前記核酸サンプルを増幅させ、それによって増幅産物を生成することであって、前記増幅を1つまたはそれを超えるマルチプレックスPCR反応で行うことと、
前記増幅産物を配列決定することと、
前記複数のSNPの遺伝子型を決定し、それによって、前記関心のある人および前記関心のある人の前記血縁者のDNAプロファイルを生成することと、
を含む方法。 1. A method for constructing a DNA profile, comprising:
providing a nucleic acid sample from the person of interest;
providing a nucleic acid sample from a relative of the person of interest;
amplifying the nucleic acid sample from the person of interest and the nucleic acid sample from the relatives using a plurality of primers that specifically hybridize to a plurality of target sequences that collectively comprise a plurality of at least or between about 2,000 and 50,000 single nucleotide polymorphisms (SNPs), thereby generating amplification products, wherein the amplification is performed in one or more multiplex PCR reactions;
sequencing the amplification products;
genotyping the plurality of SNPs, thereby generating a DNA profile for the person of interest and the relatives of the person of interest;
A method comprising:
前記配列決定することが、10プレックス、11プレックス、12プレックス、13プレックス、14プレックス、15プレックス、16プレックス、17プレックス 18プレックス、19プレックス、20プレックス、21プレックス、22プレックス、23プレックス、24プレックス、25プレックス、26プレックス、27プレックス、28プレックス、29プレックス、30プレックス、31プレックス、32プレックス、33プレックス、34プレックスもしくは35プレックス、または約10プレックス、11プレックス、12プレックス、13プレックス、14プレックス、15プレックス、16プレックス、17プレックス 18プレックス、19プレックス、20プレックス、21プレックス、22プレックス、23プレックス、24プレックス、25プレックス、26プレックス、27プレックス、28プレックス、29プレックス、30プレックス、31プレックス、32プレックス、33プレックス、34プレックスもしくは35プレックスの配列決定プレキシティを含む、
請求項1~92および127~153のいずれか1項に記載の方法。 The sequencing may be performed in a 4-plex, 5-plex, 6-plex, 7-plex, 8-plex, 9-plex, 10-plex, 11-plex, 12-plex, 13-plex, 14-plex, 15-plex, 16-plex, 17-plex, or 18-plex, 19-plex, 20-plex, 21-plex, 22-plex, 23-plex, 24-plex, 25-plex, 26-plex, 27-plex, 28-plex, 29-plex, 30-plex, 31-plex, 32-plex, 33-plex, 34-plex, 35-plex, 36-plex, 37-plex, 38-plex, 39-plex, 40-plex, 41-plex, 42-plex, 43-plex, 44-plex or 45-plex, or about 4-plex, 5-plex, 6-plex, 7-plex, 8-plex, 9-plex, 10-plex, 11-plex, 12-plex, 13-plex, 14-plex, 15-plex, 16-plex, 17-plex wherein the sequencing comprises a sequencing complexity of 18-plex, 19-plex, 20-plex, 21-plex, 22-plex, 23-plex, 24-plex, 25-plex, 26-plex, 27-plex, 28-plex, 29-plex, 30-plex, 31-plex, 32-plex, 33-plex, 34-plex, 35-plex, 36-plex, 37-plex, 38-plex, 39-plex, 40-plex, 41-plex, 42-plex, 43-plex, 44-plex, or 45-plex; or wherein the sequencing comprises a sequencing complexity of 10-plex, 11-plex, 12-plex, 13-plex, 14-plex, 15-plex, 16-plex, 17-plex 18-plex, 19-plex, 20-plex, 21-plex, 22-plex, 23-plex, 24-plex, 25-plex, 26-plex, 27-plex, 28-plex, 29-plex, 30-plex, 31-plex, 32-plex, 33-plex, 34-plex or 35-plex, or about 10-plex, 11-plex, 12-plex, 13-plex, 14-plex, 15-plex, 16-plex, 17-plex 18-plex, 19-plex, 20-plex, 21-plex, 22-plex, 23-plex, 24-plex, 25-plex, 26-plex, 27-plex, 28-plex, 29-plex, 30-plex, 31-plex, 32-plex, 33-plex, 34-plex or 35-plex
154. The method of any one of claims 1 to 92 and 127 to 153.
請求項127~161のいずれか1項に記載のDNAプロファイルと1つまたはそれを超える参照DNAプロファイルとの関連度を計算することであって、前記1つまたはそれを超える参照DNAプロファイルが、前記関心のある人の血縁者からの1つまたはそれを超える参照DNAプロファイルを含むDNAプロファイルの参照セット内に含まれる、計算することと、
前記1つまたはそれを超える参照DNAプロファイルに関連して前記DNAプロファイルを含む家系図を生成することと、を含む方法。 1. A method for identifying genetic relatives of a DNA profile, comprising:
Calculating a degree of relatedness between the DNA profile of any one of claims 127 to 161 and one or more reference DNA profiles, wherein the one or more reference DNA profiles are comprised within a reference set of DNA profiles comprising one or more reference DNA profiles from blood relatives of the person of interest;
generating a pedigree comprising said DNA profile in relation to said one or more reference DNA profiles.
少なくとも2,000~50,000個の間または約2,000~50,000個の間のSNPの遺伝子型を含むDNAプロファイルと1つまたはそれを超える参照DNAプロファイルとの関連度を計算することであって、前記DNAプロファイルが関心のある人からのものであり、前記1つまたはそれを超える参照DNAプロファイルが、前記関心のある人の血縁者からの1つまたはそれを超える参照DNAプロファイルを含むDNAプロファイルの参照セット内に含まれる、計算することと、
前記1つまたはそれを超える参照DNAプロファイルに関連して前記DNAプロファイルを含む家系図を生成することと、を含む方法。 1. A method for confirming the identity of a DNA profile, comprising:
calculating a degree of relatedness between a DNA profile comprising genotypes of at least or between about 2,000 and 50,000 SNPs and one or more reference DNA profiles, wherein the DNA profile is from a person of interest and the one or more reference DNA profiles are included within a reference set of DNA profiles comprising one or more reference DNA profiles from relatives of the person of interest;
generating a pedigree comprising said DNA profile in relation to said one or more reference DNA profiles.
容器手段が、請求項94~126のいずれか1項に記載の複数のプライマーを含む、キット。 127. A kit comprising at least one container means comprising a plurality of the primers of any one of claims 94-126.
Applications Claiming Priority (5)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US202263398512P | 2022-08-16 | 2022-08-16 | |
| US63/398,512 | 2022-08-16 | ||
| US202363445541P | 2023-02-14 | 2023-02-14 | |
| US63/445,541 | 2023-02-14 | ||
| PCT/US2023/072246 WO2024040078A1 (en) | 2022-08-16 | 2023-08-15 | Methods and systems for kinship evaluation for missing persons and disaster/conflict victims |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2025530659A true JP2025530659A (en) | 2025-09-17 |
Family
ID=87933633
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2025508470A Pending JP2025530659A (en) | 2022-08-16 | 2023-08-15 | Method and system for kinship assessment for missing persons and disaster/conflict victims |
Country Status (5)
| Country | Link |
|---|---|
| EP (1) | EP4573550A1 (en) |
| JP (1) | JP2025530659A (en) |
| CN (1) | CN119731731A (en) |
| MX (1) | MX2025001812A (en) |
| WO (1) | WO2024040078A1 (en) |
Family Cites Families (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| MY200537A (en) | 2014-02-18 | 2024-01-02 | Illumina Inc | Methods and compositions for dna profiling |
| JP2024507168A (en) * | 2021-02-12 | 2024-02-16 | ベロジェン・インコーポレイテッド | Methods and compositions for DNA-based kinship analysis |
-
2023
- 2023-08-15 JP JP2025508470A patent/JP2025530659A/en active Pending
- 2023-08-15 WO PCT/US2023/072246 patent/WO2024040078A1/en not_active Ceased
- 2023-08-15 EP EP23765425.6A patent/EP4573550A1/en active Pending
- 2023-08-15 CN CN202380059358.9A patent/CN119731731A/en active Pending
-
2025
- 2025-02-13 MX MX2025001812A patent/MX2025001812A/en unknown
Also Published As
| Publication number | Publication date |
|---|---|
| MX2025001812A (en) | 2025-03-07 |
| CN119731731A (en) | 2025-03-28 |
| EP4573550A1 (en) | 2025-06-25 |
| WO2024040078A1 (en) | 2024-02-22 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Perry et al. | Genomic‐scale capture and sequencing of endogenous DNA from feces | |
| KR102487135B1 (en) | Methods and systems for digesting and quantifying DNA mixtures from multiple contributors of known or unknown genotype | |
| Alketbi | The role of DNA in forensic science: A comprehensive review | |
| JP7497879B2 (en) | Methods and Reagents for Analysing Nucleic Acid Mixtures and Mixed Cell Populations and Related Uses - Patent application | |
| EP3642744B1 (en) | Methods for accurate computational decomposition of dna mixtures from contributors of unknown genotypes | |
| Nassir et al. | A draft Arab pangenome reference | |
| Carracedo | Forensic genetics: history | |
| US20240117336A1 (en) | Methods and compositions for dna based kinship analysis | |
| JP2025530659A (en) | Method and system for kinship assessment for missing persons and disaster/conflict victims | |
| EP3118323A1 (en) | System and methodology for the analysis of genomic data obtained from a subject | |
| Daniel et al. | It’s all relative: A multi-generational study using ForenSeq™ Kintelligence | |
| Al-Snan | Fundamentals and principles of forensic DNA analysis | |
| Martin | Investigation into implementing a massively parallel sequencing workflow for forensic human identification in South Africa | |
| Gorden et al. | Hybridization capture and low-coverage SNP profiling for extended kinship analysis and forensic identification of historical remains | |
| Schanfield | Applications of Molecular | |
| HK40019712A (en) | Methods and systems for decomposition and quantification of dna mixtures from multiple contributors of known or unknown genotypes | |
| Graham | Discovery and characterization of tetranucleotide short tandem repeats in North American bears (ursids) | |
| HK40019713A (en) | Methods for accurate computational decomposition of dna mixtures from contributors of unknown genotypes | |
| HK40019713B (en) | Methods for accurate computational decomposition of dna mixtures from contributors of unknown genotypes | |
| NZ759848B2 (en) | Liquid sample loading | |
| NZ759848A (en) | Method and apparatuses for screening |