[go: up one dir, main page]

ES2634665T3 - Método y sistema para detectar anormalidades cromosómicas - Google Patents

Método y sistema para detectar anormalidades cromosómicas Download PDF

Info

Publication number
ES2634665T3
ES2634665T3 ES11175867.8T ES11175867T ES2634665T3 ES 2634665 T3 ES2634665 T3 ES 2634665T3 ES 11175867 T ES11175867 T ES 11175867T ES 2634665 T3 ES2634665 T3 ES 2634665T3
Authority
ES
Spain
Prior art keywords
data
snp
genetic
measurement
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES11175867.8T
Other languages
English (en)
Inventor
Matthew Rabinowitz
Milena Banjevic
Zachary Paul Demko
David Scott Johnson
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Natera Inc
Original Assignee
Natera Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US11/496,982 external-priority patent/US20070027636A1/en
Application filed by Natera Inc filed Critical Natera Inc
Application granted granted Critical
Publication of ES2634665T3 publication Critical patent/ES2634665T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6809Methods for determination or identification of nucleic acids involving differential detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • C12Q1/6874Methods for sequencing involving nucleic acid arrays, e.g. sequencing by hybridisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/40Population genetics; Linkage disequilibrium
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Organic Chemistry (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Analytical Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Epidemiology (AREA)
  • General Engineering & Computer Science (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

Un método ex vivo en el que la medición de múltiples loci de SNP en un segmento determinado de un cromosoma determinado de un feto humano se utiliza para determinar el número de veces que el segmento en cuestión está presente en el genoma del feto; dicho método comprende: (i) crear un conjunto de una o varias hipótesis acerca del número de veces que el segmento en cuestión está presente en el genoma del feto, (ii) medir la cantidad de material genético para algunos o todos los posibles alelos en una pluralidad de loci de SNP en el segmento en cuestión, utilizando instrumentos y técnicas tomados del grupo formado por las sondas de inversión molecular (MIP), los microarrays de genotipificación, el ensayo de genotipificación SNP Taqman, la PCR cuantitativa, el sistema de genotipificación Illumina, otros ensayos de genotipificación, la hibridación fluorescente in situ (FISH) y combinaciones de estas, (iii) determinar las probabilidades relativas de cada una de las hipótesis considerando las mediciones del material genético fetal, donde la determinación de las probabilidades relativas de cada hipótesis se lleva a cabo utilizando técnicas cuantitativas que no hacen determinaciones de alelos y donde la desviación media y estándar para la medición de cada locus es conocida, desconocida o uniforme, y (iv) utilizar las probabilidades relativas asociadas a cada hipótesis para determinar el estado más probable del material genético real del feto, donde la determinación del número de veces que el segmento de cromosoma en cuestión está presente en el genoma del feto sirve para detectar una anomalía cromosómica, la cual se selecciona de una lista que comprende monosomía, disomía uniparental, trisomía, otras aneuploidías, translocación no balanceada y combinaciones de estas.

Description

5
10
15
20
25
30
35
40
45
50
55
DESCRIPCION
Metodo y sistema para detectar anormalidades cromosomicas Referencias cruzadas a solicitudes relacionadas
Esta solicitud, con arreglo a 35 U.S.C. §119(e) reivindica la prioridad de las siguientes solicitudes provisionales de Patente USA: N.° serie 60/739,882, presentada el 26 de noviembre de 2005; N.° serie 60/742,305, presentada el 6 de diciembre de 2005; N.° serie 60/754,396, presentada el 29 de diciembre de 2005; N.° serie 60/774,976, presentada el 21 de febrero de 2006; N.° serie 60/789,506, presentada el 4 de abril de 2006; N.° serie 60/817,741, presentada el 30 de junio de 30, 2006;N.° serie 11/496,982, presentada el 31 de julio de 2006 y N.° serie 60/846,610, presentada el 22 de septiembre de 2006.
Campo de la tecnologia
La divulgacion se refiere en general al campo de la obtencion, la manipulacion y la utilizacion de datos geneticos con fines medicos predictivos, y espedficamente a un sistema en el que, mediante el uso de datos geneticos conocidos de individuos relacionados geneticamente, se confiere mayor precision a datos geneticos medidos de forma imperfecta, posibilitando asf una identificacion mas efectiva de irregularidades geneticas que podnan traducirse en diversos resultados fenotfpicos. Tambien se refiere en general al campo del analisis, la gestion y la aplicacion de informacion genetica, fenotfpica y clmica, y del uso de dicha informacion para predecir resultados fenotfpicos de decisiones medicas. Mas espedficamente, se refiere a metodos y sistemas que utilizan datos geneticos y fenotfpicos integrados y validados procedentes de un grupo de sujetos para tomar mejores decisiones en relacion con un sujeto concreto.
Descripcion de la tecnica relacionada
Diagnostico genetico prenatal y preimplantacional
Los metodos actuales de diagnostico prenatal pueden alertar a facultativos y padres sobre anomalfas en el desarrollo del feto. Sin un diagnostico prenatal, uno de cada 50 bebes nace con graves discapacidades ffsicas o mentales, y uno de cada 30 padecera alguna forma de malformacion congenita. Desafortunadamente, los metodos estandar requieren la realizacion de pruebas invasivas y entranan un riesgo de aborto de aproximadamente un uno por ciento Tales metodos incluyen la amniocentesis, la biopsia de corion y el muestreo de sangre fetal. El mas habitual de estos procedimientos es la amniocentesis: en el ano 2003 se realizo en aproximadamente el 3 % de todos los embarazos, si bien su frecuencia de uso ha ido disminuyendo durante los ultimos quince anos. Un inconveniente clave del diagnostico prenatal radica en el hecho de que, debido a los limitados cursos de accion a seguir una vez detectada una anomalfa, solo es valorable y etico realizarlo para detectar defectos muy graves. Como resultado, por regla general el diagnostico prenatal solo se intenta en casos de embarazos de alto riesgo, donde la elevada probabilidad de un defecto, combinada con la gravedad de la anomalfa potencial, supera los riesgos Existe la necesidad de un metodo de diagnostico prenatal que mitigue dichos riesgos.
Recientemente se ha descubierto que el ADN fetal en celulas libres y las celulas fetales intactas pueden entrar en la circulacion sangumea materna. Como consecuencia, el analisis de tales celulas puede permitir el diagnostico genetico prenatal no invasivo (NIPGD). Uno de los retos clave en el uso del NIPGD radica en la tarea de identificar y extraer celulas fetales o acidos nucleicos de la sangre de la madre. La concentracion de celulas fetales en la sangre materna depende de la fase del embarazo y del estado del feto, pero las estimaciones van desde una a cuarenta celulas fetales por cada mililitro de sangre materna, o menos de una celula fetal por cada 100 000 celulas nucleadas maternas. Las tecnicas actuales permiten aislar pequenas cantidades de celulas fetales a partir de la sangre de la madre, si bien es muy diffcil enriquecer las celulas fetales hasta alcanzar la pureza en cualquier cantidad. La tecnica mas efectiva en este contexto implica el uso de anticuerpos monoclonales, pero otras tecnicas utilizadas para aislar celulas fetales incluyen la centrifugacion por gradiente de densidad, la lisis selectiva de eritrocitos adultos y la clasificacion de celulas activada por fluorescencia (FACS). El aislamiento de ADN fetal se ha demostrado usando amplificacion PCR y utilizando cebadores con secuencias de ADN espedficas del feto. Dado que estas tecnicas proporcionan tan solo decenas de moleculas de cada polimorfismo de nucleotido unico (SNP) embrionario, actualmente no es posible la genotipificacion del tejido fetal con un alto grado de fidelidad.
Los humanos normales tienen dos juegos de 23 cromosomas en cada celula diploide, con una copia proveniente de cada progenitor. La aneuploidfa, donde la celula presenta cromosomas extra o ausentes, y la disoirna uniparental, donde las dos copias de un cromosoma determinado de una celula provienen del mismo progenitor, se consideran responsables de un elevado porcentaje de implantaciones fallidas, abortos y enfermedades geneticas. Si solo ciertas celulas de un individuo son aneuploides, se dice que el individuo presenta mosaicismo. La deteccion de anomalfas cromosomicas permite identificar individuos o embriones con trastornos tales como smdrome de Down, smdrome de Klinefelter y smdrome de Turner, entre otros, ademas de incrementar las probabilidades de llevar a buen termino el embarazo. La deteccion de anomalfas cromosomicas adquiere especial importancia a medida que las madres cumplen anos: entre las edades de 35 y 40 se estima que entre el 40 % y el 50 % de los embriones son anomalos, y por encima de los 40 anos mas de la mitad de los embriones son anomalos.
La cariotipificacion, el metodo tradicional utilizado para la prediccion de aneuploides y mosaicismo, esta dando paso a otros metodos mas productivos y rentables. Un metodo que ha atrafdo mucha atencion recientemente es la citometna de flujo (FC) y la hibridacion fluorescente in situ (FISH), que puede utilizarse para detectar la aneuploidfa en cualquier
5
10
15
20
25
30
35
40
45
50
55
60
fase del ciclo celular. Una ventaja de este metodo reside en el hecho de que es menos costoso que la cariotipificacion, pero su coste es lo suficientemente significativo como para que por lo general se analice una pequena seleccion de cromosomas (habitualmente los cromosomas 13, 18, 21, X, Y; tambien a veces 8, 9, 15, 16, 17, 22); ademas, FISH posee un bajo nivel de especificidad. Utilizando FISH para analizar 15 celulas, es posible detectar un mosaicismo del 19% con una certeza del 95%. La fiabilidad de la prueba disminuye en gran medida en proporcion al nivel de mosaicismo y al numero de celulas a analizar. Se estima que el porcentaje de falsos negativos de la prueba asciende al 15 % cuando se analiza una sola celula. Existe una gran demanda de un metodo que posea mayor rendimiento, menor coste y mayor exactitud.
Se ha investigado mucho sobre el uso del diagnostico genetico preimplantacional (PGD) como alternativa al diagnostico prenatal clasico de enfermedades hereditarias. La mayor parte del PGD actual se centra en anomalfas cromosomicas de alto nivel, tales como aneuploidfa y translocaciones balanceadas, para lograr como resultados primarios una implantacion exitosa y un bebe sano. Existe la necesidad de un metodo que permita una genotipificacion mas exhaustiva de los embriones durante la fase de preimplantacion. El numero de alelos geneticos asociados a enfermedades conocidos se situa actualmente en 389 segun el listado OMIM, y aumenta constantemente. Por consiguiente, cada vez es mas importante analizar SNP embrionarios multiples que estan asociados a fenotipos clmicos. Una clara ventaja del diagnostico genetico preimplantacional sobre el diagnostico prenatal reside en el hecho de que evita algunas de las cuestiones eticas relativas a las posibles opciones de actuacion una vez detectados los fenotipos indeseables.
Genotipificacion
Existen muchas tecnicas para aislar celulas individuales. La maquina FACS tiene diversas aplicaciones: una de las principales consiste en discriminar entre celulas en funcion del tamano, la forma y el contenido global de ADN. La maquina FACS puede configurarse para clasificar celulas individuales e introducirlas en cualquier recipiente deseado. Muchos grupos distintos han utilizado el analisis de ADN de celulas individuales para diversas aplicaciones, incluyendo el diagnostico genetico prenatal, estudios de recombinacion y el analisis de desequilibrios cromosomicos. La genotipificacion de espermatozoides individuales ha sido utilizada en ocasiones para el analisis forense de muestras de esperma (a fin de reducir los problemas derivados de las muestras mixtas) y para estudios de recombinacion unicelular. Si bien es altamente tecnico, el aislamiento de celulas individuales a partir de embriones humanos es ahora rutinario en las clmicas de fertilizacion in vitro. Hasta la fecha, la inmensa mayona de los diagnosticos prenatales han utilizado la hibridacion fluorescente in situ (FISH), que puede determinar grandes aberraciones cromosomicas (tales como el smdrome de Down o trisoirna 21) y la PCR/electroforesis, que puede determinar algunos SNP u otras determinaciones de alelos. Se han aislado con exito tanto cuerpos polares como blastomeros. Es esencial aislar blastomeros individuales sin comprometer la integridad embrionaria. La tecnica mas habitual consiste en extraer blastomeros individuales de embriones de 3 dfas (estadio de 6 u 8 celulas). Se transfieren los embriones a un medio de cultivo celular especial (medio de cultivo estandar sin calcio ni magnesio) y se practica un orificio en la zona pelucida utilizando una solucion acida, laser o perforacion mecanica. A continuacion, el tecnico utiliza una pipeta de biopsia para extraer un unico nucleo visible. Estudios clmicos han demostrado que este proceso no reduce el exito de la implantacion, ya que durante esta fase las celulas embrionarias no estan diferenciadas.
Hay disponibles tres metodos principales para la amplificacion del genoma completo (WGA): PCR mediada por ligacion (LM-PCR), PCR utilizando cebadores de oligonucleotidos degenerados (DOP-PCR) y amplificacion por desplazamiento multiple (MDA). En la LM-PCR, secuencias cortas de ADN denominadas adaptadores se ligan a extremos romos de ADN. Estos adaptadores contienen secuencias de amplificacion universales que se utilizan para amplificar el ADN mediante PCR. En la DOP-PCR, en una primera ronda de alineamiento y PCR se utilizan cebadores aleatorios que tambien contienen secuencias de amplificacion universales. A continuacion, se usa una segunda ronda de PCR para amplificar mas las secuencias con las secuencias del cebador universal. Finalmente, la MDA utiliza la polimerasa de phi- 29, una enzima altamente procesiva e inespedfica que replica ADN y que se ha utilizado para el analisis de celulas individuales. De los tres metodos, la DOP-PCR produce de forma fiable grandes cantidades de ADN a partir de pequenas cantidades de ADN, incluyendo copias individuales de cromosomas. Por otra parte, la MDA es el metodo mas rapido, ya que produce una amplificacion del ADN de cien veces en unas pocas horas. Las principales limitaciones del material de amplificacion procedente de una celula individual son (1) la necesidad de utilizar concentraciones de ADN extremadamente diluidas o un volumen extremadamente pequeno de mezcla de reaccion y (2) la dificultad de disociar de forma fiable el ADN de las protemas a lo largo de todo el genoma. No obstante, la amplificacion del genoma completo de celulas individuales se ha utilizado con exito para diversas aplicaciones durante varios anos.
La utilizacion de la amplificacion de ADN en estos contextos entrana numerosas dificultades. La amplificacion del ADN de celulas individuales (o del ADN procedente de una pequena cantidad de celulas, o de cantidades menores de ADN) mediante PCR puede fallar por completo, como se describe en el 5-10 % de los casos. A menudo, esto se debe a la contaminacion del ADN, a la perdida de la celula o de su ADN o a la accesibilidad del ADN durante la reaccion PCR. Otros errores que pueden producirse durante la medicion del ADN embrionario mediante amplificacion y analisis de microarrays incluyen errores de transcripcion inducidos por el ADN polimerasa, donde se copia de modo incorrecto un nucleotido concreto durante la PCR, y errores de lectura del microarray debido a la hibridacion imperfecta del array. Sin embargo, el principal problema continua siendo la perdida de alelos (ADO), que se da cuando solo se amplifica uno de los dos alelos en una celula heterocigota. La ADO puede afectar a mas del 40 % de las amplificaciones y ya ha causado diagnosticos erroneos de PGD. La ADO se convierte en un problema de salud especialmente en el caso de una enfermedad dominante, donde el fallo a la hora de amplificar puede conducir a la implantacion de un embrion afectado.
5
10
15
20
25
30
35
40
45
50
55
60
La necesidad de mas de un juego de cebadores por cada marcador (en heterocigotos) complica el proceso PCR. Por consiguiente, se estan desarrollando ensayos PCR mas fiables, basados en la comprension del origen de la ADO. Se estan estudiando las condiciones de reaccion para amplificaciones de celulas individuales. El tamano de amplicon, la magnitud de la degradacion de ADN, la congelacion y descongelacion y el programa y las condiciones de PCR pueden influir en la tasa de ADO.
Sin embargo, todas esas tecnicas dependen de la minuscula cantidad de ADN disponibles para la amplificacion en la celula individual. A menudo, este proceso va acompanado de contaminacion. Unas condiciones esteriles adecuadas y el dimensionamiento de microsatelites pueden excluir la posibilidad de ADN contaminante, ya que si el analisis de microsatelites detecta unicamente alelos parentales se descarta la contaminacion. Recientemente se han llevado a cabo estudios sobre la transferencia fiable de protocolos diagnosticos moleculares al nivel de celula individual, utilizando PCR multiple de primera ronda de marcadores de microsatelite, seguida de PCR en tiempo real y dimensionamiento de microsatelites para excluir la posibilidad de contaminacion fortuita. La PCR multiple permite la amplificacion de multiples fragmentos en una unica reaccion, un requisito crucial en el analisis de ADN de celulas individuales. Pese a que la PCR convencional fue el primer metodo utilizado en el PGD, hoy en dfa es habitual el uso de la hibridacion fluorescente in situ (FISH). Se trata de un ensayo visual sensible que permite la deteccion de acido nucleico dentro de la arquitectura celular y tisular intacta. Depende, ante todo, de la fijacion de las celulas a analizar. Por consiguiente, se requiere la optimizacion de las condiciones de fijacion y conservacion de la muestra, especialmente para suspensiones unicelulares.
Las tecnologfas avanzadas que posibilitan el diagnostico de diversas enfermedades a nivel unicelular incluyen la conversion de cromosomas interfasicos, la hibridacion genomica comparativa (CGH), la PCR fluorescente y la amplificacion del genoma completo. La fiabilidad de los datos generados por todas estas tecnicas se basa en la calidad de la preparacion del ADN. Ademas, el PGD es costoso, de ah que exista la necesidad de conceptos mas economicos, tales como la minisecuenciacion. A diferencia de la mayona de tecnicas de mutacion, la minisecuenciacion permite el analisis de fragmentos de ADN muy pequenos con una baja tasa de ADO. Por lo tanto, se requieren y se estan estudiando mejores metodos para la preparacion de ADN de celulas individuales para la amplificacion y el pGd. La mas recientes tecnicas de microarrays e hibridacion genomica comparativa continuan dependiendo en ultima instancia de la calidad del ADN analizado.
Se estan desarrollando diversas tecnicas para medir SNP multiples en el ADN de una pequena cantidad de celulas, una celula individual (por ejemplo, un blastomero), una pequena cantidad de cromosomas, o a partir de fragmentos de ADN. Existen tecnicas que utilizan la reaccion en cadena de la polimerasa (PCR), seguida del analisis de genotipificacion de microarrays. Algunos metodos basados en la PCR incluyen tecnicas de amplificacion del genoma completo (WGA), tales como la amplificacion por desplazamiento multiple (MDA) y las sondas de inversion molecular (MIP) que llevan a cabo la genotipificacion utilizando multiples oligonucleotidos marcados que posteriormente se pueden amplificar usando RCP con un unico par de cebadores. La hibridacion fluorescente in situ (FISH) es un ejemplo de una tecnica no basada en la PCR. Es obvio que las tecnicas seran muy propensas a errores debido a la cantidad limitada de material genetico, lo cual exacerbara el impacto de efectos tales como perdidas de alelos, hibridacion imperfecta y contaminacion.
Existen muchas tecnicas que proporcionan datos de genotipificacion. Taqman es una exclusiva tecnologfa de genotipificacion producida y distribuida por Applied Biosystems. Taqman utiliza la reaccion en cadena de la polimerasa (PCR) para amplificar secuencias de interes. Durante los ciclos de PCR, una sonda para ligandos de union al surco menor (MGB) espedfica del alelo hibrida con secuencias amplificadas. La smtesis de hebras mediante enzimas de polimerasa libera colorantes reporter ligados a las sondas MGB, y a continuacion los sensores opticos Taqman detectan los fluorocromos. De esta manera, Taqman consigue una discriminacion alelica cuantitativa. En comparacion con las tecnologfas de genotipificacion basadas en arrays, Taqman tiene un coste considerable por reaccion (~0,40 $/reaccion) y un rendimiento relativamente bajo (384 genotipos por serie). Si bien se requiere tan solo 1 ng de ADN por reaccion, miles de genotipos por Taqman requieren microgramos de ADN, de modo que Taqman no utiliza necesariamente menos ADN que los microarrays. Sin embargo, Taqman es la tecnologfa mas facilmente aplicable por lo que respecta al flujo de trabajo de genotipificacion IVF. Esto se debe a la elevada fiabilidad de los ensayos y, principalmente, a la velocidad y la facilidad del ensayo (~3 horas por serie y pasos biologicos moleculares minimos). Asimismo, a diferencia de muchas tecnologfas de array (tales como arrays 500k Affymetrix), Taqman es altamente personalizable, un aspecto importante para el mercado IVF. Ademas, Taqman es altamente cuantitativo, de modo que esta tecnologfa por sf sola permitina detectar aneuploidfas.
Recientemente, Illumina ha emergido como lfder en la genotipificacion de alto rendimiento. A diferencia de Affymetrix, los arrays de genotipificacion Illumina no se basan exclusivamente en la hibridacion. En su lugar, la tecnologfa Illumina utiliza para la deteccion de la secuencia original un paso de extension de ADN espedfico del alelo, que es mucho mas sensible y espedfico que la hibridacion por sf sola. Posteriormente, todos estos alelos se amplifican mediante PCR multiple y estos productos se hibridan para crear arrays de microesferas. Las microesferas presentes en estos arrays contienen marcadores de “direccion” umvocos, sin secuencia nativa, de modo que esta hibridacion es altamente espedfica y sensible. Posteriormente se determinan los alelos mediante escaneo cuantitativo de los arrays de microesferas. El sistema de ensayo Illumina Golden Gate genotipifica hasta 1536 loci simultaneamente, de modo que el rendimiento es superior al de Taqman pero no tan elevado como el de los arrays Affymetrix 500k. El coste de los genotipos Illumina es inferior al de Taqman pero superior al de los arrays Affymetrix. Asimismo, la plataforma Illumina tarda tanto en completarse como los arrays 500k Affymetrix (hasta 72 horas), lo cual es problematico para la genotipificacion IVF. Sin embargo, Illumina posee un mdice de determinacion mucho mejor y el ensayo es cuantitativo,
5
10
15
20
25
30
35
40
45
50
55
60
de modo que esta tecnologfa permite detectar aneuploid^as La tecnologfa Illumina es mucho mas flexible en cuanto a la seleccion de SNP que los arrays 500k Affymetrix.
Una de las tecnicas con mayor rendimiento, que posibilita la medicion simultanea de hasta 250 000 SNP, es el array de genotipificacion Affymetrix GeneChip 500K. Esta tecnica tambien utiliza la PCR, seguida por un analisis por hibridacion y la deteccion de las secuencias de ADN amplificadas para crear sondas de ADN, sintetizadas qmmicamente en diferentes ubicaciones sobre una superficie de cuarzo.
Los inconvenientes de estos arrays son su baja flexibilidad y su menor sensibilidad. Existen tecnicas modificadas que pueden incrementar la selectividad, tales como las tecnicas de “sonda de emparejamiento imperfecto” y “sonda de emparejamiento perfecto”, pero lo hacen a expensas del numero de determinaciones de SNP por array.
Tambien se pueden utilizar la pirosecuenciacion o la secuenciacion por smtesis para la genotipificacion y el analisis de SNP. Las principales ventajas de la pirosecuenciacion incluyen un proceso extremadamente rapido y determinaciones de SNP ineqmvocas; sin embargo, actualmente el ensayo no permite el analisis paralelo de alto rendimiento. La PCR seguida por electroforesis en gel es una tecnica extremadamente simple que ha acreditado los mejores resultados en el diagnostico preimplantacional. En esta tecnica, los investigadores utilizan la PCR anidada para amplificar secuencias de interes cortas. Posteriormente, situan estas muestras de ADN en un gel especial para visualizar los productos de PCR. Las diferentes bases poseen diferentes pesos moleculares, de modo que es posible determinar el contenido de la base a partir de la velocidad a la que el producto migra en el gel. Esta tecnica es de bajo rendimiento y requiere analisis subjetivos por cientfficos utilizando tecnologfas actuales, pero tienen la ventaja de la velocidad (1-2 horas de PCR, 1 hora de electroforesis en gel). Por este motivo, ya se ha utilizado para la genotipificacion prenatal de numerosas enfermedades, que incluyen: talasemia, neurofibromatosis de tipo 2, deficiencia de adhesion leucocitaria de tipo I, enfermedad de Hallopeau-Siemens, anemia de celulas falciformes, retinoblastoma, enfermedad de Pelizaeus- Merzbacher, distrofia muscular de Duchenne y smdrome de Currarino.
Otra tecnica prometedora que ha sido desarrollada para la genotipificacion de pequenas cantidades de material genetico con un grado de fidelidad muy elevado consiste en las sondas de inversion molecular (MIP), tales como el array Genflex de Affymetrix. Esta tecnica es capaz de medir multiples SNP en paralelo: se han verificado mas de 10 000 SNP medidos en paralelo. Para pequenas cantidades de material genetico, los indices de determinacion de esta tecnica se han establecido en torno al 95 %, y la exactitud de las determinaciones realizadas se ha establecido por encima del 99 %. Hasta la fecha, se ha implementado la tecnica para cantidades de datos genomicos tan pequenas como 150 moleculas para un SNP determinado. Sin embargo, no se ha verificado la tecnica para datos genomicos procedentes de una celula individual o de una sola hebra de ADN, como se requerina para el diagnostico genetico preimplantacional.
La tecnica MIP utiliza sondas candado, que son oligonucleotidos lineales cuyos dos extremos pueden unirse mediante ligacion cuando hibridan con secuencias diana de ADN inmediatamente adyacentes. Una vez que las sondas han hibridado con el ADN genomico, se agrega al ensayo una enzima de relleno de huecos que puede anadir al hueco uno de los cuatro nucleotidos. Si el nucleotido anadido (A,C,T,G) es complementario al SNP que se esta midiendo, hibridara con el ADN y unira mediante ligacion los extremos de la sonda candado. A continuacion, los productos circulares, o sondas candado cerradas, son diferenciados de las sondas lineales mediante exonucleolisis. Al romper las sondas lineales y dejar intactas las sondas circulares, la exonucleasa altera en un factor de 1000 o superior las concentraciones relativas de las pruebas cerradas en relacion con las no cerradas. A continuacion, las sondas que permanecen son abiertas por un punto de escision por otra enzima, retiradas del ADN y amplificadas mediante PCR. Cada sonda se marca con una secuencia de marcado distinta, consistente en 20 marcas de base (se han generado 16 000), y puede ser detectada, por ejemplo, con el array Affymetrix GenFlex Tag. La presencia de la muestra marcada procedente de una reaccion en la que se anadio una enzima de relleno de huecos concreta indica la presencia del aminoacido complementario en el SNP relevante.
Entre las ventajas biologicas moleculares de las MIP se cuentan: (1) genotipificacion multiplexada en una sola reaccion, (2) la “determinacion” de genotipo tiene lugar mediante relleno de huecos y ligacion, no por hibridacion, y (3) la hibridacion a un array de marcadores universales reduce los falsos positivos inherentes a la mayona de hibridaciones de array. En los arrays tradicionales 500K, TaqMan y otros arrays de genotipificacion, la totalidad de la muestra genomica se hibrida en el array, la cual contiene diversas sondas de emparejamiento perfecto e imperfecto, y un algoritmo determina genotipos probables basandose en las intensidades de las sondas de emparejamiento imperfecto y perfecto. Sin embargo, la hibridacion es inherentemente ruidosa, debido a las complejidades de la muestra de ADN y al enorme numero de sondas en los arrays. En cambio, las MIP utilizan sondas multiples (es decir, no en un array) que son mas largas y por ende mas espedficas, y a continuacion aplica un paso de ligacion robusto para circularizar la sonda. El ruido de fondo es extremadamente reducido en este ensayo (debido a la especificidad), si bien la perdida de alelos puede ser elevada (debido al bajo rendimiento de las sondas).
Si se utiliza esta tecnica con datos genomicos procedentes de una sola celula (o de numeros de celulas reducidos), presenta problemas de integridad, al igual que las tecnicas basadas en PCR. Por ejemplo, la incapacidad de la sonda candado para hibridar con el ADN genomico provoca perdidas de alelos. Este problema se agrava en el contexto de la fertilizacion in vitro, dado que la eficiencia de la reaccion de hibridacion es baja, y debe desarrollarse con relativa rapidez a fin de genotipificar el embrion en un periodo de tiempo limitado. Notese que la reaccion de hibridizacion puede reducirse muy por debajo de los niveles recomendados por el fabricante, y que tambien se pueden utilizar tecnicas microflmdicas para acelerar la reaccion de hibridacion. Estos metodos para acortar el tiempo para la reaccion de hibridacion se traducen en una disminucion de la calidad de los datos.
5
10
15
20
25
30
35
40
45
50
55
Tecnica previa
A continuacion se presenta una lista de tecnicas previas relacionadas con el campo de la presente invencion. Ninguna de estas tecnicas previas contiene ni se refiere en modo alguno a los elementos novedosos de la presente invencion. En la Patente USA 6 720 140, Hartley et al describen un metodo de clonacion recombinante para mover o intercambiar segmentos de moleculas de ADN utilizando puntos de recombinacion modificados y protemas de recombinacion. En la Patente USA 6 489 135 Parrott et al. dan a conocer metodos para determinar varias caractensticas biologicas de embriones fertilizados in vitro, incluyendo la salud general del embrion, la implantabilidad y el aumento de probabilidades de desarrollo con exito mediante el analisis de los niveles de lfpidos bioactivos en espedmenes de sustancias de cultivos de fertilizacion in vitro, a fin de determinar estas caractensticas. En la solicitud de Patente USA 20040033596, Threadgill et al. describen un metodo para preparar bibliotecas celulares homocigoticas que es util para la fenotipificacion in vitro y la cartograffa genetica, que implica la recombinacion mitotica espedfica de sitio en una pluralidad de celulas progenitoras aisladas. En la Patente USA 5 994 148, Steward et al. describen un metodo para determinar la probabilidad de exito de una fertilizacion in vitro (IVF) mediante la medicion de la relaxina directamente en el suero o indirectamente mediante el cultivo de celulas granulosas lutemicas extrafdas del paciente como parte de un procedimiento IVF/ET. En la solicitud de Patente USA 5 635 366, Cooke et al. dan a conocer un metodo para predecir el resultado de la IVF mediante la determinacion del nivel de 11-hidroxiesteroide deshidrogenasa en una muestra biologica procedente de una paciente femenina. En la Patente USA n.° 7 058 616, Larder et al. describen un metodo para utilizar una red neuronal para predecir la resistencia de una enfermedad a un agente terapeutico. En la Patente USA n.° 6 958 211, Vingerhoets et al. describen un metodo en el que el genotipo de integrasa de una cepa de VIH simplemente se compara con una base de datos conocida de genotipos de integrasa de VIH con fenotipos asociados para encontrar un fenotipo coincidente. En la Patente USA 7 058 517, Denton et al. describen un metodo en el que se comparan los haplotipos de un individuo con una base de datos conocida de haplotipos en la poblacion general, a fin de predecir la respuesta clmica a un tratamiento. En la Patente USA 7 035 739, Schadt et al. describen un metodo en el que se construye un mapa de marcadores geneticos y se analizan los genes y rasgos individuales para obtener datos de locus de gen-rasgo, que posteriormente se agrupan como metodo para identificar rutas que interactuan geneticamente, las cuales se validan empleando el analisis multivariado. En la Patente USA n.° 6 025 128, Veltri et al. describen un metodo que implica el uso de una red neuronal, utilizando una serie de biomarcadores como parametros para evaluar el riesgo de recurrencia del cancer de prostata. En la Patente USA n.° 5 824 467, Mascarenhas describe un metodo para predecir la respuesta a farmacos mediante el establecimiento de un perfil bioqmmico para pacientes y la medicion de la respuesta en miembros de la cohorte de estudio, y el posterior ensayo individual de los parametros del perfil bioqmmico de los pacientes para encontrar correlaciones con las mediciones de la respuesta a farmacos. En US 2005/221341 A1, Shimkets et al. describen un metodo para el analisis genomico, bautizado como “cariotipificacion basada en secuencia”, para la deteccion de anomalfas genomicas, para el diagnostico de enfermedades hereditarias o para el diagnostico de mutaciones genomicas espontaneas.
Resumen
En un aspecto, la invencion tal como se define en las reivindicaciones da a conocer un metodo ex vivo en el que la medicion de multiples loci de SNP en un segmento determinado de un cromosoma determinado de un feto humano se utiliza para determinar el numero de veces que el segmento en cuestion esta presente en el genoma del feto; dicho metodo comprende:
(i) crear un conjunto de uno o mas hipotesis acerca del numero de veces que el segmento en cuestion esta presente en el genoma del feto,
(ii) medir la cantidad de material genetico para algunos o todos los posibles alelos en una pluralidad de loci de SNP en el segmento en cuestion, utilizando instrumentos y tecnicas tomados del grupo formado por las sondas de inversion molecular (MIP), los microarrays de genotipificacion, el ensayo de genotipificacion SNP Taqman, la PCR cuantitativa, el sistema de genotipificacion Illumina u otros ensayos de genotipificacion, la hibridacion fluorescente in situ (FISH) y combinaciones de estas,
(iii) determinar las probabilidades relativas de cada una de las hipotesis considerando las mediciones del material genetico fetal, donde la determinacion de las probabilidades relativas de cada hipotesis se lleva a cabo utilizando tecnicas cuantitativas que no hacen determinaciones de alelos y donde la desviacion media y estandar para la medicion de cada locus es conocida, desconocida o uniforme, y
(iv) utilizar las probabilidades relativas asociadas a cada hipotesis para determinar el estado mas probable del material genetico real del feto,
donde la determinacion del numero de veces que el segmento de cromosoma en cuestion esta presente en el genoma del feto sirve para detectar una anomalfa cromosomica, la cual se selecciona de una lista que comprende monosoirna, disoirna uniparental, trisoirna, otras aneuploidfas, translocacion no balanceada y combinaciones de estas.
En una realizacion, la determinacion de las probabilidades relativas de cada una de las hipotesis se lleva a cabo utilizando alelos conocidos de secuencias de referencia y mediciones de alelos cuantitativas.
En otra realizacion, el metodo comprende ademas la amplificacion del material genetico fetal utilizando instrumentos y/o tecnicas tomados del grupo formado por la reaccion en cadena de la polimerasa (PCR), la PCR mediada por ligando,
5
10
15
20
25
30
35
40
45
50
55
60
PCR con cebadores de oligonucleotidos degenerados, amplificacion por desplazamiento multiple, amplificacion espedfica del alelo y combinaciones de estas.
En otra realizacion, el material genetico fetal se mide analizando sustancias tomadas del grupo formado por tejido diploide en bruto del individuo diana, una o varias celulas diploides tomadas del individuo diana, uno o varios blastocistos extrafdos del individuo diana, material genetico extracelular encontrado en el individuo diana, material genetico extracelular del individuo diana encontrado en la sangre materna, celulas del individuo diana encontradas en la sangre materna, material genetico que se sabe que se ha originado en el individuo diana y combinaciones de estas.
En otra realizacion, la determinacion del numero de veces que el segmento de cromosoma en cuestion esta presente en el genoma del feto se utiliza para el diagnostico genetico prenatal.
En otro aspecto, la invencion da a conocer un sistema implementado por ordenador configurado para ejecutar el metodo.
La invencion se define en las reivindicaciones adjuntas. El sistema divulgado permite la limpieza de datos geneticos incompletos o ruidosos utilizando datos geneticos secundarios como fuente de informacion, y tambien permite utilizar dichos datos geneticos para hacer predicciones fenotfpicas y clmicas. Si bien la divulgacion se centra en datos geneticos procedentes de sujetos humanos, cabe senalar que los metodos divulgados se aplican a los datos geneticos de una gama de organismos en una variedad de contextos. Las tecnicas descritas para la limpieza de datos geneticos son especialmente relevantes en el contexto del diagnostico preimplantacional durante la fertilizacion in-vitro, el diagnostico prenatal en combinacion con la amniocentesis, la biopsia de corion y el muestreo de sangre fetal y el diagnostico prenatal no invasivo, donde se afsla de la sangre materna una pequena cantidad de material genetico fetal. Los diagnosticos pueden centrarse en enfermedades hereditarias, el aumento de las probabilidades de defectos o anomalfas, asf como en la realizacion de predicciones fenotfpicas para individuos a fin de mejorar la toma de decisiones clmicas y de estilo de vida. La invencion aborda los inconvenientes de la tecnica previa que se han comentado anteriormente. Las tecnicas aqrn descritas para la realizacion de predicciones fenotfpicas y clmicas son relevantes en multiples contextos, incluyendo los contextos de diagnostico preimplantacional y diagnostico prenatal, asf como en el contexto de individuos con afecciones medicas o susceptibilidades. Ciertas realizaciones de la tecnologfa aqrn divulgada describen un sistema para hacer predicciones exactas de resultados fenotfpicos o susceptibilidades fenotfpicas para un individuo, partiendo de un conjunto de informacion genetica, fenotfpica y/o clmica para el individuo. En un aspecto de la divulgacion, se da a conocer una tecnica para construir modelos de regresion lineales y no lineales que pueden predecir con exactitud el fenotipo cuando hay muchos predictores potenciales en comparacion con el numero de resultados medidos, como es tfpico de los datos geneticos; en otro aspecto de la divulgacion, los modelos estan basados en tablas de contingencia y construidos a partir de informacion disponible en el dominio publico. En otro aspecto de la divulgacion, se describe un sistema donde una serie de modelos son adiestrados en un conjunto de datos relevante, y se utiliza el modelo mas exacto al hacer la prediccion relevante.
En un aspecto de la divulgacion, los metodos utilizan el conocimiento imperfecto de los datos geneticos de la madre y del padre, junto con el conocimiento del mecanismo de meiosis y la medicion imperfecta del ADN embrionario, a fin de reconstruir con un alto grado de certeza, mediante simulacion por ordenador, el ADN embrionario en la ubicacion de los SNP clave. Es importante senalar que los datos parentales permiten la reconstruccion no solo de SNP medidos deficientemente, sino tambien de inserciones, deleciones y de sNp o regiones enteras de ADN que no fueron medidas.
El metodo divulgado es aplicable en el contexto de la fertilizacion in-vitro, donde para la genotipificacion se dispone de un numero muy reducido de blastomeros procedentes de cada embrion considerado para la implantacion. El metodo divulgado es igualmente aplicable al contexto del diagnostico prenatal no invasivo (NIPD), donde tan solo se han aislado de la sangre de la madre una pequena cantidad de celulas fetales o fragmentos de ADN fetal. El metodo divulgado es igualmente aplicable en el caso de la amniocentesis y otros metodos en los que se toman directamente muestras de sangre fetal. El metodo divulgado es aplicable de manera mas general en cualquier caso donde este disponible una cantidad limitada de datos geneticos del individuo diana, y esten disponibles datos geneticos adicionales de individuos relacionados geneticamente con el individuo diana.
En un aspecto de la divulgacion, los datos genomicos fetales o embrionarios que se han reconstruido pueden utilizarse para detectar si la celula es aneuploide, esto es, si un cromosoma concreto esta presente mas o menos de dos veces en una celula. Un ejemplo comun de esta anomalfa es la trisoirna 21, que da lugar al smdrome de Down. Los datos reconstruidos tambien se pueden utilizar para detectar la disomfa uniparental, una anomalfa en la que estan presentes dos ejemplares de un cromosoma concreto, ambos procedentes de un mismo progenitor. Para ello se crea un conjunto de hipotesis sobre los estados potenciales del ADN, y se realizan pruebas para determinar cual de ellas tiene las mayores probabilidades de ser cierta considerando los datos medidos. Notese que el uso de datos de genotipificacion de alto rendimiento para detectar la aneuploidfa permite utilizar un unico blastomero de cada embrion tanto para medir multiples loci asociados a enfermedades como para detectar anomalfas cromosomicas.
En la invencion, las mediciones directas de la cantidad de material genetico amplificado o no amplificado presente en una pluralidad de loci se pueden utilizar para detectar aneuploidfas o disomfa uniparental. Este metodo se fundamente en la sencilla idea de que la cantidad de material genetico presente durante la amplificacion es proporcional a la cantidad de informacion genetica presente en la muestra inicial, de modo que la medicion de dichos niveles en multiples loci arrojara un resultado estadfsticamente significativo. Este metodo de deteccion de anomalfas cromosomicas puede utilizarse en combinacion con el metodo relacionado aqrn descrito para la limpieza de datos geneticos.
5
10
15
20
25
30
35
40
45
50
55
60
En otro aspecto de la divulgacion, el metodo divulgado puede limpiar material genetico del individuo que ha sido contaminado por ADN o ARN ajeno, identificando los datos generados por materiales geneticos extranos. Las senales espurias generadas por el ADN contaminante pueden identificarse de manera similar al modo en que pueden detectarse en todo el cromosoma las senales anomalas generadas por aneuploides.
En otro aspecto de la invencion, se afslan celulas diana, se amplifican los datos geneticos contenidos en dichas celulas y se realizan mediciones de SNP multiples empleando una combinacion de una o varias de las siguientes tecnicas: tecnicas de amplificacion basadas en pCr, tecnicas de medicion basadas en PCR o tecnicas de deteccion basadas en sondas de inversion molecular, o bien microarrays como los sistemas GeneChip o TaqMan. A continuacion, se utilizan estos datos geneticos en el sistema aqrn descrito.
En otro aspecto de la divulgacion, se pueden limpiar los datos geneticos de un individuo utilizando datos diploides y haploides procedentes de ambos progenitores. Alternativamente, se pueden simular datos haploides procedentes de un progenitor si es posible medir datos diploides y haploides del progenitor del progenitor. En otro aspecto, se pueden utilizar datos geneticos de cualquier persona con una relacion genetica conocida con el individuo para limpiar los datos del individuo, incluyendo padres, hermanos, abuelos, hijos, primos, tfos, tfas, etc.
En otro aspecto de la divulgacion, se pueden conocer total o parcialmente mediante simulacion por ordenador los datos geneticos del individuo diana y/o de individuos relacionados, haciendo innecesarias algunas mediciones directas. Se pueden generar por ordenador partes de los datos geneticos, mediante un concepto informatico que utiliza un modelo oculto de Markov.
En un aspecto de la divulgacion, es posible estimar la certeza que se tiene en la determinacion de tales SNP.
Notese que las tecnicas aqrn descritas son relevantes tanto para las mediciones de material genetico en una celula o en un numero reducido de celulas como para las mediciones en pequenas cantidades de ADN, como las que pueden aislarse a partir de la sangre de la madre en el contexto del diagnostico prenatal no invasivo (NIPD). Notese asimismo que este metodo puede aplicarse igualmente a datos genomicos generados por ordenador, es decir, no directamente medidos a partir de material genetico.
En un aspecto de la divulgacion, se da a conocer una tecnica para crear modelos basados en tablas de contingencia que pueden construirse a partir de datos disponibles a traves de publicaciones tales como la base de datos OMIM (Herencia Mendeliana en el Hombre Online) y utilizando datos disponibles a traves del proyecto HapMap y otros aspectos del Proyecto Genoma Humano. Ciertas realizaciones de esta tecnica utilizan datos publicos aparecidos acerca de la asociacion entre genes y acerca de la asociacion entre genes y enfermedades, a fin de mejorar la exactitud predictiva de los modelos.
En otro aspecto, se da a conocer una tecnica que permite determinar el mejor modelo para los datos disponibles para un paciente concreto. En este aspecto pueden examinarse multiples combinaciones diferentes de variables, junto con multiples tecnicas de modelado diferentes, y se puede escoger aquella combinacion que arrojara la mejor prediccion para un sujeto individual sobre la base de la validacion cruzada con datos de pruebas de otros sujetos.
En algunos casos, los modelos que pueden proporcionar las predicciones mas precisas de resultados fenotfpicos o susceptibilidades fenotfpicas para un individuo son adiestradas mediante tecnicas de optimizacion convexa para llevar a cabo una seleccion continua de subconjuntos de predictores, a fin de garantizar que uno de ellos encuentra los parametros globalmente optimos para un conjunto de datos concreto. Esta caractenstica resulta particularmente ventajosa si el modelo es complejo y puede contener muchos predictores potenciales, tales como mutaciones geneticas o niveles de expresion genetica. Ademas, en algunos ejemplos se pueden utilizar tecnicas de optimizacion convexa para reducir el numero de modelos, de modo que expliquen los datos de manera simple. Esta caractenstica permite a los modelos adiestrados generalizar con exactitud incluso si el numero de predictores potenciales en el modelo es elevado en comparacion con el numero de resultados medidos en los datos de adiestramiento. Se han publicado tecnicas similares en una revista academica (Rabinowitz, M., et al., 2006, “Accurate prediction of HIV- 1 drug response from the reverse transcriptase and protease amino acid sequences using sparse models created by convex optimization.” Bioinformatics 22(5): 541-9.). Notese que la informacion contenida en esta publicacion ha sido incluida en este documento a fin de aportar informacion de fondo y contexto.
Mientras ciertas realizaciones ilustrativas aqrn divulgadas se centran en datos geneticos procedentes de sujetos humanos y proporcionan realizaciones espedficas para personas que padecen cancer o VIH o para personas que tratan de entender su susceptibilidad a enfermedades tales como el Alzheimer o el infarto de miocardio, cabe senalar que los metodos divulgados se aplican a los datos geneticos de una gama de organismos en una gama de numerosos contextos distintos. Las tecnicas aqrn descritas para la prediccion fenotfpica y la prediccion de la respuesta a farmacos pueden ser relevantes en el contexto del tratamiento de diversos canceres, enfermedades geneticas, infecciones bacterianas, fungicas o vmcas, asf como al hacer predicciones fenotfpicas para individuos a fin de mejorar las decisiones clmicas y de estilo de vida. Ademas, el sistema se puede utilizar para determinar las probabilidades de resultados fenotfpicos concretos a partir de datos geneticos, espedficamente datos de SNP (polimorfismo de nucleotido unico) de un embrion (preimplantacion) en el contexto de la IVF, o de un feto en el contexto del diagnostico prenatal no invasivo o invasivo, incluyendo la amniocentesis.
En una realizacion, los modelos predictivos se pueden aplicar a datos geneticos para un individuo concreto que se han almacenado en un formato computable estandarizado. El individuo puede describir cuestiones concretas que son
5
10
15
20
25
30
35
40
45
50
55
60
relevantes para el, o el sistema puede determinar automaticamente que susceptibilidades fenotfpicas son relevantes para dicho individuo. A medida que se dispone de nuevos datos de investigacion sobre asociaciones entre enfermedad y genes, tratamientos o habitos de estilo de vida, se puede notificar al individuo el impacto de esta informacion sobre sus decisiones y habitos, sobre la base de modelos predictivos desarrollados a partir de los datos genomicos y clmicos agregados. Alternativamente, el sistema puede utilizar nuevos datos de investigacion para detectar riesgos para el individuo hasta ahora insospechados, y se puede notificar a dicho individuo el impacto de esta informacion.
En otra realizacion se pueden generar informes ampliados para facultativos utilizando modelos de prediccion de resultados adiestrados con datos integrados desde bases de datos geneticos, datos genotfpicos e historiales clmicos, incluyendo pruebas diagnosticas relevantes. Este sistema puede posibilitar la creacion de informes ampliados para individuos con enfermedades y/o predisposiciones a enfermedades, incluyendo, entre otros, VIH, cancer, Alzheimer y cardiopatias. Estos informes ampliados indicaran al medico responsable que tratamientos preventivos o de control de la enfermedad podnan estar mas o menos indicados para un individuo concreto. El informe incluira predicciones y lfmites de certeza para resultados clave para ese individuo, utilizando modelos adiestrados con datos agregados del sujeto.
Conforme con otra realizacion, se da a conocer un sistema y metodo donde se utilizan datos relativos a un individuo concreto para hacer predicciones sobre dicho individuo utilizando modelos basados en tablas de contingencia y construidos a partir de informacion disponible en el dominio publico, donde dichos datos se obtienen de un grupo formado por los datos geneticos de dicho individuo, los datos fenotfpicos de dicho individuo, los datos clmicos de dicho individuo y combinaciones de estos, y donde dichas predicciones se refieren a temas tomados de un grupo que comprende los fenotipos, las susceptibilidades fenotfpicas y los posibles resultados clmicos de dicho individuo, y donde dicha informacion se toma de un grupo que comprende informacion sobre asociaciones entre genotipo y fenotipo, informacion sobre la frecuencia de ciertos alelos geneticos, informacion sobre la frecuencia de ciertas asociaciones entre alelos geneticos, informacion sobre la probabilidad de uno o varios estados de ciertos fenotipos partiendo de ciertas combinaciones de alelos geneticos, informacion sobre la probabilidad de una combinacion concreta de alelos geneticos dado el estado de cierto fenotipo, y combinaciones de estas.
Conforme con otra realizacion, se da a conocer un sistema y metodo donde se pueden utilizar datos relativos a un individuo concreto para hacer predicciones sobre dicho individuo utilizando diversos modelos matematicos adiestrados con datos agregados, de manera que se puede utilizar el modelo que acredite la mayor exactitud, donde los datos de dicho individuo se obtienen de un grupo formado por los datos geneticos de dicho individuo, los datos fenotfpicos de dicho individuo y los datos clmicos de dicho individuo, y donde dichas predicciones se refieren a temas tomados de un grupo que comprende los fenotipos, las susceptibilidades fenotfpicas, los posibles resultados clmicos y combinaciones de estos. En ciertas realizaciones, el metodo puede examinar muchas o todas las distintas combinaciones de variables independientes y variables dependientes en un conjunto de datos determinado, utilizando multiples modelos y multiples parametros de afinacion, y posteriormente selecciona aquella combinacion de variables independientes y variables dependientes, aquel modelo y aquellos parametros de afinacion que hayan alcanzado el mayor coeficiente de correlacion con los datos de los ensayos, a fin de hacer las mejores predicciones fenotfpicas.
Conforme con otra realizacion, cualquiera de los metodos aqrn divulgados puede utilizar predicciones para generar informes para un individuo espedfico en relacion con uno o varios temas relevantes para dicho individuo, donde dichos temas se toman de un grupo que comprende decisiones de estilo de vida, habitos alimenticios, suplementos hormonales, posibles pautas de tratamiento para una enfermedad, posibles pautas de tratamiento para un patogeno, intervenciones farmacologicas y combinaciones de estos, y donde dicha prediccion se basa en datos relativos a la dotacion genetica de dicho individuo, a las caractensticas fenotfpicas de dicho individuo, al historial clmico de dicho individuo y a combinaciones de estos.
Conforme con otras realizaciones, cualquiera de los metodos aqrn divulgados puede utilizar predicciones para generar informes para un agente de un individuo espedfico, como por ejemplo un facultativo, y donde dichas predicciones podnan ayudar a dicho agente al proporcionar informacion relevante sobre dicho individuo, y donde el tema de dicha informacion se toma de un grupo de temas que comprende decisiones de estilo de vida, habitos alimenticios, suplementos hormonales, posibles pautas de tratamiento para una enfermedad, posibles pautas de tratamiento para un patogeno, intervenciones farmacologicas, otras intervenciones terapeuticas y combinaciones de estos, y donde dicha prediccion se basa en datos relativos a la dotacion genetica de dicho individuo, a las caractensticas fenotfpicas de dicho individuo, al historial clmico de dicho individuo y a combinaciones de estos.
Conforme con otra realizacion, cualquiera de los metodos aqrn divulgados puede utilizar predicciones para beneficiar a un individuo espedfico que padece cancer, y donde dichas predicciones podnan ayudar a los facultativos al proporcionar informacion relevante sobre dicho individuo y/o sobre el cancer espedfico de dicho individuo, y donde el tema de dicha informacion se toma de un grupo de temas que comprende pautas de tratamiento, decisiones de estilo de vida, habitos alimenticios, intervenciones farmacologicas, otras intervenciones terapeuticas y combinaciones de estos, y donde dicha prediccion se basa en datos relativos a la dotacion genetica de dicho individuo, a las caractensticas fenotfpicas de dicho individuo, al historial clmico de dicho individuo y a combinaciones de estos.
Conforme con una realizacion, cualquiera de los metodos aqrn divulgados puede utilizarse para beneficiar a un individuo espedfico infectado por un patogeno, y donde dichas predicciones podnan ayudar a los facultativos al proporcionar informacion relevante sobre dicho individuo y/o sobre el patogeno espedfico que infecta a dicho individuo, donde dicho patogeno pertenece a una clase derivada de un grupo formado por bacterias, virus, microbios, amebas, hongos y otros parasitos, y donde el tema de dicha informacion se toma de un grupo de temas que comprende pautas de tratamiento,
5
10
15
20
25
30
35
40
45
decisiones de estilo de vida, habitos alimenticios, intervenciones farmacologicas, otras intervenciones terapeuticas y combinaciones de estos, y donde dicha prediccion se basa en datos relativos a la dotacion genetica de dicho individuo, a las caractensticas fenotfpicas de dicho individuo, al historial clmico de dicho individuo y a combinaciones de estos.
Conforme con otra realizacion, cualquiera de los metodos aqm divulgados puede utilizar predicciones relativas a un individuo espedfico, nuevos conocimientos y datos a medida que se disponga de dichos conocimientos, y que podna utilizarse para generar informes, automaticamente o a peticion, en relacion con temas relevantes para dicho individuo, donde los temas se toman de un grupo que comprende decisiones de estilo de vida, habitos alimenticios, suplementos hormonales, posibles pautas de tratamiento para una enfermedad, posibles pautas de tratamiento para un patogeno, intervenciones farmacologicas, otras intervenciones terapeuticas y combinaciones de estos, y donde los nuevos conocimientos y datos revisten caracter medico, y donde la prediccion se basa en datos relativos a la dotacion genetica de dicho individuo, a las caractensticas fenotfpicas de dicho individuo, al historial clmico de dicho individuo y a combinaciones de estos.
Conforme con otra realizacion, cualquiera de los metodos aqm divulgados puede utilizar predicciones empleando datos geneticos procedentes de un embrion espedfico, y dichas predicciones pueden utilizarse para ayudar en la seleccion de embriones en el contexto de la IVF, basandose en la susceptibilidad pronosticada a ciertos fenotipos de dicho embrion.
Conforme con una realizacion, cualquiera de los metodos aqm divulgados puede utilizar predicciones empleando datos geneticos procedentes de un feto espedfico, y dichas predicciones pueden utilizarse para estimar resultados fenotfpicos concretos para la progenie potencial, tales como esperanza de vida, la probabilidad de psoriasis o la probabilidad de un nivel concreto de aptitudes matematicas.
Un experto en la tecnica apreciara, a partir del beneficio de esta divulgacion, que otros aspectos, caractensticas y realizaciones pueden implementar uno o varios de los metodos y sistemas aqm divulgados.
DESCRIPCION BREVE DE LOS DIBUJOS
Figura 1: una ilustracion del concepto de recombinacion en meiosis para la formacion de gametos.
Figura 2: una ilustracion de las tasas de recombinacion variables a lo largo de una region del cromosoma humano 1. Figura 3: determinacion de la probabilidad de falsos negativos y falsos positivos para diferentes hipotesis.
Figura 4: los resultados de una muestra femenina mixta, todos los loci heterocigotos.
Figura 5: los resultados de una muestra masculina mixta, todos los loci heterocigotos.
Figura 6: mediciones Ct para una muestra masculina diferenciadas de mediciones Ct para una muestra femenina.
Figura 7: los resultados de una muestra femenina mixta; colorante unico TaqMan.
Figura 8: los resultados de una muestra masculina mixta; colorante unico TaqMan.
Figura 9: la distribucion de mediciones repetidas para una muestra masculina mixta.
Figura 10: los resultados de una muestra femenina mixta; mediciones qPCR.
Figura 11: los resultados de una muestra masculina mixta; mediciones qPCR.
Figura 12: mediciones Ct para una muestra masculina diferenciadas de mediciones Ct para una muestra femenina. Figura 13: deteccion de aneuploidfa con un tercer cromosoma disfmil.
Figura 14: una ilustracion de dos distribuciones de amplificacion con mdice de perdida de alelos constante.
Figura 15: n grafico de la funcion de densidad de probabilidad gaussiana de alfa.
Figura 16: el diagrama de relacion general de los datos de entrada, los datos de la base de datos, el algoritmo y la salida.
Figura 17: una sinopsis visual del metodo para derivar P(H|M).
Figura 18: una representacion visual del diagrama de flujo que describe el algoritmo utilizado para demostrar la efectividad del algoritmo de limpieza en datos simulados.
Figura 19: una ilustracion de un sistema configurado para aplicar el metodo aqm divulgado, en el contexto de la prediccion fenotfpica de embriones durante la IVF.
Tabla1: un resumen de los genes de enfermedad encontrados en OMIM/NCBI.
Tabla 2: un resumen de diferentes tecnicas de deteccion de aneuploidfa.
Tabla 3: un ejemplo de datos de entrada para el metodo descrito, utilizando SNP con un bajo grado de cosegregacion. Tabla 4: un ejemplo de datos introducidos para el metodo descrito, utilizando SNP con un alto grado de cosegregacion. Tabla 5: un ejemplo de los datos de salida para los datos de entrada mostrados en la Tabla 2.
5
10
15
20
25
30
35
40
45
50
55
Tabla 6: un ejemplo de los datos de salida para los datos de entrada mostrados en la Tabla 4.
Tabla 7: los resultados de la simulacion preliminar.
Tabla 8: los resultados de la simulacion completa del metodo.
Tabla 9: tres tablas de contingencia que representan los resultados de Farrer (2005), Labert (1998) y Alvarez (1999) para entender el papel de las mutaciones en APOE y ACE sobre la aparicion del Alzheimer.
DESCRIPCION DETALLADA DE LA REALIZACION PREFERENTE
Vision de conjunto conceptual del sistema
Un objetivo del sistema divulgado es proporcionar datos genomicos altamente precisos con fines de diagnosticos geneticos. En casos en los que los datos geneticos de un individuo contienen una cantidad significativa de ruido o errores, el sistema divulgado utiliza las similitudes entre los datos geneticos de individuos emparentados y la informacion contenida en estos datos geneticos secundarios para limpiar el ruido en el genoma diana. Para ello se determina que segmentos de cromosomas estuvieron implicados en la formacion del gameto y donde tuvieron lugar entrecruzamientos durante la meiosis, y por consiguiente que segmentos de los genomas secundarios se espera que sean practicamente identicos a secciones del genoma diana. En ciertas situaciones, este metodo puede utilizarse para limpiar mediciones de pares de bases ruidosas, pero tambien se puede emplear para inferir la identidad de pares de bases individuales o de regiones enteras de ADN que no fueron medidas. Ademas, se puede calcular una certeza para cada determinacion de reconstruccion realizada. En primer lugar, se presenta una explicacion altamente simplificada, formulando supuestos poco realistas a fin de ilustrar el concepto de la invencion. Posteriormente se presenta un enfoque estadfstico detallado que puede aplicarse a la tecnologfa actual.
Otro objetivo del sistema es detectar numeros anomalos de cromosomas, secciones de cromosomas y ongenes de cromosomas. En muestras geneticas que son aneuploides, presentan translocaciones no balanceadas, disoirna uniparental u otras anomalfas cromosomicas manifiestas, la cantidad de material genetico presente en una pluralidad de loci se puede utilizar para determinar el estado cromosomico de la muestra. Existen multiples enfoques de este metodo, y aqu se describen algunos de ellos. En algunos enfoques, la cantidad de material genetico presente en una muestra es suficiente para detectar directamente aneuploidfas. En otros enfoques, el metodo para limpiar el material genetico se puede utilizar para aumentar la eficiencia de la deteccion de desequilibrios cromosomicos. Se puede calcular una certeza para cada determinacion cromosomica realizada.
Descripcion tecnica del sistema
Limpieza de datos: un ejemplo simplificado
La figura 1 ilustra el proceso de recombinacion que tiene lugar durante la meiosis para la formacion de gametos en un progenitor. El cromosoma 101 de la madre del individuo se muestra en naranja (o gris). El cromosoma 102 del padre del individuo se muestra en blanco. Durante este intervalo, conocido como diploteno, durante la profase I meiotica es visible una tetrada de cuatro cromatidas 103. El entrecruzamiento entre cromatidas no hermanas de un par homologo tiene lugar en los puntos conocidos como nodulos de recombinacion 104. A efectos ilustrativos, el ejemplo se centrara en un unico cromosoma y tres polimorfismos de nucleotido unico (SNP), los cuales se presupone que caracterizan los alelos de tres genes. Para este debate se presupone que los SNP se pueden medir por separado en los cromosomas maternos y paternos. Este concepto se puede aplicar a muchos SNP, muchos alelos caracterizados por SNP multiples, muchos cromosomas, y a la tecnologfa de genotipificacion actual en la que no es posible aislar individualmente los cromosomas maternos y paternos antes de la genotipificacion.
Debe prestarse atencion a los puntos de entrecruzamiento posible entre los SNP de interes. El conjunto de alelos de los tres genes maternos puede describirse como (am1, am2, am3), correspondiente a los SNP (SNP1, SNP2, SNP3). El conjunto de alelos de los tres genes paternos puede describirse como (ap1, ap2, ap3). Considerense los nodulos de recombinacion formados en la figura 1, y presupongase que existe una sola recombinacion por cada par de cromatidas recombinantes. El conjunto de gametos que se forman en este proceso tendra los alelos genicos: (am1, am2, ap3), (am1, ap2, ap3), (ap1 am2, ap3), (ap1, ap2, am3). En el caso sin entrecruzamiento de cromatidas, los gametos tendran los alelos (am1), am2, am3), (ap1, ap2, ap3). En el caso con dos puntos de entrecruzamiento en las regiones relevantes, los gametos tendran los alelos (am1, ap2, am3), (ap1, am1, ap3). Se aludira a estas ocho combinaciones diferentes de alelos como el conjunto hipotetico de alelos para ese progenitor concreto.
La medicion de los alelos procedentes del ADN embrionario sera ruidosa. A los efectos de este debate, tomese un unico cromosoma del ADN embrionario y presupongase que procede del progenitor cuya meiosis se ilustra en la figura 1. Las mediciones de los alelos en este cromosoma se pueden describir en terminos de un vector de variables indicadoras: A = [A1 A2 A3]t donde A1 = 1 si el alelo medido en el cromosoma embrionario es am1, A1 = -1 si el alelo medido en el cromosoma embrionario es ap1, y A1 = 0 si el alelo medido no es ni ami ni ap1. Sobre la base del conjunto hipotetico de alelos para el progenitor supuesto, se puede crear un conjunto de ocho vectores que se corresponde con todos los gametos posibles anteriormente descritos.
Para los alelos anteriormente descritos estos vectores serian a1 = [1 1 1]T, a2 = [1 1 -1]T, a3 =[1-1 1]T, a4 = [1 -1 -1]T ,a5 = [-1 1 1]T, a6 = [-1 1 -1]T, a7 = [-1 -1 1]T, as = [-1 -1 -1]T. En esta aplicacion altamente simplificada del sistema, los alelos
5
10
15
20
25
30
35
40
45
50
55
probables del embrion se pueden determinar realizando un simple analisis de correlacion entre el conjunto hipotetico y los vectores medidos:
i* = arg maxi AT a, i = 1 ...8
(1)
Una vez hallado i*, se selecciona la hipotesis ai* como el conjunto de alelos mas probable en el ADN embrionario. A continuacion se repite dos veces este proceso con dos supuestos distintos, concretamente que el cromosoma embrionario procede de la madre o del padre. Se presupondra que es correcto el supuesto que arroje la mayor correlacion ATa* en cada caso se utiliza un conjunto de alelos hipotetico, basado en las mediciones del respectivo aDn de la madre o del padre. Cabe senalar que en una realizacion tfpica del metodo divulgado, se mide un gran numero de SNP entre aquellos SNP que son importantes debido a su asociacion con fenotipos de enfermedad concretos: estos seran denominados SNP asociados a fenotipo o PSNP. Los SNP no asociados a fenotipo o PSNP (NSNP) entre los PSNP pueden escogerse previamente (por ejemplo, para desarrollar un array de genotipificacion especializada) seleccionando de la base de datos NCBI dbSNP aquellos RefSNP que tiendan a diferir sustancialmente entre individuos. Alternativamente, se pueden escoger los NSNP entre los PSNP para un par de progenitores concreto porque difieren entre los progenitores. El uso de SNP adicionales entre los PSNP permite determinar con un mayor nivel de certeza si se produce entrecruzamiento entre los PSNP. Es importante senalar que, si bien en esta notacion se hace referencia a diferentes “alelos”, se hace simplemente por conveniencia: los SNP pueden no estar asociados a genes que codifican protemas.
El sistema en el contexto de la tecnologia actual
En otra realizacion mas compleja, se calcula la probabilidad a posteriori de un conjunto de alelos a partir de una medicion concreta, tomando en consideracion la probabilidad de entrecruzamientos concretos. Ademas, se aborda el escenario tfpico de los microarrays y otras tecnologfas de genotipificacion, donde se miden los SNP para determinar pares de cromosomas, en lugar de un unico cromosoma cada vez. Las mediciones del genotipo en el locus i para los cromosomas embrionario, paterno y materno se pueden caracterizar respectivamente mediante variables aleatorias que representan los pares de mediciones SNP (e-g, e?) (p-g, p2,i) y (m-i, m2,) Dado que no es posible determinar la presencia de entrecruzamientos en los cromosomas materno y paterno si se realizan todas las mediciones como pares, se modifica el metodo: ademas de genotipificar los embriones fertilizados y el tejido diploide paterno y materno, se genotipifica tambien una celula haploide de cada progenitor, concretamente un espermatozoide y un ovulo. Los alelos medidos del espermatozoide se representan mediante p-g, i=1...N y los alelos complementarios medidos a partir del tejido diploide paterno se representan mediante p2,i. De forma similar, los alelos medidos del ovulo se representan mediante m-g, y su complemento en la celula diploide materna se representan mediante m2,i. Estas mediciones no proporcionan informacion sobre donde se entrecruzaron los cromosomas parentales durante la generacion de el espermatozoide y el ovulo medidos. Sin embargo, se puede presuponer que la secuencia de alelos N en el ovulo o el espermatozoide se creo a partir de los cromosomas parentales mediante una pequena cantidad de entrecruzamientos o sin que estos se hayan producido. Esta informacion es suficiente para aplicar el algoritmo divulgado. Una cierta probabilidad de error esta asociada con la determinacion de los SNP paterno y materno. La estimacion de esta probabilidad de error variara en funcion de las mediciones realizadas (p-g, p2,i) y (mi,i,, m2,i) y la relacion senal-ruido de la tecnologia empleada. Pese a que estas probabilidades de error variar se pueden calcular espedficamente para cada locus sin afectar al metodo divulgado, se simplifica el algebra presuponiendo que las probabilidades de determinar correctamente los SNP paterno y materno son constantes en pp y pm, respectivamente.
Presupongase que se realiza en el ADN embrionario una medicion que se denomina medicion M. Ademas, se modifica ligeramente la notacion de modo que A es ahora un conjunto en lugar de un vector: A se refiere a una hipotesis concreta acerca de la combinacion (o conjunto) de alelos derivados de cada progenitor. El conjunto de todas las combinaciones posibles de alelos A procedentes de ambos progenitores se denota como Sa. El objetivo es determinar la combinacion de alelos (o esa hipotesis) A £ Sa con la mayor probabilidad a posteriori, partiendo de la medicion M:
A* = arg maxA p(A\M), ^ £ Sa
(2)
Aplicando la ley de las probabilidades condicionales, P(A/M) = P(M|A)P(A)/P(M). Dado que P(M) es comun para todas las diferentes A, la busqueda de optimizacion se puede reformular como:
/\* = arg max A P(M \ A)P(A), £ SA
(3)
Considerese ahora el calculo de P(M/A). Partiendo de un unico locus i, adoptese la hipotesis de que este locus en el embrion se deriva de los SNP parentales SNPs pt,i,i y mt,i,i donde el submdice t se usa para denotar el valor real de estos SNP parentales, en contraposicion a las mediciones realizadas pi,i y mi i, que pueden o no ser correctas. El valor real de los SNP embrionarios se denota como (et,i,i, et,2,i)- Si la hipotesis A es cierta, entonces (et,i,i et,2,i) " (pt,i,i, mt,i,i) o (mt,i,i, Pt,i,i). Dado que no es posible diferenciar cual de las mediciones (ei,i e2,i) procede de cada progenitor, es preciso considerar ambos ordenes, de modo que el conjunto de hipotesis A = [(pt,i,i, mt,i,i), (mt,i,i, Pt,i,i)]. La probabilidad de una medicion concreta M depende de los valores reales o los estados subyacentes de los SNP parentales, concretamente
(pt,i,i, Pt,2,i) y (mt,i,i, mt,2,i). Dado que hay cuatro SNP, pt,i,i, pt,2,i, mt,i,i, mt,2,i, y cada una de ellas puede adoptar el valor de cuatro bases nucleotidas, A,C,T,G, hay 44 o 256 estados posibles. El algoritmo se ilustra para un estado Si para el que se presupone que pt,i,i^pt,2,i^mt,i,i^mt,2,i- A partir de esta explicacion, quedara claro como aplicar el metodo a los 256 estados posibles, Sk, k=1...256. Presupongase que se realiza una medicion M de SNP embrionarios (ei,i, e2,i) y se 5 obtiene el resultado ei,i=pi,i, e2,i=mi,i. Se calcula la probabilidad a priori para esta medicion presuponiendo que la hipotesis A y el estado Si son ciertos:
P(eIt i=pi,i, e2, i=mlii\A, si)=
P(et.ij=pt,i,i,eaj=mti,;\A,si)P(e1j=pi,i\ e,.u=pt.u)P(e2j=m1.i\ et,2,i=mt,i,i) + P(et,i,i=mt,i,i,et,2j=PtjM,Si)P(ei,i=pu\et.ii=mt,i,i, pt.ui mtu) P(e2,i=m1.i\eiM=ptM, pl2j imtU)
10
15
20
25
(4)
Considerense las primeras expresiones en el primer termino y el segundo termino: P(ei,i=pi,i, e2,i=mi,i|A,Si)= P(ei,i=mi,i,e2,i=pi.i|A,Si)=0,5 puesto que la hipotesis A=[(pt,i,i, mt,i,i), (mt,i,i, pt,i,i)] hace igualmente probables dos ordenaciones para los SNP embrionarios. Considerese ahora la segunda expresion del primer termino, P(ei,i=pi,i |et,i,i=pt,i,i), la probabilidad de medir ei,i=pi,i, partiendo del supuesto de que el SNP embrionario et,i, se deriva realmente del SNP paterno SNP pt,i,i. Las probabilidades de medir correctamente los SNP paternos, los SNP maternos y los SNP embrionarios son pp, pm, y pc. Partiendo del supuesto (et,i,i=Pt,i,i), la medicion (ei,i,=pi,i,) requiere que esten correctamente medidos los SNP tanto embrionarios como paternos o que ambos esten incorrectamente medidos como el mismo nucleotido (A,C,T o G). Asf, P(ei,i=pi,i|et,i,i=Pt,i,i) = PePp+(i-Pe)(i-Pp)/3 donde se presupone en aras de la simplicidad que la probabilidad de determinar incorrectamente los cuatro nucleotidos es identica: se puede modificar facilmente el algoritmo para acomodar diferentes probabilidades de determinar un nucleotido concreto (A,C,T,G) partiendo de una medicion en otro nucleotido concreto. Identico principio puede aplicarse a la tercera expresion en el primer termino para obtener P(e2,i=mi,i|et,2,i=mt,i,i) = PePm+(1-Pe)(1-Pm)/3. Considerese ahora la segunda expresion del
segundo termino. P(^l,i=Pl,i l®t,l,i' ^t,l,b ^t,l,r^Pt,l,i) requiere que e-g o p-g sean una medicion incorrecta, o que ambas sean mediciones incorrectas, de modo que los valores medidos sean iguales:
P(eU=Pu |et,i4=mt,i4, mu,^u,0= pe(l-Pp)/3+(l-pe)Pp/3+(l-pe)(l-pp)2/9. E| mismo argumento
puede aplicarse a la ultima expresion del segundo termino para obtener P(e2,i=mi,i |et,2,i=pt,2,i>
mt,l,i7-Pt,2,i) — Pe(l-Pm)/3+(l-pe)Pm/3+(l-pe)(l-pm)2/9. Ahora, combinando todos estos terminos y adoptando el supuesto -unicamente para simplificar el algebra- de que pe=pp=pm=p, se puede calcular:
imagen1
Pese a que el calculo sera distinto, se utilizana un enfoque conceptual similar al aqrn descrito para los 256 estados 30 posibles, Sk, k=i...256. Calculando P(ei,i=pi,i, e2,i=mi,i|A,si) para los 256 estados si y sumando la probabilidad de cada si,
se obtiene P(ei,i=pi,i,e2,i=mi,i|A). En otras palabras:
imagen2
35
A fin de calcular las probabilidades de cada estado si, P(si), es preciso tratar todos los alelos que conforman un estado como eventos separados, puesto que se encuentran en cromosomas separados, en otras palabras:
Se
pueden aplicar tecnicas bayesianas para estimar la distribucion de probabilidades de las mediciones individuales. Cada medicion de un alelo en los cromosomas maternos o paternos en el locus i puede tratarse como un experimento de lanzamiento de una moneda para determinar la probabilidad de que este alelo tenga un valor concreto (A,C,T o G). Estas mediciones se realizan en las muestras de tejido adulto y pueden tratarse como totalmente fiables, aunque se midan pares de alelos para cada SNP y no sea posible determinar que alelos proceden de cada cromosoma. Sea Wp,i,i = P(pt,i,i), lo que se corresponde con que la probabilidad del SNP i en el cromosoma paterno tenga el valor pt,i,i. En la siguiente explicacion se utiliza w en lugar de Wp,i,i. Partase de la base de que las mediciones realizadas en SNP i del
imagen3
5
10
15
20
25
30
35
40
cromosoma paterno estan caracterizadas como datos recopilados D. Se puede crear una distribucion de probabilidades para w, p(w) y actualizarla despues de haber medido los datos aplicando el teorema de Bayes: p(w|D)= p(w)p(D|w)/p(D). Presupongase que se observan n alelos de SNP i y que el alelo concreto correspondiente a w esta presente h veces; en
h veces. La probabilidad de esta observacion se puede caracterizar mediante la
\nh
W)
(7)
Antes de recopilar los datos, presupongase que existe una distribucion a priori p(w) que es uniforme entre 0 y 1. Aplicando el teorema de Bayes, resulta sencillo demostrar que la distribucion resultante para p(w|D) sera una distribucion beta de la forma:
otras palabras, se observa distribucion binomial
cara
imagen4
imagen5
y c es una constante normalizadora. Con independencia del numero de veces que se actualice posteriormente p(w|D) aplicando el teorema de Bayes y nuevas mediciones, continuara teniendo una distribucion beta como la anteriormente descrita. Las estimaciones de p(w) se actualizan cada vez que se obtiene una nueva medicion. Notese que existira una funcion p(w) diferente para diferentes razas y diferentes sexos utilizando las mismas agrupaciones empleadas en el proyecto HapMap, dado que la probabilidad de diferentes alelos en SNP concretos depende de estas agrupaciones de raza y sexo. Para el calculo de P(si), cada alelo de cada cromosoma se asociara a una distribucion de probabilidades
estimada, concretamente Pp,l,i(Wp,l,i), Pp,2,i(Wp!2,i)5 Piipl^Wnpij) y pm,2,iC^m,2,0"A continuacion, es posible calcular la maxima estimacion a posteriori (MAP) para P(si) conforme con la estimacion MAP para cada una de las distribuciones individuales. Por ejemplo, partase de la base de que Wp,u* es el argumento que maximiza pp,i,i=(wp,i,i). La estimacion MAP de P(s,) puede hallarse con arreglo a
imagen6
Dado que existe una distribucion de probabilidades para cada w, es posible calcular tambien estimaciones conservadoras de los valores P(si) para cualquier nivel de certeza especificado, integrando la distribucion de probabilidades en lugar de simplemente utilizando las estimaciones MAP. Es posible hacer esto, por ejemplo, para estimar de forma conservadora P(M|A) hasta un nivel de certeza. Con independencia de si se utiliza una estimacion conservadora o una estimacion MAP, la estimacion de P(si) se refina continuamente para el calculo de P(M|A). En lo sucesivo, se eliminara la referencia al estado supuesto a fin de simplificar la notacion, y se presupondra el estado si para todas las explicaciones de calculo detallado. Tengase en cuenta que, en la practica, estos calculos se realizanan para cada uno de los 256 estados y se sumanan las probabilidades de cada uno de ellos.
El metodo para el calculo de P(M|A) se extiende ahora a multiples loci de SNP, presuponiendo que M representa el conjunto de mediciones de N pares de SNP en el embrion, M =[Mi,...,Mn]. Presupongase asimismo que A representa el conjunto de hipotesis para cada SNP acerca de que cromosomas parentales contribuyeron a dicho SNP, A = [Ai,...,An]. Partase de la base de que Sa' representa el conjunto de todas las demas hipotesis posibles que son distintas a o pertenecen al conjunto A'. Es posible calcular P(M|A) y P(M|A'):
P{M I A)= n P(M’ I -7)> M0= E P(A) [1 P(M, I 4) (10)
<»i...AT AeS4,
Considerese el calculo de P(A). En esencia, este se basa en la probabilidad de que se produzcan entrecruzamientos concretos durante la formacion de los gametos que forman el embrion. La probabilidad de un conjunto de alelos determinado depende de dos factores, concretamente la probabilidad de que el cromosoma embrionario proceda de la madre o del padre y la probabilidad de una combinacion concreta de entrecruzamientos. Para un conjunto normal de cromosomas embrionarios que no presentan aneuploidfa, la probabilidad a priori de que el cromosoma embrionario proceda de la madre o del padre es del 50 %, y por consiguiente es comun para A en su conjunto. Considerese ahora la
5
10
15
20
25
30
35
40
45
probabilidad de un conjunto concreto de nodulos de recombinacion. El numero de puntos de recombinacion relevantes R depende del numero de SNP medidos: R=N-1. Dado que el segmento de ADN que constituye N NSNP alrededor del PSNP de interes sera relativamente corto, la interferencia de entrecruzamiento hace altamente improbable que puedan tener lugar en una region dos entrecruzamientos en el mismo cromosoma. Por motivos de eficiencia computacional, este metodo presupone que se producira un solo entrecruzamiento en cada region para cada cromosoma relevante, y esto puede ocurrir en R puntos posibles. Para un experto en la tecnica sera obvio como se puede ampliar este metodo para incluir la posibilidad de que existan multiples entrecruzamientos en una region determinada.
Si se parte de la base de que la probabilidad de un entrecruzamiento en cada region entre los SNP se denota como Pr, r =1...N-1. En principio, la probabilidad de un nodulo de recombinacion en una region r entre dos SNP es proporcional a la distancia genetica entre dichos SNP (medida en cMorgans). Sin embargo, la investigacion mas reciente ha posibilitado un modelado preciso de la probabilidad de recombinacion entre dos loci de SNP. Las observaciones derivadas de estudios de esperma y patrones de variacion genetica revelan que las tasas de recombinacion vanan en gran medida a lo largo de escalas de kilobases y que gran parte de la recombinacion tiene lugar en puntos calientes de recombinacion y provoca que el desequilibrio de ligamiento presente una estructura en forma de bloque. Los datos NCBI acerca de las tasas de recombinacion en el Genoma Humano estan disponibles publicamente a traves de la base de datos de anotaciones del genoma de la UCSC
Se pueden utilizar varios conjuntos de datos individualmente o en combinacion. Dos de los conjuntos de datos mas habituales proceden del Proyecto HapMap y del Proyecto de Haplotipos Humanos Perlegen. Este ultimo es mas denso, mientras que el primero es de mayor calidad. Veanse en la figura 2 las tasas de recombinacion regionales desde la posicion 1 038 423 hasta la 4 467 775 de los cromosomas 1, basadas en los datos de la Fase I de HapMap, version 16a. Estas tasas se estimaron aplicando el metodo de Monte Carlo basado en cadenas de Markov con saltos reversibles (MCMC), que esta disponible en el paquete LDHat. El espacio-estado considerado es la distribucion de mapas de tasas de recombinacion constantes por tramos. La cadena de Markov explora la distribucion del numero y la ubicacion de puntos de tasa de cambio, ademas de las tasas para cada segmento, 201. Estos resultados pueden utilizarse para generar una estimacion de Pr integrando los tiempos de tasas de recombinacion por la longitud de cada segmento constante entre los SNP. La tasa de recombinacion acumulativa a lo largo de los nucleotidos 202 se muestra en la figura 2 en rojo.
Sea C es un conjunto de variables indicadoras cr de modo que cr=1 si se produjo un entrecruzamiento en la region r y 0 de lo contrario. cc=1 si no se produjeron entrecruzamientos y 0 de lo contrario. Puesto que se presupone que solo puede producirse un entrecruzamiento en una region de N SNP, solo un elemento del conjunto C es diferente a cero. Por lo tanto, la probabilidad de entrecruzamiento representada por el conjunto C resulta ser:
imagen7
En la hipotesis A acerca de los SNP 1...N, existen cuatro entrecruzamientos potenciales relevantes.
Concretamente, los entrecruzamientos potenciales en i) los cromosomas paternos que formaron el embrion (denotados por el conjunto Cpe de variables indicadoras), ii) los cromosomas paternos que formaron el espermatozoide secuenciado (conjunto Cps), iii) los cromosomas maternos que formaron el embrion (conjunto Cme) y iv) los cromosomas maternos que formaron el ovulo secuenciado (conjunto Cee). Dos supuestos adicionales son v) si el primer SNP embrionario paterno proviene de pt,1,1 o pt,2,i y vi) si el primer SNP embrionario materno proviene de mt,1,1 o de mt,2,1. Dado que las probabilidades de entrecruzamientos entre los SNP difieren entre razas y sexos, diferentes probabilidades de entrecruzamiento se denotaran como Pp,r para los cromosomas paternos y Pm,r para los cromosomas maternos. Por consiguiente, la probabilidad de una hipotesis concreta A que incluye los conjuntos Cpe, Cps, Cme, Cee se expresa como:
imagen8
Ahora, con las ecuaciones para determinar P(A) y P(M/A), se han definido todos los elementos necesarios para calcular A* mediante la ecuacion 3 anteriormente formulada. Asf pues, a partir de las mediciones, altamente propensas a errores, de los SNP embrionarios es posible determinar donde se produjeron entrecruzamientos, y por consiguiente limpiar con un alto grado de certeza las mediciones embrionarias. Queda por determinar el grado de certeza en la mejor hipotesis A*. Para determinarla, es necesario encontrar la ratio de momios P(A*|M)/P(A*'|M). Todas las herramientas para este calculo se han descrito anteriormente:
P(A*\M) = __ P( A* J M) _ P(A*)P(M | A*) _ P(A*)P(M | A*) _
M) ~ 1 - P(A*\M) ~ P(A*')P(M\A*;) “ (l~P(A*))P(M \ A*') '
5
10
15
20
25
30
35
40
45
50
La certeza en A* se expresa entonces como P(A*|M) = ORA*/(1+OR A*). Este calculo indica la certeza en una hipotesis concreta A*, pero no indica la certeza en una determinacion concreta de un SNP. A fin de calcular la certeza en una determinacion de PSNP embrionario n, es necesario crear el conjunto de todas las hipotesis A que no cambian el valor de este SNP. Este conjunto se denotara como SA*,n, que corresponde a todas las hipotesis cuyo resultado es que el PSNP n en el embrion tiene el mismo valor que el predicho por la hipotesis A*. De forma similar, se crea un conjunto SA*',n que corresponde a todas las hipotesis cuyo resultado es que el PSNP n tiene un valor diferente al predicho por la hipotesis A*. Ahora es posible calcular la ratio de momios de la probabilidad de que el SNP sea determinado correctamente frente a la probabilidad que el SNP sea determinado incorrectamente:
imagen9
La certeza en la determinacion concreta de SNP n embrionario basada en la razon de momios ORa*, n puede calcularse como:
imagen10
Cabe senalar que esta tecnica tambien podna utilizarse para detectar defectos tales como la disoirna uniparental (UPD), donde los dos ejemplares de un mismo cromosoma provienen del mismo progenitor, mientras que no esta presente ningun ejemplar de ese cromosoma procedente del otro progenitor. Al intentar deducir los entrecruzamientos en los cromosomas parentales, no existira ninguna hipotesis que explique adecuadamente los datos con un alto grado de certeza, y si se admiten hipotesis alternativas que incluyan la posibilidad de UPD, se determinaran como mas probables.
Limitaddn del efecto de la incertidumbre en las tasas de recombinacion y la fiabilidad de la medicion de SNP
El metodo divulgado depende de: supuestos sobre la probabilidad de recombinacion entre SNP concretas, supuestos sobre la probabilidad de la medicion correcta de cada SNP en los cromosomas embrionarios, del espermatozoide, el ovulo, paternos y maternos; y supuestos sobre la probabilidad de ciertos alelos dentro de diferentes grupos de poblacion. Considerese cada uno de estos supuestos: el mecanismo de recombinacion no esta perfectamente entendido y modelado, y se ha establecido que la probabilidad de entrecruzamiento vana en funcion del genotipo de un individuo. Ademas, las tecnicas mediante las cuales se miden las tasas de recombinacion presentan una variabilidad sustancial. Por ejemplo, el paquete LDHat, que implementa el metodo de Monte Carlo basado en cadenas de Markov con saltos reversibles (MCMC), plantea una serie de supuestos y requiere la aportacion del usuario acerca del mecanismo y la caracterizacion de la recombinacion. Estos supuestos pueden afectar a las tasas de recombinacion pronosticadas entre los SNP, como demuestran los diferentes resultados obtenidos por diversos estudios.
Se preve que los supuestos sobre tasas de recombinacion, de entre todos los supuestos mencionados anteriormente, son los que tendran mayor impacto sobre la ecuacion 15. Los calculos descritos anteriormente debenan basarse en las mejores estimaciones de la probabilidad de entrecruzamiento entre SNP, Pr. Posteriormente, se pueden utilizar estimaciones conservadoras para Pr empleando valores de, por ejemplo, lfmites de certeza del 95 % para las tasas de recombinacion, en la direccion que reduce la medida de certeza P (correctamente denominada SNP n). Los lfmites de certeza del 95 % pueden derivarse de datos de certeza generados por diversos estudios de tasas de recombinacion, y esto puede corroborarse observando el nivel de discordancia entre los datos publicados por diferentes grupos utilizando distintos metodos.
De forma similar, los lfmites de certeza del 95 % pueden utilizarse para las estimaciones de la probabilidad de que cada SNP sea determinado correctamente: pp, pm, pe. Estos numeros pueden calcularse sobre la base de las intensidades de array medidas reales incluidas en los archivos de salida del ensayo de genotipificacion, combinadas con datos empmcos sobre la fiabilidad de la tecnica de medicion. Cabe senalar que pueden ignorarse aquellos NSNP para los cuales no estan bien establecidos estos parametros pp, pm y pe. Por ejemplo, dado que se han medido con precision los datos parentales diploides, es posible ignorar las mediciones de NSNP de las celulas haploides de los progenitores y en el embrion que no se corresponden con ninguno de los alelos en los SNP relevantes del tejido diploide de los progenitores.
Finalmente, cabe considerar los supuestos acerca de la probabilidad de ciertos alelos dentro de diferentes grupos de poblacion, que da lugar al calculo P(si). Estos supuestos tampoco tendran un gran impacto sobre el metodo divulgado, dado que la medicion de los datos diploides parentales es fiable, esto es, la medicion directa del estado Si a partir de las muestras parentales suele arrojar datos con un alto nivel de certeza. Sin embargo, es posible usar la distribucion de probabilidades para cada w tal como se describe en la ecuacion 8, a fin de calcular un lfmite de certeza para la probabilidad de cada estado P(si). Como en el caso anterior, se puede calcular el lfmite de certeza del 95 % para cada P(si) en la direccion conservadora que reduce la medida de certeza P (correctamente denominada SNP n).
5
10
15
20
25
30
35
40
45
50
La determinacion de P (correctamente denominada SNP n) informara la decision sobre cuantos NSNP deben medirse alrededor de cada PSNP para conseguir el nivel de certeza deseado.
Cabe senalar que existen diferentes enfoques para implementar el concepto del metodo divulgado, concretamente combinar la medicion del ADN de los progenitores, la medicion del ADN de uno o mas embriones y el conocimiento a priori del proceso de meiosis, a fin de obtener una mejor estimacion de los SNP embrionarios. Para un experto en la tecnica sera obvio que pueden aplicarse metodos similares cuando se conozcan o no se conozcan, o se conozcan con un menor grado de certeza, diferentes subconjuntos del conocimiento a priori. Por ejemplo, se pueden utilizar las mediciones de multiples embriones para mejorar la certeza con la que se pueden determinar los SNP de un embrion concreto o para acomodar datos ausentes de los progenitores. Notese tambien que no es necesario medir un PSNP empleando la tecnica de medicion. Aunque ese PSNP no se haya determinado mediante el sistema de medicion, es posible reconstruirlo con un alto grado de certeza mediante el metodo divulgado.
Cabe senalar tambien que una vez que se han determinado los puntos de entrecruzamiento que se produjeron durante la meiosis y se han asignado las regiones del genoma diana a las regiones pertinentes del ADN parental, es posible inferir no solo la identidad de SNP de interes concretos, sino tambien de regiones completas de ADN que pudieran estar ausentes en el genoma diana medido debido a la perdida de alelos o a otros errores de medicion. Tambien es posible medir inserciones y deleciones en el ADN parental y utilizar el metodo divulgado para inferir que existen en el ADN diana.
Se pueden utilizar diversas tecnicas para mejorar la complejidad computacional del algoritmo divulgado anteriormente descrito. Por ejemplo, es posible seleccionar exclusiva o predominantemente aquellos NSNP que difieran entre la madre y el padre. Otra consideracion sena utilizar unicamente NSNP que esten espaciados cerca de los PSNP, a fin de minimizar la probabilidad de que se produzcan entrecruzamientos entre los NSNP y los PSNP de interes. Tambien se pueden utilizar NSNP que fueron espaciados a lo largo del cromosoma, a fin de maximizar la cobertura de multiples PSNP. Otra consideracion sera utilizar inicialmente tan solo un pequeno numero de NSNP para determinar aproximadamente donde se produjeron entrecruzamientos, y solo con un grado de certeza limitado. Posteriormente se pueden utilizar NSNP adicionales para refinar el modelo de entrecruzamiento y aumentar las probabilidades de determinar correctamente los PSNP. El numero de combinaciones de entrecruzamiento a considerar aumenta aproximadamente a Nc, donde N es el numero de los SNP y C es el numero maximo de entrecruzamientos. Por consiguiente, para C=4 es posible acomodar aproximadamente N=100 para cada PSNP, manteniendose computable en un procesador Pentium IV. Aplicando los enfoques anteriormente descritos y otros enfoques para aumentar la eficiencia computacional, N>100, es posible acomodar facilmente C>4. Mas adelante se describira uno de tales enfoques.
Cabe senalar que existen muchos otros enfoques para hacer una determinacion a un PSNP y generar una estimacion de la probabilidad de que se haya determinado correctamente un PSNP, sobre la base de un conjunto concreto de datos embrionarios, datos parentales y el algoritmo utilizado, sin cambiar el concepto subyacente. Esta probabilidad se puede utilizar para la toma de decisiones individual y para implementar un servicio fiable en el contexto de IVF o NIPGD.
Solucion recursiva en el algoritmo de limpieza de datos geneticos
Aqrn se describe otra realizacion de la divulgacion que implica un algoritmo que escala linealmente. Dada la naturaleza limitada de la potencia de computacion, la longitud de la computacion podna ser un factor significativo en el uso del metodo divulgado. Al ejecutar calculos, cualquier algoritmo que deba computar ciertos valores en los que el numero de calculos necesario aumente exponencialmente con el numero de los SNP puede volverse poco manejable. Una solucion que implique un numero de calculos que se incremente linealmente con el numero de los SNP sera siempre preferible desde un punto de vista de tiempo a medida que aumente el numero de los SNP. A continuacion se describe dicho enfoque.
Un enfoque simple, que consiste en considerar todas las hipotesis posibles, debe afrontar el hecho de que el tiempo de ejecucion es una funcion exponencial en el numero de los SNP. Presupongase, como anteriormente, que los datos medidos son una coleccion de mediciones de cromosomas del embrion, del padre y de la madre en k SNP, esto es, M = {M1,...,Mk} donde Mi= (eii,e2i,p2i,p2i,mii,m2i). Como anteriormente, el espacio de hipotesis es SH = {H1,...,Hq}={conjunto de todas las hipotesis}, donde cada hipotesis tiene el formato HJ = (HJi,...HJk) donde HJi es la “mini” hipotesis para el SNP i, el formato HJi = (pi*,mi*) donde pi * £ {pii,p2i} y mi* £ {mii, m2i}. Existen cuatro “mini” hipotesis HJi, diferentes, en
concreto:
HJi 1: (eii,e2i)-{(pii,mii) o (mu,pi;)}
H\2: (eii,e2i)-{(pii,m2i) o (m2i,pii)}
H\3: (eii,e2i)-(p2i,m]i) o (m,,i,p2i)}
H\4: (eii,e2i)={(p2.i,m2.i) o (m2i,p2i)}
El objetivo es escoger la hipotesis mas probable H* como:
5
10
15
20
25
//* = arg maxWc5w P(H j M) = arg max HcS^ F(M, 11}
donde la funcion F(M,H)=P(H|M)
Existen 4k hipotesis diferentes en el espacio SH Si se intenta encontrar la mejor hipotesis mediante la exploracion exhaustiva de la totalidad del espacio SH, el algoritmo necesario sena de orden exponencial en k O(exp(k)), donde k es el numero de SNP implicados. En caso de k grande, incluso k>5, esto es enormemente lento y poco practico. Por consiguiente, es mas practico recurrir a una solucion recursiva que solucione el problema del tamano de k como una funcion del problema del tamano (k-1) en tiempo constante. La solucion aqrn mostrada es de orden lineal en k, O(k).
Solucion recursiva lineal en el numero de SNP
Se parte de F(M,H)=P(H|M) = P(M|H)*P(H)/P(M). A continuacion, argmax H F(M,H) = argmax H P(M|H)*P(H) y el objetivo es resolver P(M|H)*P(H) en tiempo lineal. Presupongase que M(s,k)= medicion en los SNP s hasta k, H(s,k) = hipotesis en los SNP s hasta k, y simplificar la notacion M(k,k) = Mk, H(k,k) = Hk = medicion e hipotesis en el SNP k. Como se ha mostrado anteriormente:
imagen11
Asimismo:
P(7/,u) ) = i/4*n mF-i > P> = m Hk_x, Hk )*l/4*fj[ PF(H;.,, //,) - PF(JJk ,, llk) * }
donde
imagen12
y PC(Hi-i,Hi) = probabilidad de entrecruzamiento entre Hi-1, Hi Finalmente, para k SNP:
- P(M { H) * P(H) - P{M\U) | H{1„) *P(//{U))
I * P{Mk\Hk)* PF{Hk„x, Hk)
por lo tanto, en sintesis
F(M, //) ~ F(MV k), lp //{U. ,>) * P(Mh \Hk)* PF(Hk_i,Hk)
esto es, podemos reducir el calculo de F en k SNP al calculo de F en k-1 SNP.
Para H = (Hi,...Hk), la hipotesis en k SNP:
max F(M, II) = max /’(,¥,(//,, t_(), Hk) = max max F(M,(HV , IIk) - max
donde
imagen13
imagen14
En resumen:
imagen15
5
10
15
donde G puede encontrarse recursivamente: para n-2„„k
ru
G(M0-„ ,H„)= P(M„| HJ*max[PF(II , //„) * )J
C7(Mnn ,/P)-0.25 * PCM, | //,)
El algoritmo es como sigue:
Para n = 1: Generar 4 hipotesis Ha, calcular G(Mi|Hii) para i=1,...,4.
y
Para n = 2; Generar 4 hipotesis para H2i, calcular G(M(1,2)|H2i) ,i=1,...>4 en tiempo constante utilizando la formula:
imagen16
Para n = k: Generar 4 hipotesis para Hki, calcular G(M(1,k)|Hki), i=1,...,4 mediante
imagen17
En todo momento hay solo 4 hipotesis que recordar y un numero constante de operaciones. As^ pues, el algoritmo es lineal en k, numero de los SNP, en lugar de exponencial.
Resolucion de P(M) en tiempo lineal
No es necesario despejar P(M) para obtener la mejor hipotesis, ya que es constante para todo H. Pero para obtener el numero real significativo de la probabilidad condicional P(H|M) = P(M|H)*P(H)/P(M), tambien es necesario derivar P(M). Como anteriormente, podemos escribir:
imagen18
imagen19
Podemos despejar W(M,H) mediante recursion:
imagen20
de modo que en smtesis, el problema del tamano k se reduce al problema del tamano (k-1) mediante
If I'M, M (, j //,) = 5] p(Mk ! //, ,)
*
: t»
Hkyw(M^2)!//,.,)
imagen21
Como anteriormente, para = 2:k, generar W(2),...,W{K) = recursivamente, hasta que finalmente es posible
P(M) - £ P(M* j IIk)*W(M0^l) \ Iik) ■
derivar
10
En cada nivel existen tan solo cuatro hipotesis Hk diferentes, de modo que el algoritmo es de nuevo lineal en el numero de SNP k.
5
y
Certeza SNP individual en tiempo lineal
Una vez que se ha calculado la mejor hipotesis H* = (H1*,....Hk*), puede que ahora se desee derivar la certeza en la respuesta final para cada SNP, concretamente P(Hi*|M), para i=1,...,k. Como anteriormente, P(Hi*|M) = P(M|Hi*)P(Hi*)/P(M)=W(Hi*,M)/P(M), donde P(M) ya se conoce.
15
imagen22
esto es, se ha dividido la hipotesis H en la hipotesis sobre los primeros i-1 SNP, el i.° SNP, y la hipotesis sobre el i+1 hasta el k.° SNP. Como anteriormente:
imagen23
5
10
15
20
25
30
nHM) = Y[PF(HHjrt).
donde
A partir de esto, es posible demostrar que
imagen24
De nuevo, se ha reducido un caso de tamano k a dos fragmentos de menor tamano, si bien algo mas complicados que antes. Cada uno de los fragmentos puede calcularse como
imagen25
De este modo, para n = 1,..,k, m = k,..1, para cada uno de los 4 diferentes Hn, Hm el algoritmo calculara W(M(i,n),Hn),W(M(m,k),Hm) y a continuacion los combinara segun se requiera para calcular W(M(i,k),H*), para i=1,...,k. El numero de operaciones sigue siendo lineal en k.
Aplicacion del metodo divulgado a datos embrionarios si hay a disposicion un conjunto de datos mas pequeno o diferente
En una realizacion del sistema, solo es necesario utilizar datos diploides procedentes de un progenitor (presumiblemente la madre), con o sin datos haploides de uno o ambos progenitores, y cuando se conocen tales datos con un grado de certeza mayor o menor.
Por ejemplo, cabe esperar que, dada la naturaleza complicada de la donacion de ovulos, habra ocasiones en las que no estaran disponibles datos haploides maternos. Despues de leer esta descripcion, para un experto en la tecnica sera evidente como se pueden modificar, partiendo de un conjunto de datos limitado, los metodos estadfsticos para calcular la probabilidad de un SNP concreto.
Un enfoque alternativo utiliza datos de parientes mas lejanos para compensar la falta de datos diploides o haploides de uno o ambos progenitores. Por ejemplo, dado que se sabe que un conjunto de los cromosomas de un individuo proviene de cada uno de sus progenitores, se podnan utilizar datos diploides de los abuelos maternos para reconstruir parcialmente datos haploides maternos ausentes o medidos de manera deficiente.
Cabe senalar el caracter recursivo de este metodo: dada la medicion naturalmente ruidosa de los datos haploides parentales de celulas individuales, junto con los datos diploides y/o haploides de los abuelos pertinentes, se podna utilizar el metodo divulgado para limpiar los datos haploides parentales, lo cual se traducina a su vez en una genotipificacion mas exacta del embrion. Debena ser obvio para un experto en la tecnica como modificar el metodo para su uso en tales casos.
Es preferible utilizar mas informacion en lugar de menos, ya que esto puede incrementar las probabilidades de realizar la determinacion correcta en un SNP dado, y puede aumentar la certeza en tales determinaciones. Esto debe equilibrarse con la creciente complejidad del sistema a medida que se utilizan tecnicas y fuentes de datos adicionales. Existen numerosas fuentes de informacion adicional, asf como tecnicas disponibles para utilizar la informacion para ampliar los datos. Por ejemplo, existen enfoques informaticos que utilizan las correlaciones que pueden encontrarse en
5
10
15
20
25
30
35
40
45
50
55
60
datos HapMap o en otros repositorios de datos genomicos. Ademas, existen enfoques biologicos que pueden posibilitar la medicion directa de datos geneticos que de otro modo sena preciso recrear por ordenador. Por ejemplo, la extraccion de cromosomas individuales de celulas diploides empleando tecnicas de citometna de flujo para aislar cromosomas marcados con fluorescencia, para medir datos haploides que de otro modo no estanan disponibles. Alternativamente, se puede utilizar la fusion celular para crear celulas hubridas monoalelicas.
Aplicacion del metodo divulgado para seleccionar el embrion propicio para la implantacion
En una realizacion, se puede utilizar el sistema para determinar la probabilidad de que un embrion se implante en la madre y se desarrolle hasta evolucionar en un bebe. En la medida en que la probabilidad de implantacion del embrion viene determinada por los SNP del embrion y/o por su relacion con los SNP de la madre, el metodo divulgado sera importante para ayudar en la seleccion de embriones, basandose en una prediccion fiable de la implantacion satisfactoria de un embrion a partir de los datos SNP limpios. Para lograr la mayor exactitud de prediccion, sera necesario tomar en consideracion el genotipo determinado del embrion, posiblemente en combinacion con los niveles de expresion genica en el embrion, los niveles de expresion genica en la madre y/o el genotipo determinado de la madre.
Ademas, se sabe que los embriones aneuploides tienen menos probabilidades de implantarse, menos probabilidades de dar lugar a un embarazo exitoso y menos probabilidades de llegar a convertirse en un bebe sano. Por consiguiente, la deteccion de aneuploides es un aspecto importante para seleccionar el embrion que tenga mas probabilidades de exito. Mas adelante se describe con mayor detalle este enfoque.
Deduccion de datos haploides parentales
En una realizacion del metodo, puede ser necesario deducir haplotipos parentales, si se cuenta con conocimientos detallados de los datos diploides de un progenitor. Esto puede llevarse a cabo de multiples maneras. En el caso mas simple, ya se han inferido los haplotipos mediante ensayo molecular de celulas haploides individuales de un pariente directo (madre, padre, hijo o hija). En este caso, a un experto en la tecnica le resultara muy sencillo deducir el haplotipo hermano sustrayendo el haplotipo conocido del genotipo diploide medido mediante ensayo molecular. Por ejemplo, si un locus concreto es heterocigoto, un haplotipo parental desconocido es el alelo opuesto del haplotipo parental conocido.
En otro caso, puede que los datos haploides ruidosos del progenitor se conozcan gracias a la haplotipificacion biologica molecular de celulas haploides parentales individuales, tales como un espermatozoide, o de cromosomas individuales, que pueden aislarse mediante diversos metodos, incluyendo las nanoperlas magneticas y la citometna de flujo. En este caso, se puede aplicar el mismo procedimiento anteriormente descrito, con la particularidad de que el haplotipo determinado sera tan ruidoso como los haplotipos medidos. Tambien existen metodos para deducir conjuntos de datos haploides directamente a partir de datos diploides, empleando metodos estadfsticos que utilizan bloques de haplotipos conocidos en la poblacion general (tales como los creados para el proyecto HapMap publico). Un bloque de haplotipos es, en esencia, una serie de alelos correlacionados que estan presentes de forma recurrente en diversas poblaciones. Dado que estos bloques de haplotipos son a menudo antiguos y comunes, pueden utilizarse para predecir haplotipos a partir de genotipos diploides. Posteriormente, los bloques de haplotipos inferidos de los progenitores se pueden utilizar como parametros de entrada para el metodo aqrn descrito para limpiar los datos ruidosos de los embriones. Los algoritmos de dominio publico que desempenanan esta tarea incluyen un enfoque de filogenia imperfecta, enfoques bayesianos basados en previos conjugados y previos de genetica poblacional. Algunos de estos algoritmos utilizan modelos ocultos de Markov. Un estudio utilizo datos de tno publicos e individuales no relacionados para demostrar que estos algoritmos trabajan con tasas de error de tan solo el 0,05 % a lo largo de 1 MB de secuencia. Sin embargo, como se esperaba, la exactitud es menor para individuos con bloques de haplotipos infrecuentes. En una estimacion, los metodos computacionales no fueron capaces de determinar la fase del 5,1 % de los loci con una baja frecuencia de alelos del 20 %.
En una realizacion de la divulgacion, se utilizan datos geneticos procedentes de multiples blastomeros tomados de diferentes embriones durante un ciclo de IVF para inferir con un mayor grado de fiabilidad los bloques de haplotipos de los progenitores.
Tecnicas para detectar aneuploid^a utilizando genotipificacion de alto y medio rendimiento
En una realizacion del sistema, los datos geneticos medidos se pueden utilizar para detectar la presencia de aneuploidfas y/o mosaicismo en un individuo. En el presente documento se dan a conocer varios metodos de utilizacion de la genotipificacion de alto y medio rendimiento para detectar el numero de cromosomas o el numero de copias de segmentos de ADN a partir de ADN amplificado o no amplificado procedente de muestras de tejido. El objetivo es estimar la fiabilidad que puede conseguirse en la deteccion de ciertos tipos de aneuploidfas y niveles de mosaicismo utilizando diferentes plataformas de genotipificacion cuantitativas y/o cualitativas tales como ABI TaqMan, MIPS o microarrays de Illumina, Agilent y Affymetrix. En muchos de estos casos, el material genetico se amplifica mediante PCR antes de la hibridacion con sondas en el array de genotipificacion para detectar la presencia de alelos concretos. En otra parte de la presente divulgacion se describe la manera en que se utilizan estos ensayos para la genotipificacion.
A continuacion se describen varios metodos para detectar numeros anomalos de segmentos de ADN, ya sea derivados de deleciones, aneuploidfas y/o mosaicismo. Los metodos estan agrupados de la siguiente manera: (i) tecnicas cuantitativas sin realizar determinaciones de alelos; (ii) tecnicas cualitativas que utilizan determinaciones de alelos; (iii) tecnicas cuantitativas que utilizan determinaciones de alelos; (iv) tecnicas que utilizan una funcion de distribucion de probabilidades para la amplificacion de datos geneticos en cada locus. Todos los metodos implican la medicion de
5
10
15
20
25
30
35
40
45
50
55
60
multiples loci en un segmento dado de un cromosoma determinado para determinar el numero de veces que el segmento en cuestion esta presente en el genoma del individuo diana. Ademas, los metodos implican la creacion de una serie de una o mas hipotesis acerca del numero de veces que esta presente el segmento en cuestion; medir la cantidad de datos geneticos en multiples loci en el segmento en cuestion; determinar la probabilidad relativa de cada una de las hipotesis a partir de las mediciones de los datos geneticos del individuo diana; y utilizando las probabilidades relativas asociadas a cada hipotesis para determinar el numero de veces que esta presente el segmento en cuestion. Ademas, todos los metodos implican crear una medicion combinada M que es una funcion computada de las mediciones de las cantidades de datos geneticos en multiples loci. En todos los metodos, se determinan los umbrales para la seleccion de cada hipotesis Hi sobre la base de la medicion M, y se estima el numero de loci a medir a fin de tener un nivel concreto de falsas detecciones de cada una de las hipotesis.
La probabilidad de cada hipotesis partiendo de la medicion M es P(Hi|M)= P(M|Hi)P(Hi)/P(M). Puesto que P(M) es independiente de Hi, podemos determinar la probabilidad relativa de la hipotesis partiendo de M considerando solo P(M|Hi)P(Hi). En lo sucesivo, a fin de simplificar el analisis y la comparacion de diferentes tecnicas, partimos de la premisa de que P(Hi) es la misma para todas los {Hi}, de modo que podemos calcular la probabilidad relativa de todas las P(Hi|M) considerando solo P(M|Hi). Por consiguiente, nuestra determinacion de umbrales y del numero de loci a medir se basa en tener probabilidades concretas de seleccionar hipotesis falsas bajo el supuesto de que P(Hi) es la misma para todas las {Hi}. Despues de leer esta divulgacion, para un experto en la tecnica sera evidente como se puede modificar el enfoque para acomodar el hecho de que P(Hi) vane para diferentes hipotesis en el conjunto {Hi}. En algunas realizaciones, los umbrales estan establecidos de modo que se selecciona la hipotesis Hi*, lo cual maximiza P(Hi|M) a lo largo de todo i. Sin embargo, no deben establecerse necesariamente los umbrales para maximizar P(Hi|M), sino mas bien para obtener una proporcion concreta de la probabilidad de detecciones falsas entre las diferentes hipotesis en el conjunto {Hi}.
Es importante senalar que las tecnicas para detectar aneuplodfas a las que aqrn se hace referencia pueden utilizarse igualmente para detectar disoirna uniparental, translocaciones no balanceadas, y para determinar el sexo del cromosoma (masculino o femenino; XY o XX). Todos los conceptos se refieren a la deteccion de la identidad y el numero de los cromosomas (o segmentos de cromosomas) presentes en una muestra determinada, y por lo tanto todos ellos son abordados por los metodos descritos en este documento. Debena ser obvio para un experto en la tecnica como ampliar cualquiera de los metodos aqrn descritos para detectar cualquiera de estas anomalfas.
El concepto de filtrado emparejado
Los metodos aqrn aplicados son similares a los aplicados en la deteccion optima de senales digitales. Utilizando la desigualdad de Schwartz, se puede demostrar que el metodo optimo para maximizar la relacion senal/ruido (SNR) en presencia de ruido normalmente distribuido consiste en crear una senal emparejada idealizada, o filtro emparejado, correspondiente a cada una de las posibles senales sin ruido, y correlacionar esta senal emparejada con la senal ruidosa recibida. Este metodo requiere conocer el conjunto de senales posibles, asf como la distribucion estadfstica - desviacion media y estandar (SD)- del ruido. En el presente documento se describe el metodo general para detectar si cromosomas o segmentos de ADN estan presentes o ausentes en una muestra. No se diferenciara entre la busqueda de cromosomas enteros y la busqueda de segmentos de cromosomas que hayan sido objeto de insercion o delecion. Se hara referencia a ambos como segmentos de ADN. Despues de leer esta descripcion, debena ser obvio como se pueden ampliar las tecnicas a numerosos escenarios de aneuploidfa y determinacion del sexo, o de deteccion de inserciones en los cromosomas de embriones, fetos o bebes nacidos. Este enfoque puede aplicarse a una amplia gama de plataformas de genotipificacion cuantitativas y cualitativas, incluyendo TaqMan, qPCR, arrays Illumina, arrays Affymetrix, arrays Agilent, el kit MIPS, etc.
Formulacion del problema general
Presupongase que hay sondas en SNP donde se producen dos variaciones alelicas, x e y. En cada locus i, i=1...N, se recopilan datos correspondientes a la cantidad de material genetico de los dos alelos. En el ensayo TaqMan, estas medidas senan, por ejemplo, el tiempo de ciclo Ct en el cual el nivel de cada colorante espedfico de alelo cruza un umbral. Sera obvio como se puede ampliar este enfoque a diferentes mediciones de la cantidad de material genetico en cada locus o correspondiente a cada alelo en un locus. Las mediciones cuantitativas de la cantidad de material genetico pueden ser no lineales, en cuyo caso el cambio en la medicion de un locus concreto causado por la presencia del segmento de interes dependera de la cantidad de otras copias de ese locus que existan en la muestra procedente de otros segmentos de ADN. En algunos casos, una tecnica puede requerir mediciones lineales, en cuyo caso el cambio en la medicion de un locus concreto causado por la presencia del segmento de interes no dependera de la cantidad de otras copias de ese locus que existan en la muestra procedente de otros segmentos de ADN. Se describira un enfoque para linealizar las mediciones de los ensayos TaqMan o qPCR, pero existen muchas otras tecnicas para linealizar mediciones no lineales que pueden aplicarse para diferentes ensayos.
Las mediciones de la cantidad de material genetico del alelo x en los loci 1... N vienen dados por los datos dx = [dxi...
dxN]. De forma similar, para el alelo y, dy = [dyi... dyN]. Presupongase que cada segmento j tiene alelos aj = [aji_ajN]
donde cada elemento aji es x o y. Descnbanse los datos de medicion de la cantidad de material genetico del alelo x como dx = sx + ux donde sx es la senal y ux es una interferencia. Las senales sx = [fx(aii,...,aji)... fx(ajN,..., ajN)] donde fx es
la asignacion desde el conjunto de alelos en la medicion y J es el numero de copias de secuencia de ADN. El vector de interferencia ux es causado por error de medicion y, en el caso de mediciones no lineales, por la presencia de otro material genetico ademas del segmento de ADN de interes. Presupongase que los errores de medicion estan
5
10
15
20
25
30
35
40
45
50
55
distribuidos normalmente y que son grandes en relacion con interferencias causadas por la no linealidad (vease la seccion dedicada a la linealizacion de mediciones), de modo que uxi “ nxi donde nxi tiene la varianza Oxi2 y el vector nx esta distribuido normalmente ~N(0,R), R=E(nxnxT). Presupongase ahora que se aplica un filtro h a estos datos para realizar la medicion mx = hTdx = hTsx + hTux. A fin de maximizar la relacion senal/ruido (hTSx/hTnx), se puede demostrar que h viene dado por el filtro emparejado h = |jR_1sx donde j es una constante de escala. La discusion para el alelo x se puede repetir para el alelo y.
Metodo 1a: Medicion de aneuploid^a o sexo mediante tecnicas cuantitativas que no hacen determinaciones de alelos cuando se conocen las desviaciones media y estandar para cada locus
Presupongase, a los efectos de esta seccion, que los datos se refieren a la cantidad de material genetico en un locus con independencia del valor de alelo (p. ej., mediante qPCR), o que los datos se refieren tan solo a alelos que tienen una penetracion del 100 % en la poblacion, o que los datos se combinan en multiples alelos en cada locus (vease la seccion dedicada a la linealizacion de mediciones) para medir la cantidad de material genetico en un locus. Por consiguiente, en esta seccion es posible referirse a los datos dx e ignorar dy. Presupongase asimismo que existen dos hipotesis: ho que existen dos copias del segmento de ADN (se trata habitualmente de copias no identicas) y hi que existe tan solo una copia. Para cada hipotesis, se pueden describir los datos como
dxi(ho) — Sxi(ho)+nxi and dxi(hi) — Sxi(hi)+nx; respectivamente, donde sXi(ho) es la medicion esperada del material genetico en el locus i (la senal esperada) donde estan presentes dos segmentos de ADN y sxi(hi) son los datos esperados para un segmento. Construyase la medicion para cada locus diferenciando la senal esperada para la hipotesis ho: mxi = dxi-sxi(ho). Si hi es verdadero, el valor esperado de la medicion es E(mxi) = sxi(hi)-sxi(ho). Aplicando el concepto de filtro emparejado anteriormente descrito, se establece h = (1/N)R_1(sxi(hi)-sxi(ho)). La medicion se describe como m = hTdx =
(l/N)Si=i...N((sxi(hi)-sxi(ho))/(Jxi2)mxi.
Si hi es verdadero, el valor esperado de E(m|hi) = mi = (i/N)!i=i...N(sxi (hi)-sxi(ho))2 y la desviacion estandar de m es Om|hi2 = (i/N2)Ii=i...N((sxi(hi)-sxi(ho))2/Oxi) Oxi = (i/N2)Ii=i...N(sxi(hi)-sxi(ho))W.
Si ho es verdadero, el valor esperado de m es E(m|ho) = mo = o y la desviacion estandar de m es de nuevo s Om|ho2 = (i/N2)Zi=i.N(sxi(hi)-sxi(ho))2/Oxi2.
La figura 3 ilustra como determinar la probabilidad de detecciones de falsos negativos y falsos positivos. Presupongase que esta establecido un umbral t a medio camino entre mi y mo a fin de igualar la probabilidad de falsos negativos y falsos positivos (no tiene por que ser el caso, como se describe mas abajo). La probabilidad de un falso negativo viene determinada por la relacion de (mi- t)/Om|hi’(mi-mo)/(2om|hi). Se pueden utilizar estadfsticas “5-sigma” de modo que la probabilidad de falsos negativos este normalizada a i f(5,o,i) = 2.87e-7. En este caso, el objetivo es que (mi- mo)/(2Om|ho) > 5 o iosqrt((i/N2)Zi=i...N(Sxi(hi)-Sxi(ho))2/Oxi2) < (i/N)Ii=i...N(hi)-sxi(ho))2/ax2 o sqrt(Ii=i.N(sxi(hi)- sxi(ho))2/Oxl2)> io. A fin de calcular el tamano de N, la relacion senal/ruido media puede calcularse a partir de datos agregados: MSNR = (i/N)Ii=i...N(Sxi(hi)-sxi(ho))2/Oxi2. A continuacion, se puede establecer N a partir de la desigualdad anterior: sqrt(N).sqrt(MSNR) > io o N > ioo/MSNR.
Este enfoque se aplico a datos medidos con el ensayo TaqMan de Applied BioSystems utilizando 48 SNP en el cromosoma X. La medicion para cada locus es el tiempo Ct que el colorante liberado en el pocillo correspondiente a este locus tarda en superar un umbral. La muestra o consiste en aproximadamente o,3 ng (5o celulas) de ADN total por pocillo de origen femenino mixto, donde los sujetos ternan dos cromosomas X; la muestra i consistfa en aproximadamente o,3 ng de ADN por pocillo de origen masculino mixto, donde el sujeto terna un cromosoma X. La figura 4 y la figura 5 muestran los histogramas de mediciones para las muestras i y o. Las distribuciones para estas muestras estan caracterizadas por mo= 29,97; SDo=i,32, mi=3i,44, SDi=i,592. Dado que estos datos se derivan de muestras masculinas y femeninas mixtas, parte de la SD observada se debe a las diferentes frecuencias de alelos en cada SNP en las muestras mixtas. Ademas, parte de la SD observada se debera a las diferencias en la eficiencia de los diversos ensayos en cada SNP, y las diferencias en la cantidad de colorante pipeteado en cada pocillo. La figura 6 muestra un histograma de la diferencia en las mediciones en cada locus para las muestras masculina y femenina. La diferencia media entre las muestras masculina y femenina es de i,47 y SD de la diferencia es de o,99. Si bien esta SD seguira estando sujeta a las diferentes frecuencias de alelos en las muestras masculina y femenina, ya no se vera afectada por las diferencias en la eficiencia de cada ensayo en cada locus. Dado que el objetivo es diferenciar dos mediciones, cada una con una desviacion estandar aproximadamente similar, la desviacion estandar ajustada se puede aproximar para cada medicion para todos los loci como o,99/sqrt(2)=o,7o. Se llevaron a cabo dos series para cada locus a fin de estimar Oxi para el ensayo en ese locus, para poder aplicar un filtro emparejado. Se establecio un lfmite inferior de Oxi en o,2 para evitar anomalfas estadfsticas resultantes de solo dos series para calcular Oxi. Solo se utilizaron en los graficos y calculos aquellos loci (cuyo numero asciende a 37) para los cuales no se produjeron perdidas de alelos, a lo largo de ambos alelos en ambas series de ensayo y en las muestras tanto masculinas como femeninas. Al aplicar a estos datos el enfoque anteriormente descrito, se determino que MSNR=2,26, de ah que N = 2252/2,26A2 = i7 loci.
Metodo 1b: Medicion de aneuploid^a o sexo mediante tecnicas cuantitativas que no hacen determinaciones de alelos cuando las desviaciones media y estandar no se conocen o son uniformes
5
10
15
20
25
30
35
40
45
50
55
60
Cuando no se conocen bien las caractensticas de cada locus, se pueden adoptar los supuestos simplificadores de que todos los ensayos en cada locus se comportaran de forma similar, concretamente que E(mx) y Oxi son constantes a lo largo de todos los loci i, de modo que es posible referirse en su lugar unicamente a E(mx) y Ox. En este caso, el enfoque de filtrado emparejado m= hTdx se reduce a hallar la media de la distribucion de dx. Se aludira a este enfoque como comparacion de medias, y se utilizara para estimar el numero de loci requeridos para diferentes tipos de deteccion utilizando datos reales. Como anteriormente, considerese el escenario en el que hay dos cromosomas presentes en la muestra (hipotesis ho) o hay un cromosoma presente (hi). Para ho, la distribucion es N(jo,ao2) y para hi la distribucion es N(ji,ai2). M^dase cada una de las distribuciones utilizando las muestras No y Ni respectivamente, con las medias y desviaciones estandar de muestra medidas: mi, mo, si y so. Las medias pueden modelarse como variables aleatorias Mo, Mi que estan distribuidas normalmente como Mo~N(jo, ao2/No) y Mi~N(ji, ai2/Ni). Presupongase que Ni y No son lo suficientemente grandes (> 3o) como para poder presuponer que Mi~N(mi, Si2/Ni) y Mo ~N(mo, So2/No). A fin de comprobar si las distribuciones son diferentes, se puede utilizar la prueba de la diferencia de medias, donde d = m1-m0.
a/ “ aj2/Ni +ao2/No ~ ~ '
La varianza de la variable aleatoria D es
que puede aproximarse como CTd Si /Ni+Sq /No.
Dado ho, E(d) = o; dado hi, E(d)=ji-jo. A continuacion se comentan diferentes tecnicas para realizar la determinacion entre hi y ho.
Para calibrar el rendimiento se utilizaron datos medidos con una serie diferente del ensayo TaqMan utilizando 48 SNP en el cromosoma X. La muestra i consiste en aproximadamente o,3 ng de ADN por pocillo de origen masculino mixto con un contenido de un cromosoma X; la muestra o consistfa en aproximadamente o,3 ng de ADN por pocillo de origen femenino mixto con un contenido de dos cromosomas X. Ni = 42 y No = 45. La figura 7 y la figura 8 muestran los histogramas para las muestras i y o. Las distribuciones para estas muestras estan caracterizadas por mi=32,259, si = i,46o, Omi=Si/sqrt(Ni)=o,225; mo= 3o,75; so=i,2o2, Omo=So/sqrt(No)=o,i79. Para estas muestras d=i,5o9 y Od=o,2879.
Dado que estos datos se derivan de muestras masculinas y femeninas mixtas, gran parte de la desviacion estandar se debe a las diferentes frecuencias de alelos en cada SNP en las muestras mixtas. La desviacion estandar se estima considerando las variaciones en Ct para un SNP cada vez, a lo largo de multiples series. Estos datos se muestran en la figura 9. El histograma es simetrico en torno a o, dado que Ct para cada SNP se mide en dos series de experimentos y se resta el valor promedio de Ct para cada SNP. La desviacion estandar media a lo largo de 2o SNP en la mezcla masculina mixta utilizando dos series es s=o,597. Esta desviacion estandar se utilizara de forma conservadora para las muestras tanto masculinas como femeninas, dado que la desviacion estandar para la muestra femenina sera menor que para la muestra masculina. Ademas, notese que se utiliza la medicion a partir de un solo colorante, puesto que se presupone que las muestras mixtas son heterocigotas para todos los sNp. El uso de ambos colorantes requiere combinar las mediciones de cada alelo en un locus, lo cual es mas complicado (vease la seccion dedicada a la linealizacion de mediciones). La combinacion de mediciones en ambos colorantes doblana la amplitud de la senal y aumentaria la amplitud del ruido en aproximadamente sqrt(2), resultando en una mejora de la SNR de aproximadamente sqrt(2) o 3 dB.
Deteccion presuponiendo la ausencia de mosaicismo y de muestra de referenda
Presupongase que se conoce perfectamente mo de numerosos experimentos, y que cada experimento procesa una sola muestra para calcular mi para la comparacion con mo. Ni es el numero de ensayos y se parte de la premisa de que cada ensayo es un locus SNP diferente. Se puede establecer un umbral t a medio camino entre mo y mi a fin de igualar la probabilidad de falsos positivos al numero de falsos negativos, y una muestra se etiqueta como anomala si se situa por encima del umbral. Se parte de la premisa de que si= s2 = s = o,597 y se utiliza el enfoque 5-sigma de modo que la probabilidad de falsos negativos o positivos sea i-normcdf(5,o,i) = 2.87e-7. El objetivo es que 5si,/sqrt(Ni) < (mi-mo)/2, y por ende Ni = ioo Si/(mi-mo)2 = i6. Ahora se puede utilizar tambien un enfoque en el que se permita que la probabilidad de un falso positivo sea mayor que la probabilidad de un falso negativo, que es el escenario perjudicial. Si se mide un positivo, se puede volver a efectuar el experimento. Por consiguiente, es posible decir que la probabilidad de un falso negativo deberia ser igual al cuadrado de la probabilidad de un falso positivo. Considerese la figura 3, partiendo de la base de que t = umbral y de que Sigma_o = Sigma_i = s. Asi, (i-normcdf((t-Mo))/s,o,i))<2> = i-normcdf((mi- t)/s,o,i). Resolviendo esto, se puede demostrar que t = mo+o,32(mi-mo). Asf pues, el objetivo es que 5s/sqrt(Ni)<mi-mo- o,32(mi-mo) = (mi-mo)/i,7, por ende Ni = (52)(i,472)s2/(mi-mo)2 = 9.
Deteccion con mosaicismo sin procesar una muestra de referenda
Presupongase la misma situacion que la anteriormente descrita, con la diferencia de que el objetivo es detectar mosaicismo con una probabilidad del 97,7 % (esto es, un enfoque 2-sigma). Esto es mejor que el metodo estandar de la amniocentesis, que extrae aproximadamente 2o celulas y las fotograffa. Si se parte de la premisa de que i en 2o celulas es aneuploide y esto se detecta con una fiabilidad del ioo %, la probabilidad de que al menos una celula del grupo sea aneuploide aplicando el metodo estandar es i-o,952° = 64 %. Si el o,o5 % de las celulas son aneuploides (se denominara a esto muestra 3), entonces m3 = o,95mo + o,o5mi y var(m3) = (o,95so2+o,o5si2)/Ni. Asi, std(m3)2<(m3- mo)/2 => sqrt(o,95so2+o,o5si2)/sqrt(Ni) < o,o5(mi-m2)/4 => Ni = i6(o,95s22+o,o5si2)/(o,o52(mi-m2)2) = iooi. Cabe senalar que, utilizando el objetivo de las estadfsticas i-sigma, que sigue siendo mejor que el alcanzado mediante el metodo convencional (esto es, la deteccion con una probabilidad del 84,i %), se puede demostrar de forma similar que Ni = 25o.
Deteccion sin mosaicismo y utilizando una muestra de referenda
5
10
15
20
25
30
35
40
45
50
55
Pese a que puede que este metodo no sea necesario, partase de la premisa de que cada experimento procesa dos muestras a fin de comparar mi con la muestra de referencia m2. Presupongase que N = N1 = No. Calculese d = mi-mo y, presuponiendo 01 = 00, establezcase un umbral t = (mo+mi)/2 de modo que la probabilidad de falsos positivos y de falsos negativos sea igual. Para que la probabilidad de falsos negativos sea 2,87e-7, debe darse el caso de que (mi- m2)/2>5sqrt(si2/N+s22/N) => N = 100(si2+S22)/(mi-m2)2=32.
Deteccion con mosaicismo procesando una muestra de referenda
Como anteriormente, partase de la premisa de que la probabilidad de falsos negativos es de 2,3 % (esto es, metodo 2- sigma). Si el 0,05 % de las celulas son aneuploides (se denominara a esto muestra 3), entonces m3 = 0,95mo + 0,05mi y var(m3) = (0,95s02+0,05si2)/Ni. d= m3-m2 and Od2 = (1,95s02+0,05si2)/N. Debe darse el caso de que std(m3)2<(m0- m2)/2 => sqrt(1,95s22+0,05si2)/sqrt(N) < 0,05(mi-m2)/4 => N = 16(1,95s22+0,05si2)/(0,052(mi-m2)2 = 2002. Aplicando de nuevo el metodo 1-sigma, se puede demostrar de forma similar que N = 500.
Considerese el caso de que el objetivo sea tan solo detectar un 5 % de mosaicismo con una probabilidad del 64 %, que se corresponde con el estado actual de la tecnica. En tal caso, la probabilidad de falso negativo sena del 36 %. En otras palabras, sena necesario hallar x de modo que 1-normcdf(x,0,1)=36 %. Asf, N = 4(0,36A2)(1,95s22+0,05si2)/(0,052(mi- m2)2) = 65 para el metodo 2-sigma, o N = 33 para el metodo 1-sigma. Cabe senalar que esto tendna como resultado un nivel muy elevado de falsos positivos, lo cual debe solucionarse, dado que semejante nivel de falsos positivos no constituye actualmente una alternativa viable.
Cabe senalar asimismo que si N esta limitado a 384 (esto es, una placa TaqMan de 384 pocillos por cromosoma) y el objetivo es detectar mosaicismo con una probabilidad del 97,72 %, sera posible detectar un mosaicismo del 8,1 % utilizando el metodo 1-sigma. A fin de detectar mosaicismo con una probabilidad del 84,1 % (o con una tasa de falsos negativos del 15,9%), sera posible detectar un mosaicismo del 5,8% utilizando el metodo 1-sigma. Para detectar un mosaicismo del 19% con una certeza del 97,72 % senan necesarios aproximadamente 70 loci. De este modo se podnan detectar 5 cromosomas en una sola placa.
El resumen de cada uno de estos diferentes escenarios se recoge en la tabla 2. En esta tabla se incluyen tambien los resultados generados por los ensayos qPCR y SYBR. Se utilizaron los metodos anteriormente descritos y se adopto el supuesto simplificador de que el rendimiento del ensayo qPCR es el mismo para cada locus. La figura 10 y la figura 11 muestran los histogramas para las muestras 1 y 0, tal como se ha descrito anteriormente. N0= N1 = 47. Las distribuciones de las mediciones para estas muestras estan caracterizadas por m1=27,65, s1= 1,40, 0m1=s1/sqrt(N1)=0,204; m0= 26,64; s0=1,146, 0m0=s0/sqrt(N0)=0,167. Para estas muestras d=1,01 y 0d=0,2636. La figura 12 muestra la diferencia entre Ct para las muestras masculina y femenina para cada locus, con una desviacion estandar de 0,75 de la diferencia a lo largo de todos los loci. La desviacion estandar se aproximo para cada medicion de cada locus en la muestra masculina o femenina como 0,75/sqrt(2)=0,53.
Metodo 2: Tecnicas cualitativas que utilizan determinaciones de alelos
En esta seccion no se parte del supuesto de que el ensayo es cuantitativo. En su lugar, se parte del supuesto de que las determinaciones de alelos son cualitativas, y de que no existen datos cuantitativos significativos procedentes de los ensayos. Este metodo esta indicado para cualquier ensayo que realice una determinacion de alelo. La figura 13 describe como durante la meiosis se forman diferentes gametos haploides, y se utilizara para describir los diferentes tipos de aneuploidfa relevantes para esta seccion. El mejor algoritmo depende del tipo de aneuploidfa que se esta detectando. Considerese una situacion en la que la aneuploidfa esta causada por un tercer segmento que no tiene ninguna seccion que sea una copia de ninguno de los otros dos segmentos. Partiendo de la figura 13, la situacion se dana, por ejemplo, si p1 y p4, o p2 y p3, estuvieran presentes en la celula hija ademas de un segmento del otro progenitor. Esto es muy comun, dado el mecanismo que causa la aneuploidfa. Un metodo consiste en partir de una hipotesis h0 de que hay dos segmentos en la celula y sobre lo que son estos dos segmentos. Presupongase, con fines ilustrativos, que h0 es para p3 y m4 de la figura 13. En una realizacion preferente, esta hipotesis procede de algoritmos descritos en otra parte de este documento. La hipotesis h es que existe un segmento adicional que no tiene secciones que sean una copia de los otros segmentos. Este sena el caso, por ejemplo, si tambien estuvieran presentes p2 o ith. Es posible identificar todos los loci que son homocigotos en p3 y tu. Se puede detectar aneuploidfa buscando determinaciones de genotipo heterocigotas en loci que se espera que sean homocigotos. Presupongase que cada locus tiene dos posibles alelos, x e y. Partase de la premisa de que la probabilidad de los alelos x e y en general es px y py respectivamente, y que px+py=1. Si se cumple h1, para cada locus i para el cual p3 y tu son homocigotos la probabilidad de una determinacion no homocigotica es py o px, dependiendo de si el locus es homocigotico en x o y respectivamente. Nota: sobre la base del conocimiento de los datos parentales, esto es, p1, p2, p4 y th, m2, m3, es posible continuar refinando las probabilidades de tener alelos no homocigotos x o y en cada locus. Esto posibilitara mediciones mas fiables para cada hipotesis con el mismo numero de SNP, pero complica la notacion, de modo que no se abordara explfcitamente esta ampliacion. Para un experto en la tecnica debena ser obvio como utilizar esta informacion para aumentar la fiabilidad de la hipotesis.
La probabilidad de perdida de alelos es pd. La probabilidad de encontrar un genotipo heterocigoto en el locus i es p0i dada la hipotesis h0 y p1i dada la hipotesis h1.
Dado h0: p0i = 0
Dado h1 p1i = px(1-pd) o p1i = py(1-pd) dependiendo de si el locus es homocigotico para x o y.
5
10
15
20
25
30
35
40
45
50
55
Se crea una medicion m = 1/Nh Ii=i...Nh Ii donde Ii es una variable indicadora, y es I si se hace una determinacion heterocigota y 0 de lo contrario. Nh es el numero de loci homocigotos. Se puede simplificar la explicacion presuponiendo que px=py y poi, pii para todos los loci son los mismos dos valores po y pi. Dado ho, E(m) = po = 0 y a2m/ho = Po(1- po)/Nh. Dado hi,E(m) = pi y a2m/hi = pi(1 -pi)/Nh. Utilizando la estad^stica 5-sigma, y estableciendo la probabilidad de falsos positivos igual a la probabilidad de falsos negativos, se puede demostrar que (pi-po)/2 > 5am/hi, por ende Nh = ioo(po(i- po)+pi(i-pi))/(pi-po)2 Para una certeza 2-sigma en lugar de una certeza 5-sigma, se puede demostrar que Nh = 4,22(po(i-po)+pi(i-pi))/(pi-po)2
Es necesario muestrear los suficientes loci N para disponer de los suficientes loci homocigotos Nh-disp, de modo que la certeza sea de al menos el 97,7% (2-sigma). Caractencese Nh-disp = Ii=i...NJi donde Ji es una variable indicadora de valori si el locus es homocigotico y o de lo contrario. La probabilidad de que el locus sea homocigotico es px2+py2 Por consiguiente, E(Nh-disp)=N(px2+py2) y aNh-disp2= N(px2+py2)(i-px2-py2). Para garantizar que N sea lo suficientemente grande con una certeza del 97,7 %, debe cumplirse que E(Nh-disp) - 2aNh-disp = Nh donde Nh se halla a partir de lo anterior.
Por ejemplo, si se presupone que pd = o.3, px = py = o,5, se puede hallar Nh = i86 y N = 39i para una certeza de 5- sigma. De forma similar, es posible demostrar que Nh = 3o y N = 68 para una certeza de 2-sigma, esto es, una certeza del 97,7 % en falsos negativos y falsos positivos.
Cabe senalar que se puede aplicar un metodo similar para la busqueda de deleciones de un segmento cuando ho es la hipotesis de que estan presentes dos segmentos de cromosoma conocidos, y hi es la hipotesis de que falta uno de los segmentos del cromosoma. Por ejemplo, es posible buscar todos aquellos loci que debenan ser heterocigotos pero son homocigotos, teniendo en cuenta los efectos de perdidas de alelos como se ha hecho anteriormente.
Notese asimismo que, pese a que el ensayo es cualitativo, se pueden utilizar las tasas de perdida de alelos para proporcionar un tipo de medida cuantitativa del numero de segmentos de ADN presentes.
Metodo 3: Utilizacion de alelos conocidos de secuencias de referenda y mediciones de alelos cuantitativas
En este caso, se presupone que se conocen los alelos del conjunto de segmentos normal o esperado. A fin de comprobar la presencia de tres cromosomas, el primer paso consiste en limpiar los datos, presuponiendo dos de cada cromosoma. En una realizacion preferente de la divulgacion, la limpieza de datos en el primer paso se realiza empleando metodos descritos en otra parte de este documento. A continuacion, la senal asociada a los dos segmentos esperados se resta de los datos medidos. Posteriormente, se puede buscar un segmento adicional en la senal remanente. Se aplica un metodo de filtrado emparejado, y la senal que caracteriza el segmento adicional esta basada en cada uno de los segmentos que se cree que estan presentes, asf como en sus cromosomas complementarios. Por ejemplo, considerando la figura i3, si los resultados de Ps
indican que estan presentes los segmentos p2 y mi, la tecnica aqrn descrita puede utilizarse para comprobar la presencia de p2, p3, mi y m4 en el cromosoma adicional. Si esta presente un segmento adicional, esta garantizado que tendra mas del 5o % de los alelos en comun con al menos una de estas senales del test. Cabe senalar que otro metodo, no descrito aqrn en detalle, consiste en utilizar un algoritmo descrito en otra parte de este documento para limpiar los datos, presuponiendo un numero anomalo de cromosomas, concretamente i, 3, 4 y 5 cromosomas, y posteriormente aplicar el metodo aqrn comentado. Los detalles de este metodo debenan ser obvios para un experto en la tecnica tras haber lefdo este documento. La hipotesis ho es que existen dos cromosomas con los vectores de alelos ai, a2. La hipotesis hi es que existe un tercer cromosoma con el vector de alelos a3. Utilizando un metodo descrito en el presente documento para limpiar los datos geneticos, u otra tecnica, es posible determinar los alelos de los dos segmentos esperados mediante ho: ai = [aii... aiN y a2 = [a2i ... a2N] donde cada elemento aji es x o y. La senal esperada se crea para la hipotesis ho: Sox = [fox(aii, a2i) ... fxo(aiN, a2N)], Soy = [fy(aii,a2i) ... fy(aiN, a2N)] donde fx, fy describen la asignacion desde el conjunto de alelos a las mediciones de cada alelo. Dado ho, se pueden describir los datos como dxi = Soxi+nxi, nxi~N(o,axi2); dyi = Soyi+nyi, ny~N(o,ayi2). Se crea una medicion diferenciando los datos y la senal de referencia: mxi=dxi- sxi; myi=dyi-syi. El vector de medicion completo es m=[mxTmyT]T.
A continuacion se crea la senal para el segmento de interes -el segmento cuya presencia se sospecha, y se buscara en el residual- sobre la base de los alelos supuestos de este segmento: a3 = [a3i ... a3N]. Se describe la senal para el residual como: sf [sre<T> Sry<T>]<T> donde s„ = [frx(a3i) ... frx(a3N)], Sry = [fry(a3i) ... fry(a3N)] donde frx(a3i) = 5yi si a3i = x y o de lo contrario. Este analisis presupone que se han linealizado las mediciones (vease la siguiente seccion), de modo que la presencia de una copia del alelo x en el locus i genera los datos 5xi+nxi y la presencia de kx copias del alelo x en el locus i genera los datos Kx5xi+nxi. Notese, no obstante, que este supuesto no es necesario para el metodo general aqrn descrito. Dado hi, si el alelo a3i = x entonces mxi = 5xi+nxi. myi = nyi y si a3i = y entonces mxi = nxi, myi = 5yi+nyi. Por consiguiente, se puede crear un filtro emparejado h = (i/N)R'isr donde R =diag([axi2... axN2 ayi2... cyN2 ]). La medicion es m = hTd.
ho: m = (1/N) Si=i..N Sr*;nXj/0xrl-so.jnyi/ayr
hi’ m (1/N) },,nSrxi(8xr^n>;i)/cfxi "!“Styj(8yj'Hiyj)/<5yj
A fin de estimar el numero de SNP requeridos, adoptense los supuestos simplificadores de que todos los ensayos para todos los alelos y todos los loci tienen caractensticas similares, concretamente que 5xi=5yi=5 y 5xi=ayi=a para i=i...N. A continuacion, se puede encontrar la desviacion media y la estandar de la siguiente manera:
5
10
15
20
25
30
35
40
45
50
ho: H(m)=mo=0; 0m!hoz“ (l/N204)(N/2)(a"5"+a''8:!):= S2/(Ncf2)
h(: E(m)=mf( 1 /N)(N/2a2)(62+82>= dV; amihfKI^V)(N)(cr5’)-S2/(No2)
Ahora se calcula una relacion senal/ruido (SNR) para este ensayo de hi frente a ho. La senal es mi-mo=82/a2, y la varianza de ruido de esta medicion es (am|ho2 + am|hi2= 282/ /(Na2). Por consiguiente, la SNR para este ensayo es (84/a4)/(282/(Na2))= N82/(2a2).
Comparese esta SNR con el escenario donde la informacion genetica simplemente se suma en cada locus sin realizar un filtrado emparejado basado en las determinaciones de alelos. Presupongase que h=(1/N)T donde i es el vector de N unos, y adoptense los anteriores supuestos simplificadores de que 5xi=5yi=5 y axi=ayi=a para i=1...N. Para este escenario, es sencillo demostrar que si m=hTd:
ho: E(m)=ra<)=0; <5^= No2/N2+Na2/N2 -2a2/N
hi: E(m)~m\ =( 1 /N)(N8/2+ N8/2)- 5; cTmjhr-(l/'N")(No“+ N2cT/N
Por consiguiente, la SNR para este ensayo es N82/(4a2). En otras palabras, utilizando un filtro emparejado que tan solo suma las mediciones de alelos que se esperan para el segmento a3, se reduce en un factor de 2 el numero de los SNP requeridos. Esto ignora la ganancia de SNR obtenida utilizando el filtrado emparejado para tener en cuenta las diferentes eficiencias de los ensayos en cada locus.
Cabe senalar que si no caracterizamos correctamente las senales de referencia sxi y syi, se incrementara la desviacion estandar del ruido o la interferencia en las senales de medicion resultantes mxi y myi. Esto sera insignificante si 8 < < a, pero de lo contrario incrementara la probabilidad de falsas detecciones. Por consiguiente, esta tecnica es adecuada para ensayar la hipotesis en la que estan presentes tres segmentos y se presupone que dos segmentos son copias exactas uno del otro. En este caso, sxi y syi se conoceran de forma fiable utilizando tecnicas de limpieza de datos basadas en determinaciones de alelos cualitativas descritas en otro lugar. En una realizacion, se utiliza el metodo 3 en combinacion con el metodo 2 que usa la genotipificacion cualitativa y, mas alla de las mediciones cuantitativas de perdidas de alelos, no es capaz de detectar la presencia de una segunda copia exacta de un segmento.
Ahora describimos otra tecnica cuantitativa que utiliza determinaciones de alelos. El metodo implica comparar la cantidad relativa de senal en cada uno de los cuatro registros para un alelo determinado. Cabe imaginar que, en el caso idealizado que implica una sola celula normal, donde tiene lugar amplificacion homogenea (o las cantidades relativas de amplificacion estan normalizadas), pueden producirse cuatro situaciones posibles: (i) en el caso de un alelo heterocigoto, las intensidades relativas de los cuatro registros sera de aproximadamente 1:1:0:0, y la intensidad absoluta de la senal se corresponded con un par de bases; (ii) en el caso de un alelo homocigotico, las intensidades relativas seran de aproximadamente 1:0:0:0, y la intensidad absoluta de la senal se corresponded con dos pares de bases; (iii) en el caso de un alelo en el que tenga lugar ADO para uno de los alelos, las intensidades relativas seran de aproximadamente 1:0:0:0, y la intensidad absoluta de la senal se corresponded con un par de bases; y (iv) en el caso de un alelo en el que tenga lugar ADO para ambos alelos, las intensidades relativas seran de aproximadamente 0:0:0:0, y la intensidad absoluta de la senal se corresponded con ningun par de bases.
Sin embargo, en el caso de aneuploidfas se observaran situaciones diferentes. Por ejemplo, en caso de trisoirna y en ausencia de ADO, se dara una de tres situaciones:
(i) en el caso de un alelo triplemente heterocigoto, las intensidades relativas de los cuatro registros sera de aproximadamente 1:1:1:0, y la intensidad absoluta de la senal se corresponded con un par de bases; (ii) en el caso de que dos de los alelos sean homocigotos, las intensidades relativas seran de aproximadamente 2:1:0:0, y la intensidad absoluta de la senal se corresponded con dos pares de bases y un par de bases, respectivamente; (iii) en el caso de que los alelos sean homocigotos, las intensidades relativas seran de aproximadamente 1:0:0:0, y la intensidad absoluta de la senal se corresponded con tres pares de bases. Si se produce perdida de alelos en el caso de un alelo en una celula con trisomfa, se observara una de las situaciones esperadas para una celula normal. En caso de monosomna, las intensidades relativas de los cuatro registros seran de aproximadamente 1:0:0:0, y la intensidad absoluta de la senal se corresponded con un par de bases. Esta situacion se corresponde con el caso de una celula normal en la que ha tenido lugar ADO de uno de los alelos; sin embargo, en el caso de la celula normal, esto solo se observara en un pequeno porcentaje de los alelos. En caso de disomfa uniparental, donde estan presentes dos cromosomas identicos, las intensidades relativas de los cuatro registros seran de aproximadamente 1:0:0:0, y la intensidad absoluta de la senal se corresponded con dos pares de bases. En caso de UPD donde estan presentes dos cromosomas diferentes de un progenitor, este metodo indicara que la celula es normal, pese a que un analisis posterior de los datos utilizando otros metodos descritos en esta patente lo revelara.
En todos estos casos, ya sea en celulas que son normales, presentan aneuploidfas o UPD, los datos de un SNP no seran adecuados para tomar una decision sobre el estado de la celula. No obstante, si se calculan las probabilidades de cada una de las hipotesis anteriores y se combinan tales probabilidades para un numero suficiente de SNP en un cromosoma dado, predominara una hipotesis, sera posible determinar con un alto grado de certeza el estado del cromosoma.
5
10
15
20
25
30
35
40
45
50
Metodos para linealizar mediciones cuantitativas
Pueden aplicarse numerosos metodos para linealizar mediciones de la cantidad de material genetico en un locus espedfico, de modo que sea posible sumar o diferenciar facilmente datos procedentes de diferentes alelos. Discutiremos en primer lugar un metodo generico, y posteriormente abordaremos un metodo disenado para un tipo concreto de ensayo.
Presupongase que los datos dxi se refieren a una medicion no lineal de la cantidad de material genetico del alelo x en el locus i. Se crea un conjunto de adiestramiento de datos utilizando N mediciones, donde para cada medicion es estima o se conoce que la cantidad de material genetico correspondiente a los datos dxi es pxi- El conjunto de adiestramiento pxi, i=1...N se escoge para abarcar todas las diferentes cantidades de material genetico que se podnan encontrar en la practica. Se pueden utilizar tecnicas de regresion estandar para adiestrar una funcion que asigna desde la medicion no lineal, dxi, a la prevision de la medicion lineal, E(pxi). Por ejemplo, se puede usar una regresion lineal para adiestrar una funcion polinomica de orden P, de modo que E(pxi) = [1 dxi dxi2... dxiP]c donde c es el vector de coeficientes c = [co C1 ... cp]T. Para adiestrar esta funcion de linealizacion, creamos un vector de la cantidad de material genetico para N mediciones px = [pxi ... Bxn]t y una array de los datos medidos elevados a las potencias 0...P: D [[1 dxi dxi2 ... dxiP ] T[1 dx2... dx2P]T ... [1 dxN dxN2 ... dxNP]T]T. A continuacion se pueden hallar los coeficientes utilizando un ajuste con mmimos cuadrados c = (DTD)-1DT px.
En lugar de depender de funciones genericas tales como polinomios ajustados, tambien podemos crear funciones especializadas para las caractensticas de un ensayo concreto. Consideramos, por ejemplo, el ensayo TaqMan o un ensayo qPCR. La cantidad de colorante para el alelo x un locus i, como funcion de tiempo hasta el punto en el que cruza un umbral, puede describirse como una curva exponencial con una compensacion de sesgo: gxi(t) = axi + pxiexp(Yxit) donde axi es la compensacion de sesgo, Yxi es la tasa de crecimiento exponencial y pxi se corresponde con la cantidad de material genetico. Para realizar las mediciones en terminos de pxi, se calcula el parametro axi observando el lfmite asintotico de la curva gxi(-“) y entonces se pueden hallar pxi y Yxi tomando el log de la curva para obtener log(gxi(t)- axi) = log(pxi) + Yxit y ejecutando una regresion lineal estandar. Una vez que tenemos valores para axi y Yxi, otro metodo consiste en calcular pxi desde el tiempo tx en el que se excede el umbral gx. pxi = (gx - axi)exp(-Yxitx). Esta sera una
medicion ruidosa de la cantidad verdadera de datos geneticos de un alelo concreto.
Con independencia de la tecnica utilizada, podemos modelar la medicion linealizada como pxi = Kx5xi+nxi donde kx es el numero de copias del alelo x, 5xi es una constante para el alelo x y el locus i, y nx~N(0, Ox<2>) donde Ox<2> puede medirse empmcamente.
Metodo 4: Utilizacion de una funcion de distribucidn de probabilidades para la amplificacion de datos geneticos en cada locus
La cantidad de material para un SNP concreto dependera del numero de segmentos iniciales en la celula en la que esta presente ese SNP. Sin embargo, debido al caracter aleatorio del proceso de amplificacion e hibridacion, la cantidad de material genetico procedente de un SNP concreto no sera directamente proporcional al numero inicial de segmentos. Partase de la premisa de que qS,A, qs,G, qsT, qs,c representan la cantidad amplificada de material genetico para un SNP concreto s para cada uno de los cuatro acidos nucleicos (A,C,T,G) que constituyen los alelos. Cabe senalar que estas cantidades pueden ser exactamente cero, dependiendo de la tecnica utilizada para la amplificacion. Cabe senalar asimismo que estas cantidades se miden habitualmente a partir de la intensidad de las senales de sondas de hibridacion concretas. Esta medicion de intensidad puede utilizarse en lugar de una medicion de cantidad, o puede convertirse en una estimacion de cantidad empleando tecnicas estandar sin alterar la naturaleza de la divulgacion. Sea qs la suma de todo el material genetico generado por todos los alelos de un SNP concreto: qs = qs,A + qs,G + qs,T + qs,c. Sea N es el numero de segmentos en una celula que contiene el SNP s. N es tfpicamente 2, pero puede ser 0, 1 o 3 o mas. Para cualquier metodo de genotipificacion de alto o medio rendimiento comentado, la cantidad resultante de material genetico puede representarse como qs = (A+Ae,s)N+9s donde A es la amplificacion total que es estimada a priori o medida empmcamente con facilidad, Ae,s es el error en la estimacion de A para el SNP s, y 0s es ruido aditivo introducido en la amplificacion, la hibridacion y otros procesos para ese SNP. Los terminos de ruido Ae,s y 9s son habitualmente lo suficientemente grandes para que qs no sea una medicion fiable de N. Sin embargo, los efectos de estos terminos de ruido pueden mitigarse midiendo multiples SNP en el cromosoma. Sea S el numero de SNP que se miden en un cromosoma concreto, como por ejemplo el cromosoma 21. Es posible generar la cantidad media de material genetico a lo largo de todos los SNP en un cromosoma, de la siguiente manera:
1 ■' I s
<?=:+ + 4 (16)
,r-S ^ r=t
Presuponiendo que Ae,s y 9s son variables aleatorias distribuidas normalmente y con media 0 y varianzas o2Ae,s y o2e,s, es posible modelar q =NA+9 donde 9 es una variable aleatoria
5
10
15
20
25
30
UiW,^ +<t20
distribuida normalmente con media 0 y varianza ^
)•
Por consiguiente,
un numero suficiente de SNP de modo que N=q/A.
S » (/VV^. + (7^),
entonces se
si se miden en el cromosoma puede estimar con exactitud
En otra realizacion, presupongase que la amplificacion es conforme con un modelo en el que el nivel de senal procedente de un SNP es s=a+a donde (a+a) tiene una distribucion como la que se muestra en la imagen de la figura 14, izquierda. La funcion delta en 0 modela las tasas de perdida de alelos de aproximadamente el 30 %, la media es a, y si no hay perdida de alelos, la amplificacion tiene una distribucion uniforme desde 0 hasta ao. En terminos de la media, esta distribucion ao resulta ser ao=2,86a. A continuacion, se modela la funcion de densidad de probabilidad de a utilizando la imagen de la figura 14, derecha. Sea sc la senal procedente de c loci; sea n el numero de segmentos; sea ai una variable aleatoria distribuida conforme con la figura 14 que contribuye a la senal procedente del locus i; y sea a la desviacion estandar para todas las {ai}. sc=anc+Ii=-i..nc ai; media(sc) = anc; std(sc) = sqrt(nc)a. Si se calcula a conforme con la distribucion en la figura 14, derecha, se obtiene a=0,907a2 Podemos hallar el numero de segmentos a partir de n=sc/(ac) y para “estadfstica 5-sigma” necesitamos std(n)<0,1 de modo que std(sc)/(ac) = 0,1 => 0,95a.sqrt(nc)/(ac) = 0,1 de modo que c = 0,952 n/0,12 = 181.
Otro modelo para estimar la certeza en la determinacion y el numero de loci o SNP que deben medirse para asegurar un grado determinado de certeza, incorpora la variable aleatoria como multiplicador de amplificacion en lugar de como fuente de ruido aditiva, concretamente s=a(1+a). Se aplican los logaritmos, log(s) = log(a) + log(1+a). A continuacion se crea una nueva variable aleatoria Y=log(1+a) y se puede presuponer que esta variable esta distribuida normalmente ~N(0,a). En este modelo, la amplificacion puede ir desde muy pequena a muy grande, dependiendo de a, pero nunca negativa. Por consiguiente, a=ey-1; y sc=Ii=1...cna(1+ai). Para la notacion se utilizan de forma intercambiable la media (sc) y el valor de prevision E(sc)
imagen26
Para hallar E(a) es preciso hallar la funcion de densidad de probabilidad (fdp) para a, lo cual es posible dado que a es una funcion de y que tiene una fdp gaussiana. po(a)=pv(Y)(dY/da). Ash
imagen27
y
Pa(a)
imagen28
Esto tiene la forma mostrada en la figura 15 para a=1. Ahora se puede hallar E(a) integrando
sobre esta fdp
- i**1
E{a)~ ap(a)da . . ,
J«! 1 ' Jo cual puede
(sc) como funcion de a. Ahora tambien
hacerse numericamente para multiples a diferentes. Esto arroja se puede utilizar esta fdp para hallar var(sj:
E(sc) o la media
5
10
15
20
25
30
imagen29
lo cual puede resolverse numericamente utilizando pa(a) para multiples a diferentes para obtener var(sc) como funcion de a. A continuacion, podemos tomar una serie de mediciones de una muestra con un numero conocido de loci c y un numero conocido de segmentos n y hallar std(sc)/E(sc) a partir de estos datos. Esto nos permitira calcular un valor para a. Para estimar n, E(sc)=nac(1+E(a)) de modo que
imagen30
pueda medirse de modo que
imagen31
Al sumar un numero lo suficientemente grande de variables aleatorias independientes de media 0, la distribucion se aproxima a una forma gaussiana, y de este modo sc (y n) pueden tratarse como normalmente distribuidas y como anteriormente podemos utilizar la estadfstica 5-sigma:
imagen32
para obtener una probabilidad de error de 2normcdf(5,0,1) = 2,7e-7. A partir de esto, se puede obtener el numero de loci c.
Determinacion del sexo
En una realizacion del sistema, los datos geneticos se pueden utilizar para determinar el sexo de un individuo diana. Despues de haber utilizado el metodo aqu divulgado para determinar que segmentos de que cromosomas de los progenitores han contribuido al material genetico del individuo diana, se puede determinar el sexo del individuo diana averiguando cual de los cromosomas sexuales se ha heredado del padre: X indica una hembra e Y indica un varon. Para un experto en la tecnica debena ser obvio como utilizar este metodo para determinar el sexo del individuo diana.
Validacion de las hipotesis
En algunas realizaciones del sistema, un inconveniente radica en el hecho de que, para hacer una prediccion del estado genetico correcto con la maxima certeza posible, es necesario formular hipotesis acerca de todos los estados posibles. Sin embargo, dado que el numero posible de estados geneticos es extraordinariamente grande y el tiempo de computacion es limitado, puede que no sea razonable comprobar cada hipotesis. En estos casos, un enfoque alternativo consiste en aplicar el concepto de la validacion de hipotesis. Esto implica estimar lfmites para ciertos valores, conjuntos de valores, propiedades o patrones que cabna esperar observar en los datos medidos si es verdadera una determinada hipotesis o clase de hipotesis. A continuacion, se pueden comprobar los datos medidos para constatar si se situan dentro de dichos lfmites previstos, y/o se puede comprobar la existencia de ciertas propiedades o patrones previstos, y si no se cumplen las previsiones el algoritmo puede marcar tales mediciones para una investigacion mas exhaustiva.
Por ejemplo, en un caso en el que el extremo de un brazo de un cromosoma se ha desprendido en el ADN diana, la hipotesis mas probable puede calcularse como “normal” (en oposicion, por ejemplo, a “aneuploide”). Esto se debe a que no se ha comprobado la hipotesis concreta que se corresponde con el estado real del material genetico, esto es, que se ha desprendido un extremo del cromosoma, puesto que la probabilidad de ese estado es muy baja. Si se aplica el concepto de validacion, el algoritmo constatara que un elevado numero de valores, aquellos que corresponden a los alelos situados en la seccion desprendida del cromosoma, se hallan fuera de los lfmites previstos de las mediciones. Se
5
10
15
20
25
30
35
40
45
generara una alerta que invitara a una investigacion mas exhaustiva de este caso, aumentando las probabilidades de descubrir el estado real del material genetico.
Debena ser obvio para un experto en la tecnica como modificar el metodo divulgado para incluir la tecnica de validacion. Cabe senalar que una anomalfa que se preve que sea muy diffcil de detectar utilizando el metodo divulgado es la translocacion balanceada.
Aplicacion del metodo con ADN contaminado
En una realizacion del sistema, los datos geneticos del ADN diana que se sabe o se sospecha que han sido contaminados por ADN ajeno tambien pueden limpiarse utilizando el metodo divulgado. El concepto de validacion de hipotesis esbozado anteriormente puede utilizarse para identificar muestras geneticas que se situen fuera de los lfmites previstos; en el caso de muestras contaminadas, se espera que esta validacion genere una alerta y se pueda identificar la muestra como contaminada.
Puesto que gracias a los datos geneticos parentales se conoceran grandes segmentos del ADN diana, y siempre y cuando el grado de contaminacion sea lo suficientemente bajo y se mida un numero suficiente de SNP, se pueden identificar los datos espurios debidos al material genetico ajeno. El metodo aqrn divulgado debena posibilitar la reconstruccion del genoma diana, si bien con niveles de certeza mas bajos. Siempre y cuando el grado de contaminacion sea lo suficientemente bajo, se espera que la hipotesis que se calcule como mas probable se corresponda con el estado real del material genetico en la muestra de ADN diana.
Debena ser obvio para un experto en la tecnica como optimizar estos metodos con la finalidad de limpiar datos geneticos contaminados por senales espurias debido a ADN ajeno.
Ejemplo de reduccion a la practica
En una realizacion del sistema, el metodo anteriormente descrito se puede implementar utilizando un conjunto de algoritmos que calcularan la identidad mas probable de cada SNP en una lista de SNP relevantes, asf como un nivel de certeza para cada determinacion de SNP.
Aqrn se describe una forma posible de implementar el metodo divulgado en esta patente. La figura 16 y la figura 17 representan visualmente el desglose de esta implementacion del metodo divulgado, los requisitos de introduccion de datos y el formato de la salida.
La figura 16 se centra en los datos a introducir (1601) y su formato y requisitos, asf como en los datos de salida (1605) y su formato. Los datos a introducir para el algoritmo consisten en los datos medidos (1602), incluidos los datos introducidos por el usuario, y los datos existentes (1603) conservados en la base de datos, que se actualizara con los nuevos datos obtenidos. Los datos medidos (MD, 1602) constan de los datos geneticos medidos para los SNP deseados del embrion, y los alelos paternos y maternos, asf como la exactitud o certeza con la que se conoce cada uno de los alelos. Los datos existentes (1603) consisten en los datos de frecuencia poblacional (FD), los datos de sesgo de medicion (BD) y los datos de entrecruzamiento (CD).
Los datos de frecuencia poblacional (FD) contienen la frecuencia de alelos (para cada uno de los valores A, C, T, G) para cada uno de los SNP disponibles. Estos datos pueden ser previamente conocidos o medidos, y pueden actualizarse con nuevos datos obtenidos, tal como se describe en otra parte de este documento.
Los datos de sesgo de medicion (BD) capturan el sesgo del proceso de medicion hacia ciertos valores. Por ejemplo, presuponiendo que el valor real del alelo es X=A y la probabilidad de medicion correcta es px, la distribucion del valor medido x es:
A C T G
Probabilidad
px pC pT pG
probabilidad sin sesgo
px (1-pX)/3 (1-pX)/3 (1 -pX)/3
donde pX +pC +pT +pG = 1. Si no existe sesgo de medicion hacia ninguno de los valores, entonces
pC = pT =pG = (1-pX)/3. Esta informacion puede discernirse del conocimiento empmco y teorico sobre el mecanismo del proceso de medicion y de los instrumentos relevantes.
Los de entrecruzamiento (CD) consisten en una base de datos de distancias geneticas y probabilidades de entrecruzamiento entre pares de SNP, obtenidas a partir de datos HAPMAP. Conjuntamente, (MD), (FD), (BD) y (CD) constituyen la entrada necesaria para el algoritmo del metodo divulgado (bautizado como “Parental Support”, 1604). A continuacion, este algoritmo (1604) utiliza los datos introducidos para generar los datos de salida (1605), que describen el valor “verdadero” mas probable de los datos geneticos del paciente a partir de los valores medidos, asf como el origen mas probable de cada sNp en terminos de los alelos parentales.
5
10
15
20
25
30
35
40
La figura 17 se centra en la estructura del algoritmo propiamente dicho (bautizado como “Parental Support”) y la manera en que cada uno de estos datos introducidos es utilizado por el algoritmo. Planteado a la inversa: para hallar las hipotesis mas probables, es necesario calcular P(H|M) 1707, la probabilidad de la hipotesis dada la medicion, para todas las posibles hipotesis H.
Como se ha descrito anteriormente:
imagen33
A fin de hallar P(H|M) (1710), primero es necesario hallar P(M|H) (1707), y P(H) (1708), para todas las hipotesis H. Esto permite el calculo de P(M), 1709 mediante la ecuacion mostrada arriba. La probabilidad de la hipotesis P(H) 1708 depende del numero de entrecruzamientos que se presuponga y de la probabilidad de cada uno de estos entrecruzamientos (CD, 1704), tal como se explica arriba.
Se puede calcular P(M|H) utilizando la siguiente ecuacion:
P(M | IT) = T P{M | H & t)P(t),
como se ha explicado anteriormente.
P(t), 1706 es la frecuencia de un valor t concreto para los alelos paternos y maternos y se deriva de los datos de frecuencia poblacional (FD, 1703). P(M|H&t), 1705 es la probabilidad de medir correctamente los valores de alelo del embrion, del padre y de la madre, presuponiendo un valor t “verdadero” concreto. Los datos de medicion y la exactitud introducidos por el usuario (MD, 1701), y la base de datos de sesgo de medicion (BD, 1702) son las entradas requeridas para calcular P(M|H&t), 1705.A continuacion se ofrece una descripcion mas detallada del metodo. Se parte de SNP R = {r-i,...,rk}, (un conjunto de k SNP), y las correspondientes identidades medidas de los progenitores y del embrion, M = (e1,e2,p1,p2,m1,m2), para k SNP, identificados mediante las id s-i,...,sk, donde: e1 = (en,e12,...,eu) es la medicion en uno de los cromosomas del embrion (no todos ellos tienen que provenir del mismo cromosoma parental) para todos los SNP e2= (e21,e22,...,e2k) es la medicion en el otro cromosoma del embrion p1 = (pn,p12,...,p1k) es la medicion en el PRIMER cromosoma del padre (todos provienen del mismo cromosoma)
P2 = (p21,p22,...,p2k) es la medicion en el SEGUNDO cromosoma del padre (todos provienen del mismo cromosoma)
M1 = (mn,m12,...,m1k) es la medicion en el PRIMER cromosoma de la madre (todos provienen del mismo cromosoma)
M2 = (m21,m22,...,m2k) es la medicion en el SEGUNDO cromosoma de la madre (todos provienen del mismo cromosoma) Tambien se puede formular M = {M1,...,Mk} donde M1=(e1i,e2i,p1i,p2i).
El objetivo del metodo es determinar el valor “verdadero” del embrion T= (E1,E2), esto es, el caso mas probable dada la medicion M, donde:
E1 = (E)n,E12,...,E1k) es la medicion en el PRIMER cromosoma del embrion, correspondiente al cromosoma PATERNO, En e {p1i, p2i}
E2 = (E)21,E22,...,E2k) es la medicion en el SEGUNDO cromosoma del embrion, correspondiente al valor MATERNO, E2i e
{m1i, m2i}
Tambien se puede formular T = {T1,...Tk} donde Ti = (En,E2i).
En la practica, se estan utilizando los valores de cromosoma parental (p1,p2,m1,m2) como apoyo para comprobar, validar y corregir valores medidos de (e1,e2), de ah el termino “Algoritmo de Parental Support”.
Para lograr este objetivo, se desarrollan todas las posibles hipotesis para el origen de los valores del embrion y se escoge la mas probable, dada la medicion M. El espacio de hipotesis es Sh = {H1,...,Hq}= {conjunto de todas las hipotesis}, donde cada hipotesis tiene el formato Hj =(HJ1,...Hjk) donde Hj es la “mini” hipotesis para el SNP i, el formato Hji = (p*,m*) donde pi* e {pn, p2i} y mi* e {m1i,m2i}. Existen cuatro “mini” hipotesis HJi, diferentes, en concreto:
HJj 1: (eii,e2i)= {(pii,mii) o (mii,pu)}
HJj2: (eii,e2i)= {(pii,m2i) o (m2i,pii)}
HJi3: (eii,e2i)= {(p2i,mn) o (mn,p2i)}
HJi4: (eii,e2i) = {(p2i,m2i) o (m2i,p2i)}
En teoria, SH puede tener q = 4k miembros diferentes de entre los que elegir, si bien posteriormente se limitara este espacio con un numero maximo de entrecruzamientos de cromosomas paternos y maternos.
5
10
15
20
25
30
tt*_ argmaxP(H j M)
La hipotesis mas probable H* escogida es: n ’ ' "
Para una H concreta:
imagen34
De modo que, derivando para cada hipotesis:
1) P(M/H) es la probabilidad de la medicion M dada la hipotesis concreta H
2) P(H) es la probabilidad de la hipotesis concreta H
3) P(M) es la probabilidad de la medicion M
Despues de derivar P(H|M) para todas las H, se escoge la que tenga la mayor probabilidad.
Derivation de P(M\H)
Dado que las mediciones en cada SNP son independientes, para M = (Mi,...Mk) y la hipotesis concreta H=(Hi,...Hk) en los k SNP, entonces:
imagen35
Para el SNP concreto r, se deriva P(Mr|Hr). Para Q =
{A,C,T,G}X{A,C,T,G}X={A,C,T,G}X{A,C,T,G}, el espacio para todos los valores posibles para los valores parentales “verdaderos” (P1r,P2r,M1r,M2r), segun Bayes la formula es:
imagen36
Mr (eir,e2r,pir,p2r,mie,m2r) es una medicion dada en este SNP.
T=(eir,e2r,Pir,P2r,Mir,M2r) es el valor “verdadero” supuesto, para t = (Pir,P2r,Mir,M2r) y (Eir,E2r) fijado a partir de T mediante hipotesis. (Eir es uno de Pir,P2r, E2r es uno de Mir,M2r)
imagen37
Dado:
peri =P(medicion correcta el valor del embrion i, en SNP r) ppri =P(medicion correcta el valor del padre i, en SNP r) pmri =P(medicion correcta el valor de la madre i, en SNP r)
imagen38
donde p(eir,Eir,r) = i/3 si no existe sesgo de medicion, de lo contrario se puede determinar a partir de datos experimentales, tales como datos del proyecto HapMap.
Derivation de P((Pir,P2r,Mir,M2r) =t)
Para t =(ti,t2,t3,t4):
5
10
15
20
25
30
35
P((Pir,P2r,Mir,M2r) = (ti,t2,t3,t4)) = P(Pir = ti)* P(P2r = t2)* P(Mir = ts)* P(M2r =t4) Presupongase que existen n muestras de (Pi,P2,Mi,M2), se presupone que todos los valores paternos y maternos son independientes, y t =(ti,t2,t3,t4) para ti en {A,C,T,G}
Para obtener un piA concreto = P(Pi = ti), para ti = A, presupongase que en ausencia de datos esta probabilidad podria tener cualquier valor entre 0 y i, de modo que se le asigna un valor de U(0,i). Con la adquisicion de datos, esto se actualiza con los nuevos valores y la distribucion de este parametro se convierte en una distribucion beta. Presupongase que de n observaciones de Pi, existen h valores Pi=A, y w= (evento Pi=A) y D=(datos dados). En una seccion anterior se describe la forma de la distribucion beta B(a,p) con a = h+i, p = n-h+i para p(w|Datos) (vease la ecuacion (8)). El valor previsto y la varianza de distribucion X~B(a,p) son:
imagen39
Asi pues, el posterior valor promedio del parametro pirA = P(Pir= A|Datos) = (h+i)/(n+2) De forma similar, PirB = (#(pir = B)+i)/(n+2),... m2rG = (#(m2r = G)+i)/(n+2), etc. De este modo se han derivado todos los valores pirA,...,m2rG y:
F((Flr» P2r *MLr» Mlr ) - (ft, t2 , f, ,t4 )) = ft * P2
rU
m
Irt,
■ m
2rll,
Derivation de P(H)
La probabilidad de la hipotesis H = (Hi,...,Hk) con Hi = (p*,m* depende de la cantidad de entrecruzamiento cromosomico. Por ejemplo,
con P(entrecruzamiento) = 0, entonces Per(H) = i/4 y H = (p*,m*) si p* en {(p[ii,p2i,...psi), (pi2,p22,...,ps2), m* en {(mii,m2i,...,msi),(mi2,m22,...,ms2)}, 0 de lo contrario con P(entrecruzamiento)>0 es importante incorporar la probabilidad de entrecruzamiento entre cada SNP.
La hipotesis H consta de la hipotesis para los cromosomas paternos y maternos para cada SNP, Pi* e {pii,p2i} y mi* e {mii,m2i}, esto es, H = (Hp,Hm) donde Hp=(pi*,...pk*), y Hm=(mi*,...mk*), que son independientes.
P(H) = P(Hp)*P(Hm). Presupongase que los SNP estan ordenados por ubicacion creciente,
imagen40
donde PCi = P(entrecruzamiento(n-i,n)), esto es, la probabilidad de entrecruzamiento en algun punto entre los SNP n-i,r e Ii = i si pi*,pi-i* provienen ambos de pi o p2, y de lo contrario es 0.
Derivation de P(entrecruzamiento(a,b))
Dados los SNP a,b, en las ubicaciones de base ia, ib (dadas en bases), la probabilidad de entrecruzamiento se aproxima como:
imagen41
donde G(ia,ib) = distancia genetica en Morgans entre las ubicaciones ia,ib- No existe ninguna funcion de forma cerrada precisa para G, pero se estima aproximadamente como G(iaib) = |ia-ib|*ie-8. Se puede utilizar una mejor aproximacion aprovechando la base de datos HapMap de ubicaciones de bases Si, y distancias G(Si,Si+i), para i abarcando todas las
ubicaciones. En particular, de modo que puede utilizarse en la probabilidad de
entrecruzamiento.
Derivation de P(M)
Una vez que se conoce P(M|H), se puede hallar P(H) para todas las H diferentes en SH,
P(M) — [ H)P(N)
HeSH
5
10
15
20
25
Un metodo mas eficiente para derivar la hipotesis de maxima probabilidad
Dada la limitacion del tiempo de ordenador y el aumento exponencial de la complejidad del metodo anteriormente descrito a medida que se incrementa el numero de SNP, en algunos casos puede ser necesario utilizar metodos mas eficientes para determinar la hipotesis de maxima probabilidad y realizar asf las determinaciones de SNP relevantes. A continuacion se describe una forma mas rapida para conseguirlo:
De antes: P(H|M) = P(M|H)*P(H)/P(M), argmax h P(H|M) = argmax h and P(M|H)*P(H) = argmax h F(M,H), y el objetivo es hallar H, maximizando F(M,H).
Presupongase que M(s,k)= medicion en los SNP s hasta k, H(s,k) = hipotesis sobre los SNP s hasta k, y para abreviar M(k,k) = Mk, H(k,k) = Hk = medicion e hipotesis sobre el SNP k. Como se ha mostrado anteriormente:
imagen42
y tambien
P(Him )=l/4*f] PF(Ht.,, //,.) = PF(H, Hk ) * 1 / 4* f] PF(Hi ,, //,) - PF{H h .,,//*)* /><//, u „) donde
imagen43
y PC(Hi-i,Hi) = probabilidad de entrecruzamiento entre H1-1, Hi
De modo que finalmente, para n SNP:
imagen44
por lo tanto:
F(M, //) = F(M {U), //(U) }) = F(M ()., x,Hn)
As^ pues, es posible reducir el calculo en n SNP al calculo en n-1 SNP.
Para H = (Hi,...Ho) hipotesis sobre n SNP:
max F(M, H) = max F(M,{//,, , Hs) = max max F(M. (Hn,,, Hn) - max G(M(1 , H. } donde
imagen45
max F(M, H) = max G{M\, , Hn)
En sintesis: H it, '
10
15
donde G puede encontrarse recursivamente: para i=2,..n
CW<= P(M„ j H.)*xoxx{PF(H„_,,
H,) = 0.25 * P(Mt | ff,}.
y
La mejor hipotesis se puede hallar aplicando el siguiente algoritmo:
Paso 1: Para I=1, generar 4 hipotesis para H1, calcular G(M1|H1) para cada una de ellas y recordar Gi,G2,G3,G4 Paso 2: Para I=2, generar 4 hipotesis para H2, calcular G(M(i,2),|H2) utilizando la anterior formula:
G(Af (u),if,) = P(M, |ff,)*max[PF(Ht,H.)*G(M,,H,)],
recordar estas cuatro nuevas Gn.
Repetir el paso 2 para I=k con ki=ki-l+1 hasta que k=n: generar 4 hipotesis para Hk, calcular
imagen46
y recordar estas cuatro Gn.
Dado que en todo momento hay solo cuatro hipotesis que recordar y un numero constante de operaciones, el algoritmo es lineal.
Para hallar P(M): P(H|M)= P(M|H)*P(H)/P(M) = F(M,H)/P(M))
Como anteriormente:
imagen47
donde
imagen48
20 W(M,H) se puede resolver utilizando recursion:
imagen49
5
5
10
15
20
25
30
35
imagen50
El algoritmo es similar al caso anterior, donde i=2:n y en cada paso se genera un nuevo conjunto de W(i) hasta que el paso final arroja la W optimizada.
Derivacidn de los valores pi, p2, ppi, pp2 a partir de di, d2, h, pdi, pd2, ph
A efectos de la explicacion, esta seccion se centrara en los datos diploides y haploides del padre, pero es importante senalar que se puede aplicar el mismo algoritmo a la madre.
Sea: o di, d2- determinaciones de alelos en las mediciones diploides
o h- determinacion de alelo en la medicion haploide
o pdi, pd2-probabilidades de una determinacion de alelos correcta en cada una de las mediciones diploides
o ph- probabilidad de una determinacion de alelos correcta en la medicion haploide
Estos datos debenan asignarse a los siguientes parametros de entrada para el algoritmo divulgado:
o pi- alelo correspondiente a la celula haploide y una de las celulas diploides
o p2- alelo correspondiente a la celula diploide restante
o Ppi, Pp2- -probabilidades de determinacion de alelo correcta
Dado que h corresponde a di, para hallar el valor de pi es necesario utilizar h y di. Entonces p2 corresponded automaticamente a d2. De forma similar, si h corresponde a d2, para hallar el valor de pi es necesario utilizar h y d2, y entonces p2 correspondera a di.
Se utiliza el termino “corresponder” puesto que puede significar tanto “ser igual” como “provenir con mayor probabilidad de”, dependiendo de diferentes resultados de medicion y frecuencias poblacionales. El objetivo del algoritmo es calcular probabilidades de valores de alelo “verdaderos” ocultos mas alla de los resultados de la medicion bruta h, di, d2, ph, pdi, pd2 y frecuencias poblacionales.
Los pasos basicos del algoritmo son los siguientes:
i) determinar si h corresponde a di.o d2 sobre la base de los valores h, di, d2, ph, pdi, pd2 y los datos de frecuencia poblacional
ii) asignar las determinaciones de alelos a pi y p2; calcular las probabilidades ppi y pp2 sobre la base del paso (i) Asignacion de h a di o d2
Establezcanse dos hipotesis:
Hi: h corresponde a di (h proviene de di)
H2: h corresponde a d2 (h proviene de d2)
La tarea consiste en calcular probabilidades de estas dos hipotesis dada la medicion M
P(H)/M(h, di42>Ph>PdhPdi)) y P(H2/M(h, d/, d2,ph,p<j1,pdl})
(Para simplificar el texto, en lo sucesivo se aludira a estas como P(Hi/M) y P(H/M)). Para calcular estas probabilidades, aplfquese la regla bayesiana:
imagen51
donde P(M)=P(M/Hi)*P(Hi)+P(M/H2)*P(H2). Dado que las hipotesis Hi y H2 son igualmente probables, P(Hi)=P(H2)=0,5, por consiguiente:
y
Para calcular P(M/Hi) y P(M/H2), es preciso considerar el conjunto de todos los valores posibles de resultados diploides di y d2, Q - {AA,AC,...,GG}, esto es, cualquier combinacion de A,C,T,G, los denominados estados subyacentes. Al aplicar las hipotesis a los estados subyacentes (esto es, se acompana el valor supuesto de h sobre la base de la 5 hipotesis Hi o H2 a los valores di y d2), se pueden generar, respectivamente, las siguientes tablas de todas las combinaciones posibles (estados S={si,s2,...,si3}) de “valores verdaderos” H, Di y D2 para h, di y d2:
Hipotesis Hi: h=di
Q={AA,AC,...,GG}
estado
H Di D2
Si
A A A
S2
A A C
S3
A A T
S4
A A G
S5
C C A
S6
C C C
S7
C C T
S8
C C G
S9
T T A
Sio
T T C
Sii
T T T
Si2
T T G
Si3
A G A
Si4
G G C
Si5
G G T
Si6
G G G
Hipotesis H2: h=d2
Q={AA,AC,...,GG}
estado
H Di D2
Si
A A A
S2
C A C
S3
T A T
S4
G A G
S5
A C A
S6
C C C
S7
T C T
imagen52
imagen53
S8
G C G
S9
A T A
S10
C T C
S11
T T T
S12
G T G
S13
A G A
S14
C G C
S15
T G T
S16
G G G
Dado que se desconocen los “valores verdaderos” H, Di y D2, y solo se conocen los resultados de medicion brutos h, di, d2, ph, pd1, pd2, el calculo de P(M/Hi) y P(M/H2) a lo largo de todo el conjunto Q debe realizarse de la siguiente manera:
imagen54
Si, a efectos del calculo, se presupone que di y d2, as^ como pdi y pd2, son variables independientes, se puede demostrar que:
5
P(M| //[) = £ P(M(h, dt,d2)\//, & A, A} *P(Dl ,A.) =
a
]TP(M(h)\ H)* P(M(dt)\ D,)*P(M(d2) \ D.,)* PCD,)* P(D2)
s
Considerense los tres primeros elementos bajo la ultima suma anterior: P(M(x)/X), para x en {h,di,d2}.
10 El calculo de la probabilidad de determinacion de alelo correcta (obteniendo el “valor verdadero del alelo”) se basa en la medicion del resultado x dado el valor verdadero del alelo X. Si el valor x medido y el valor verdadero X son iguales, esa probabilidad es px (la probabilidad de medicion correcta). Si x y X son diferentes, esa probabilidad es (1-px)/3. Por ejemplo, se calcula la probabilidad de que se halle el “valor verdadero” C en las condiciones de que X=C, y de que el valor medido sea x=A. La probabilidad de obtener A es px. La probabilidad de obtener C, T o G es (1-px). Asi, la 15 probabilidad de obtener C es (1-px)/3, puesto que se puede presuponer que C, T y G son igualmente probables.
Si la variable indicadora Ix esta incluida en el calculo, donde Ix-1 si x-X e Ix=0 si x/X, las probabilidades son las siguientes:
imagen55
Considerense ahora los ultimos dos terminos en P(M|H1). P(D1) y P(D2) son frecuencias poblacionales de los alelos A, 20 C, T y G, que pueden ser conocidas previamente.
Considerese la expresion arriba mostrada para un estado concreto s2, dada la medicion concreta M(h = A,d1 = G,d2 = C):
P(M(h)) //) * P{M(</,) | £> > * P(M(d2) | Z),) * P{D,) * P{A ) =
- P(A/(A) =/!)// = A) * P(M(d,) = (71 D[ = /<) * P(M(r7,) = C | D2 = C) * P(Di = A) * P(D2 = C) = />* *(0 P*xV3)*P«i */(A = A)* f(D2 = C)
De forma similar, se calcula (1) dada la medicion concreta (en este caso M(h=A,di=G,d2=C)) para los restantes 15 estados y se suma el conjunto Q.
Ahora se han calculado P(M/H1) y P(M/H2). Finalmente, se calcula P(H1/M) y P(H1/M) de la manera anteriormente 5 descrita:
imagen56
Asignacion de las determinaciones de alelos y las probabilidades correspondientes Establezcanse ahora cuatro hipotesis diferentes:
Hp2A: el “valor verdadero” de p2 es A 10 Hp2c: el “valor verdadero” de p2 es C
Hp2T: el “valor verdadero” de p2 es T Hp2G: el “valor verdadero” de p2 es G
y calculese P(Hp2a), P(Hp2c/M), P(Hp2t/M), P(Hp2g/M). El valor mas elevado determina la determinacion de alelo concreta y la probabilidad correspondiente.
15 Puesto que se desconoce el origen de p2 (se deriva de d1 con una probabilidad de P(H2/M) y de d2 con una probabilidad P(H1/M)), es preciso considerar ambos casos: que el alelo p2 provenga de d1 o de d2. Para la hipotesis Ha, al aplicar la regla de Bayes se obtiene:
imagen57
P(H1/M) y P(H/M) ya se han determinado en el paso 1. Aplicando la regla de Bayes:
20
imagen58
Puesto que H1 implicaba que p2 proviene de d2:
P(M | , IIp2A ) = P(M(d2) | D2 = A) = * Pd2 + (1 - ) * (l - p,J2) / 3
P(H|,WHp2A)=P(M(d2)/D2=A)= I{d2-D2}*Pd2 + ( t-l{d2^D2})*(I/3)*(l-P<i3),
como se ha descrito anteriormente.
P(Hi!M)-P(HuM^p2A)^P(Hp2A)+P(Hi5M/Hp2c)!itP(Hp2c)+P(H.fWHp2T)!itP(Hf>aT}+P(HhM
/Hp2n)*P(Hp2G).
De forma similar, calculese P(Hp2a&H2/M).
P(Hp2A/M)=P(Hp2A&H1/M)+ P(Hp2A&H2/M), por consiguiente, se ha calculado la probabilidad de que p2 sea igual a A. Repitase el calculo para C, T y G. El valor mas alto dara la respuesta de la determinacion de alelo p2 y la probabilidad correspondiente.
5
10
15
20
25
30
Asignacion de la determinacion de aleo a pi (alelo correspondiente a la celula haploide y una de las celulas diploides) Como anteriormente, establecemos cuatro hipotesis diferentes:
HpiA: el “valor verdadero” de p1 es A Hp1o: el “valor verdadero” de p1 es C Hp1t: el “valor verdadero” de p1 es T Hp1g: el “valor verdadero” de p1 es G
y calculese P(HptA/M), P(HplC/M), P(HfjiT/M), P(Ilp!G/M)
He aqu una elaboracion de Hpia. En el “caso verdadero”, pi sera igual a A solo si la celula haploide y la correspondiente celula diploide son iguales a. Por consiguiente, para calcular pi y Ppi es preciso considerar situaciones donde la celula haploide y la correspondiente celula diploide sean iguales. Asf, la hipotesis HpiA: el “valor verdadero” de pi es A y se convierte en HhdA: el “valor verdadero” de la celula haploide y la correspondiente celula diploide es A.
Puesto que se desconoce el origen de h (se deriva de di con una probabilidad de P(Hi/M) y de d2 con una probabilidad P(Hs/M)), es preciso considerar ambos casos: que el alelo h provenga de di o de d2, e implementarlo en la determinacion de pi. Esto significa, aplicando la regla de Bayes:
imagen59
Como anteriormente, P(Hi/M) y P(H2/M) se conocen de calculos previos.
imagen60
P(Hi,M/Hma) = P(M(h)/H - A)*P(M(d,)/D, - A) =
' *Ph+( 1 -I(h-H})*( 1 /3)*( 1 -Ph)J *[I (d,-Dl) *Wl+( I I -pdl)],
puesto que Hi implica que pi proviene de di. P(HhdA) = P(h = A)*P(Di = A) = fh(A)*fdi(A), donde fh(A) y fd2(A) se obtienen a partir de datos de frecuencia poblacional. P(Hi,M) =
P(H1,M/HhdA)*P(HhdA)+P(H1,M/Hhdc)*P(Hhdc)+P(H1,M/HhdT)*P(HhdT)+P(H1,M/HhdG)*P(
Hhdo)
De forma similar, se calcula P(Hp2A&H2/M).
P(HhdA/M) = P(HhdA&Hi/M)+ P(HhdA&H2/M) y ahora hemos calculado la probabilidad de que pi.sea igual a A. Repttase el calculo parar C, T y G. El valor mas alto dara la respuesta de la determinacion de alelo pi y la probabilidad correspondiente.
Ejemplo de entrada de datos
Se muestran dos ejemplos de entrada de datos. El primer ejemplo es un conjunto de SNP con baja tendencia a la cosegregacion, esto es, propagacion de los SNP a lo largo de un cromosoma, y los datos a introducir se muestran en la tabla 3. El segundo ejemplo es un conjunto de SNP con elevada tendencia a la cosegregacion, esto es, agrupacion de los SNP en un cromosoma, y los datos de entrada se muestran en la tabla 4. Ambos conjuntos de datos incluyen los datos de SNP medidos de un individuo, los datos de SNP de los progenitores del individuo y los valores de certeza correspondientes. Cabe senalar que estos datos son datos reales medidos en personas reales. Cada fila representa las mediciones para una ubicacion de SNP concreta. Las columnas contienen los datos denotados por el encabezado de la columna. La clave de las abreviaturas en los encabezados de columna es la siguiente:
o family_id = la id umvoca para cada persona (incluida por motivos administrativos)
o snp_id = el numero de identificacion de SNP
o ei, e2 = los valores de nucleotido SNP para el embrion
o pi, p2 = los valores de nucleotido SNP para el padre
o mi, m2 = los valores de nucleotido SNP para la madre
o pei, pe2 = la exactitud de medicion para ei, e2
5
10
15
20
25
30
35
40
45
50
o pp 1, pp2 = la exactitud de medicion para p1, p2
o pm1, pm2 = la exactitud de medicion para ml, m2
Ejemplo de salida
Los dos ejemplos de datos de salida se muestran en la tabla 5 y la tabla 6, y corresponden a los datos de salida a partir de los datos recogidos en la tabla 3 y la tabla 4, respectivamente. Ambas tablas recogen los datos SNP medidos de un individuo, los datos SNP de los progenitores del individuo, el valor verdadero mas probable de los datos SNP del individuo, y las correspondientes certezas. Cada fila representa los datos correspondientes a un SNP concreto. Las columnas contienen los datos denotados por el encabezado de la columna. La clave de las abreviaturas en los encabezados de columna es como sigue:
o snp_id = el numero de identificacion de SNP
o true_value = el valor de nucleotido propuesto para e1, e2
o true_hyp = la hipotesis para el origen de e1, e2
o ee = los valores de nucleotido SNP medidos para e1, e2
o pp = los valores de nucleotido SNP medidos para p1, p2
o mm = los valores de nucleotido SNP medidos para ml, m2
o HypProb = la probabilidad de la hipotesis final. Existe un solo numero para la salida, pero debido a la estructura
de columnas de Excel, este numero se replica en todas las filas.
Cabe senalar que este algoritmo se puede implementar manualmente o por ordenador. La tabla 3 y la tabla 4 muestran ejemplos de datos de entrada para una version del metodo implementada por ordenador. La tabla 5 muestra los datos de salida para los datos de entrada mostrados en la Tabla 3. La tabla 6 muestra los datos de salida para los datos de entrada mostrados en la Tabla 4.
Algoritmo de simulacion
A continuacion se muestra una segunda simulacion que se llevo a cabo para garantizar la integridad del sistema y para evaluar la eficacia real del algoritmo en una mayor variedad de situaciones. A tal fin se llevaron a cabo 1000 simulaciones completas del sistema. Esto implica crear aleatoriamente datos geneticos parentales, emular la meiosis por ordenador para generar datos embrionarios, simular la medicion incompleta de los datos embrionarios, y a continuacion aplicar el metodo aqu divulgado para limpiar los datos embrionarios medidos simulados, y posteriormente comparar esos datos “limpios” con los datos “reales”. Mas abajo se ofrece una explicacion mas detallada de la simulacion, y la representacion visual del flujo de eventos se muestra en la figura 18. Se ensayaron dos implementaciones diferentes de la teona. Mas abajo se ofrece una explicacion mas detallada.
Algoritmos de simulacion para DH y PS y resultados
Para ambos algoritmos, las variables de entrada iniciales son:
i) la lista de los SNP a ensayar,
(ii) la frecuencia poblacional de los cromosomas maternos (popfreqlistMM) y paternos (popfreqlistPP),
(iii) las probabilidades de una determinacion de alelo correcta para la medicion haploide (ph, pe), y para mediciones diploides no ordenadas (pd).
Estos valores debenan fijarse sobre la base de los resultados de datos empmcos (frecuencia poblacional) en SNP relevantes, y del rendimiento del instrumental de medicion (ph, pd, pe). Se ejecuto la simulacion para diversos escenarios, tales como mas probable (informado), uniforme (no informado) y muy improbable (caso extremo).
Una vez fijados los parametros estaticos, las probabilidades de entrecruzamiento dados los SNP concretos son las mismas para todas las simulaciones, y se derivaran con antelacion dadas las bases de datos para ubicacion de SNP (SNIPLOC_NAME_MAT) y distancia genetica (HAPLOCNAMEMAT).
[crossprob, snips] -
GetCrossProb(smps,SNlPLOC_NAME_MAT,parameters,HAPLOCJNfAMEjVlAT);
Bucle de simulacion preliminar
El bucle de simulacion preliminar permite demostrar que los datos geneticos que se utilizaran para la simulacion preliminar son realistas. Se repitieron 10 000 veces los pasos 1 a 5. Cabe senalar que esta simulacion puede ejecutarse para cualquiera de los progenitores o para ambos: los pasos son identicos. En este caso, se ejecutara la simulacion para el caso paterno con fines ilustrativos, y las referencias a la figura 18 incluiran tambien la entrada materna correspondiente entre parentesis en la figura 18.
5
10
15
20
25
30
35
40
45
Paso 1: generar celulas diploides parentales originales (P1,P2),
[P1 ,P2]=GenerateOriginalChromosomes(snips,popfreqlistPP); 1801 (1802)
Generar celulas diploides parentales originales dependiendo de la frecuencia poblacional para cada SNP para celulas paternas.
Paso 2: generar datos haploides y datos diploides no ordenados para DHAlgo
Simular el entrecruzamiento de los cromosomas parentales 1803 para obtener dos conjuntos de cromosomas entrecruzados: P1C1, P2C1 y P1C2, P2C2; 1804 (1805). Escoger uno de los alelos paternos tras el entrecruzamiento 1806 (del primer conjunto) para el alelo haploide HP 1807 (1808) en este caso P (dado que es indiferente de cual se trate), y alterar el orden en los alelos diploides para obtener (D1P,D2P) 1807 (1808).
HP = PickOne(P1C1,P2C1);
[D1P,D2P] = Jumble(P1,P2).
Paso 3: introducir error en el conjunto de datos original para simular mediciones
Sobre la base de las probabilidades de medicion correcta dadas (ph-medicion haploide, pd- medicion diploide), introducir error en las mediciones para obtener los datos parentales medidos simulados 1811 (1812).
hp = MakeError(HP,ph);
d1p = MakeError(D1P,pd);
d2p = MakeError(D2P,pd).
Paso 4: aplicar DHAlgo para obtener (p1,p2), (pp1,pp2)
DHAlgo toma alelos de la celula haploide y alelos no ordenados de la celula diploide y devuelve los alelos diploides ordenados mas probables que dieron lugar a estos. DHA1go intenta reconstruir (P1,P2), y tambien devuelve el error de estimacion para el padre (pp1,pp2). Con fines de comparacion, se utiliza tambien el algoritmo empmco que realiza emparejamiento de alelos simple. El objetivo es determinar hasta que punto es mejor el algoritmo divulgado en comparacion con el algoritmo empmco simple [p1, p2, pp1, pp2] =DHAlgo(hp,d1p,d2p,ph,pd,snips,popfreqlistPP,'DH');
[p1s,p2s,pp1s,pp2s]=DHAlgo(hp,d1p,d2p,ph,pd,snips,popfreqlistPP,'ST');
Paso 5: recopilar estad^sticas para la serie
Comparar (P1,P2) con (p1,p2) derivados.
[P1cmp(:,i), P2cmp( :,i),P1prob( :,i), P2prob( :,i),P1mn(i),
P2mn(i)]= ValidarDHSim(P1 ,P2,p1, p2,pp1 ,pp2);
Nota: (P1Si,P2Si,P1Pi,P2Pi,P1Ai,P2Ai)= (T{P1=p1}, I{P2=p2}, Pp1,Pp2,P1acc p2acc), donde I{p1=p1} es una array indicadora binaria para la estimacion de la exactitud del algoritmo DH para todos los SNP; de forma similar, parar I{{P2=p2}. pp1,pp2 son probabilidades de una determinacion de alelos correcta derivadas del algoritmo, y p1acc = media(I{P1=p-i}), esto es, la exactitud media de esta serie para p1 similar parar p2acc.
Resultados de la simulacion preliminar
Se utilizaron diez mil simulaciones para estimar la exactitud del algoritmo DHAccuracy.P1 = media(P1 Ai), DHAccuracy.P2 = media(P2Ai), que muestra la exactitud global del algoritmo DH de P1,P2. Considerando los SNP individuales, la exactitud media de cada SNP SNPAcc.P1 = media(P1Si) debena coincidir con el promedio de la probabilidad estimada de medir correctamente ese SNP, SNPProb.P1 = media(P2P;), esto es, si el algoritmo funciona correctamente, el valor para SNPAcc.P1 debena corresponderse estrechamente con SNPProb.P1. La relacion entre estas dos se refleja en su correlacion.
Los 10 000 bucles de la simulacion se ejecutaron para diferentes escenarios de configuracion:
(1) La frecuencia poblacional subyacente dada por datos de genotipificacion existentes, que son mas realistas, y frecuencias poblacionales uniformes donde A, C, T y G tienen la misma probabilidad en cada SNP.
(2) Varias combinaciones para la exactitud de la medicion en las mediciones haploides y mediciones diploides no ordenadas (ph,pd). Se adoptaron diversos supuestos: que ambas mediciones eran muy exactas (0,95, 0,95), menos exactas (0,75, 0,75) e inexactas o aleatorias (0,25, 0,25), asf como combinaciones no balanceadas de (0,9, 0,5), (0,5, 0,9). Los valores mas cercanos a la realidad podnan ser unas exactitudes de aproximadamente 0,6 a 0,8.
(3) La simulacion se ejecuto en todos estos casos tanto para el DHAlgorithm como para el STAlgorithm de emparejamiento simple, a fin de evaluar el rendimiento del algoritmo divulgado.
Los resultados de todas estas series se resumen en la tabla 7.
5
10
15
20
25
30
35
40
45
El algoritmo divulgado acredita en estas simulaciones un mejor rendimiento que el algoritmo empmco existente, especialmente en los casos realistas de frecuencia poblacional no uniforme, y probabilidades no balanceadas o reducidas de mediciones correctas. Asimismo, se ha confirmado que nuestras estimaciones de la exactitud del algoritmo para SNP individuales son muy buenas en estos casos, dado que la correlacion entre la exactitud estimada de la determinacion de alelo correcta y la exactitud media de la simulacion es de aproximadamente el 99 %, con una relacion media de 1.
En el caso mas realista, para los datos de frecuencia poblacional y (ph, pd) = (0,6, 0,8), el porcentaje promedio de SNP correctamente obtenidos para (P1, P2) es (0,852, 0,816) en la implementacion 1, y (0,601, 0,673 en la implementacion 2.
Cabe senalar que para la tabla 7 y la tabla 8, las filas que empiezan por “datos” utilizan datos de frecuencia poblacional tomados de resultados empmcos, mientras que las filas que empiezan por “uniforme” adoptan poblaciones uniformes.
Es importante senalar que en la tabla 7 y en la tabla 8 la exactitud esta definida como el porcentaje promedio de SNP donde se realizo la determinacion de SNP correcta y se identifico el cromosoma de origen correcto. Tambien es importante senalar que estas simulaciones reflejan dos implementaciones posibles del algoritmo. Es posible que existan otras formas de implementar el algoritmo que puedan arrojar mejores resultados. Esta simulacion unicamente pretende demostrar que el metodo puede ser reducido a la practica.
Bucle de simulacion completa
Se repitieron 10 000 veces los pasos 1 a 8. Esta es la simulacion para probar el metodo divulgado completo para limpiar datos geneticos medidos para un individuo diana utilizando datos geneticos medidos en individuos emparentados, en este caso los progenitores.
Paso 1: generar celulas diploides parentales originales (P1, P2), (M1,M2) [P1,P2]=GenerateOriginalChromosomes(snips,popfreqlistPP); (1801) [M1,M2]=GenerateOriginalChromosomes(snips,popfreqlistMM); (1802)
Generar celulas parentales originales dependiendo de la frecuencia poblacional para cada SNP para celulas de la madre y del padre.
Paso 2: entrecruzamiento de celulas parentales (P1C,P2C), (M1C,M2C) (1803)
Generar dos conjuntos de celulas paternas con entrecruzamientos: primero para obtener (P1C1,P2C1) utilizado en DHAlgo, y una segunda vez para obtener (P1C2,P2C2) utilizado en PSAlgo. (1804)
Generar dos conjuntos de celulas maternas con entrecruzamientos: primero para obtener (M1C1,M2C1) utilizado en DHAlgo, y (M1C2,M2C2) utilizado en PSAlgo. (1805)
[P1C1 ,P2C 1 ]=Cross(P1,P2,snips,fullprob);
[P1C2,P2C2]=Cross(P1,P2,snips,fullprob);
[M1C1 ,M2C 1 ]=Cross(M1,M2,snips,fullprob);
[MlC2,M2C2]=Cross(Ml,M2,snips,fullprob);
Paso 3: generar celulas haploides y celulas diploides no ordenadas para DHAlgo (1806)
Se toma uno de los conjuntos de celulas paternas (1804, primer conjunto) para la celula haploide HP, y se altera el orden en la celula diploide para obtener (D1P,D2P) (1807). Se hace lo mismo para las celulas maternas (1805, primer conjunto) para obtener MH, (D1M,D2M).(1808).
HP = PickOne(P1C1,P2C1);
HM = PickOne(M1C1,M2C1);
[D1P,D2P] = Jumble(P1,P2);
[D1M,D2M] = Jumble(M1,M2);
Paso 4: generar celula embrionaria diploide (1809)
Se toma una de las celulas paternas (1804, primer conjunto) y una de las celulas maternas (1805, segundo conjunto) para la celula del embrion. Se altera el orden con fines de medicion.
E1 = PickOne(P1C2,P2C2);
E2 = PickOne(M1C2,M2C2);
[E1J,E2J] = Jumble(E1,E2); (1810)
5
10
15
20
25
30
35
40
45
50
Paso 5: introducir error en las mediciones 1811, 1812, 1813)
Sobre la base del error de medicion dado (ph-celulas haploides, pd-celulas diploides no ordenadas, celulas preembrionarias), se introduce error en las mediciones,
hp = MakeError(HP,ph); (1811)
d1p = MakeError(DlP,pd); (1811)
d2p = MakeError(D2P,pd); (1811)
hm = MakeError(HM,ph); (1812)
d1m = MakeError(D1 M,pd); (1812)
d2m = MakeError(D2M,pd); (1812)
e1 = MakeError(E1J,pel); (1813)
e2 = MakeError(E2J,pe2); (1813)
Paso 6: aplicar DHAlgo para obtener (p1,p2), (m1,m2), (pp1,pp2),(pm1,pm2)
DHAlgo toma una celula haploide y una celula diploide no ordenada y devuelve la celula diploide ordenada mas probable que dio lugar a estas. DHAlgo intenta reconstruir (P1C1,P2C1) para los cromosomas paternos y (M1C1,M2C1) para los maternos, y tambien devuelve el error de estimacion para las celulas paternas (pp1,pp2) y maternas (pm1,pm2).
[p1,p2,pp1,pp2]=DHAlgo(hp,d1p,d2p,snips,popfreqlistPP);(1814) [m1,m2,pm1,pm2]=DHAlgo(hm,d1m,d2m,snips,popfreqlistMM); (1815)
Paso 7: aplicar PSAlgo para obtener (DE1,DE2) (1816)
PSAlgo toma las celulas paternas reconstruidas (p1,p2,m1,m2) y la celula embrionaria medida no ordenada (e1,e2) para devolver la celula embrionaria verdadera ordenada mas probable (DE1,DE2). PS Algo intenta reconstruir (E1,E2).
[DE1,DE2,alldata]=PSAlgo(snips,e1,e2),p1,p2,m1,m2,pe1,pp1,pp2,pm1,pm2,parameters,crossprob,popfreqlistPP,popre
qlistMM);
Paso 8: recopilar las estad^sticas deseadas de esta serie de simulacion
Obtener estadfsticas de la serie: simdata=SimValidate(ValidarSim) (alldata,DE1,DE2,P1,P2,M1,M2,E1,E2,p1,p2,m1,m2,e1,e2,pe,pe,pp1,pp2,pm1,pm2);
Resultados de la simulacion
Se ejecutaron diez mil simulaciones y se calcularon las estimaciones finales de la exactitud del algoritmo PrecisionPS.E1 = media(E1Ai), PrecisionPS.E2 = media(E2A;), que nos indica la exactitud global del algoritmo PS de E1,E2. Considerando los SNP individuales, la exactitud media de cada SNP SNPAcc.E1 = media(E1Si) debena coincidir con el promedio de la probabilidad estimada de medir correctamente ese SNP, SNPProb.E1 = media(E2Pi), esto es, si el algoritmo esta escrito correctamente, debena observarse una correlacion entre SNPAcc.E1 y SNPProb.E1. La relacion entre estas dos se refleja en su correlacion.
Se ejecutaron diez mil bucles de la simulacion para diferentes escenarios de configuracion:
1) La frecuencia poblacional subyacente dada por los datos de genotipificacion existentes que son mas realistas, y frecuencias poblacionales uniformes donde A, C, T y G tienen la misma probabilidad en cada SNP.
2) Varias combinaciones de exactitud de medicion para mediciones haploides, mediciones diploides no ordenadas y mediciones de embrion (ph,pd,pe). Se simularon diversas exactitudes: muy exacta (0,95, 0,95, 0,95), menos exacta (0,75, 0,75, 0,75) e inexacta o aleatoria (0,25, 0,25, 0,25), asf como combinaciones no balanceadas de (0,9, 0,5, 0,5), (0,5, 0,9, 0,9). Los valores mas cercanos a la realidad son aproximadamente (0,6, 0,8, 0,8).
3) Ejecutamos la simulacion en todos estos casos tanto para nuestro algoritmo PS como para el algoritmo de emparejamiento simple STPS, a fin de evaluar el rendimiento del algoritmo divulgado.
Los resultados de estas series se resumen en la tabla 8.
El algoritmo divulgado acredita en estas simulaciones un mejor rendimiento que el algoritmo empmco existente, especialmente en los casos realistas de frecuencia poblacional no uniforme, y probabilidades no balanceadas o reducidas de mediciones correctas. Asimismo, se ha demostrado que las estimaciones de la exactitud del algoritmo para SNP individuales son muy buenas en estos casos, dado que la correlacion entre la exactitud estimada de la determinacion de alelo correcta y la exactitud media de la simulacion es de aproximadamente el 99 %, con una relacion media de 1.
5
10
15
20
25
30
35
40
45
50
55
En el caso mas realista, para los datos de frecuencia poblacional y (ph, pd, pe) = (0,6, 0,8, 0,8), el porcentaje promedio de SNP correctamente obtenidos para (E1, E2) es (0,777, 0,788) en la implementacion 1, y (0,835, 0,828 en la implementacion 2. Como se ha mencionado anteriormente, el numero que denota la exactitud media del algoritmo se refiere no solo a la determinacion de SNP correcta, sino tambien a la identificacion del origen parental correcto del SNP. Para ser efectivo, un algoritmo debe arrojar mejores resultados que un algoritmo que simplemente acepta los datos tal como se miden. Resulta sorprendente constatar que, en algunos casos, la exactitud del algoritmo es inferior a la exactitud nominal de la medicion. Es importante recordar que, a los efectos de esta simulacion, solo se considera exacta una determinacion de SNP si, ademas de producirse correctamente la determinacion, tambien se identifican correctamente su progenitor y su cromosoma de origen. La probabilidad de obtener este resultado correcto por azar es considerablemente inferior a la exactitud de medicion.
Tecnicas de laboratorio necesarias para obtener material genetico prenatal y embrionario
Estan disponibles numerosas tecnicas disponibles para el aislamiento de celulas y fragmentos de ADN para la genotipificacion. El sistema y el metodo aqu descritos pueden aplicarse a cualquiera de estas tecnicas, espedficamente a aquellas que implican el aislamiento de celulas fetales o fragmentos de ADN procedentes de sangre materna, o de blastocistos procedentes de embriones en el contexto de la fertilizacion in vitro. Puede aplicarse igualmente a datos genomicos generados por ordenador, es decir, no directamente medidos a partir de material genetico.
En una realizacion del sistema, estos datos pueden obtenerse de la manera descrita a continuacion.
Aislamiento de celulas
Las celulas diploides adultas pueden obtenerse a partir de tejido en bruto o muestras de sangre. Las celulas individuales diploides adultas pueden obtenerse a partir de muestras de sangre enteras por medio de clasificacion de celulas activadas por fluorescencia (FACS). Tambien los espermatozoides individuales diploides adultos pueden aislarse mediante FACS a partir de muestras de semen. Los ovulos individuales diploides adultos pueden aislarse en el contexto de la extraccion de ovulos durante procedimientos IVF.
El aislamiento de los blastocistos individuales diana a partir de embriones humanos puede realizarse empleando tecnicas habituales en las clmicas de fertilizacion in vitro. El aislamiento de celulas fetales diana en la sangre materna puede realizarse utilizando anticuerpos monoclonales u otras tecnicas tales como FAC o centrifugacion por gradiente de densidad.
La extraccion de ADN tambien puede implicar metodos no estandar para esta aplicacion.
Los artfculos en la literatura que comparan varios metodos de extraccion de ADN han observado que en algunos casos protocolos novedosos, tales como la adicion de N-lauroilsarcosina, han demostrado ser mas eficientes y generar el menor numero de falsos positivos.
Amplificacion de ADN genomico
La amplificacion del genoma puede lograrse empleando multiples metodos, que incluyen: PCR mediada por ligacion (LM-PCR), PCR utilizando cebadores de oligonucleotidos degenerados (DOP-PCR) y amplificacion por desplazamiento multiple (MDA). De los tres metodos, la DOP-PCR produce de forma fiable grandes cantidades de ADN a partir de pequenas cantidades de ADN, incluyendo copias individuales de cromosomas; este metodo podna ser el mas indicado para genotipificar los datos diploides parentales en casos en los que la fidelidad de los datos sea crucial. La MDA es el metodo mas rapido, ya que produce una amplificacion del ADN de cien veces en unas pocas horas; este metodo podna ser el mas indicado para genotipificar celulas embrionarias, o en otras situaciones en las que el factor tiempo sea primordial.
La amplificacion del ruido de fondo constituye un problema para todos estos metodos, ya que cada metodo amplificana potencialmente el ADN contaminante. Cantidades minusculas de contaminacion pueden corromper de forma irreversible el ensayo y arrojar datos falsos. Por consiguiente, es crucial utilizar condiciones de laboratorio limpias, donde los procesos de trabajo previos y posteriores a la amplificacion esten completa y ffsicamente separados. Los flujos de trabajo limpios y libres de contaminacion para la amplificacion de ADN son ahora rutinarios en la biologfa molecular industrial, y simplemente requieren una cuidadosa atencion a los detalles.
Ensayo de genotipificacion e hibridacion
La genotipificacion del ADN amplificado puede llevarse a cabo aplicando diversos metodos, incluyendo sondas de inversion molecular (MIP) como los arrays Genflex Tag de Affymetrix, microarrays como el array 500K de Affymetrix o los arrays de microesferas Illumina, o bien ensayos de genotipificacion de sNp tales como el ensayo TaqMan de AppliedBioscience. La array 500K Affymetrix, las MIP/GenFlex, los ensayos TaqMan e Illumina requieren todos ellos cantidades de ADN del orden de microgramos, de modo que la genotipificacion de una sola celula mediante cualquiera de estos procesos requerina algun tipo de amplificacion. Cada una de estas tecnicas presenta diversas ventajas y desventajas en cuanto a coste, calidad de los datos, datos cuantitativos frente a cualitativos, posibilidad de personalizacion, tiempo para completar el ensayo y el numero de los SNP medibles, entre otros aspectos. Una ventaja de los arrays 500K e Illumina reside en el gran numero de SNP sobre los cuales pueden obtener datos, en torno a 250 000, en comparacion con las MIP que pueden detectar del orden de 10 000 SNP y el ensayo TaqMan que puede detectar un numero aun menor. Una ventaja de los ensayos MIP, TaqMan e Illumina sobre los arrays 500K radica en su
5
10
15
20
25
30
35
40
45
50
55
60
caracter inherentemente personalizable, que permite al usuario escoger los SNP, mientras que los arrays 500K no permiten tal personalizacion.
En el contexto del diagnostico preimplantacional durante la fertilizacion in vitro, las limitaciones de tiempo inherentes son significativas; en este caso, podna ser ventajoso sacrificar la calidad de los datos en aras de un tiempo de ciclo mas corto. Pese a que reviste otras ventajas claras, el protocolo de ensayo MIP estandar es un proceso relativamente largo, cuya complecion requiere normalmente de dos dfas y medio a tres dfas. En las MIP, el alineamiento de sondas con el ADN diana y la hibridacion postamplificacion tardan un tiempo particularmente largo, y cualquier desviacion respecto de estos tiempos se traduce en una degradacion de la calidad de los datos. Las sondas se alinean durante la noche (12-16 horas) con la muestra de ADN. La hibridacion postamplificacion se alinea con los arrays durante la noche (12-16 horas). Diversos pasos adicionales antes y despues del alineamiento y la amplificacion situan en 2,5 dfas el tiempo total para completar el protocolo estandar. La optimizacion del ensayo MlP para aumentar su velocidad podna acortar potencialmente el proceso a menos de 36 horas. Tanto los arrays 500K como los ensayos Illumina permiten procesos mas rapidos: aproximadamente 1,5 dfas para generar datos altamente fiables en el protocolo estandar. Ambos metodos son optimizables, y se estima que el tiempo de ciclo para el ensayo de genotipificacion para el array 500k y/o el ensayo Illumina se podna acortar a menos de 24 horas. Aun mas rapido es el ensayo TaqMan, que se puede completar en tres horas. Para todos estos metodos, la reduccion del tiempo de ensayo se traducira en una reduccion de la calidad de los datos; sin embargo, la divulgacion esta disenada para solucionar precisamente este problema. Algunas tecnicas disponibles que son mas rapidas no ofrecen un rendimiento particularmente elevado, y por consiguiente no son viables actualmente para el diagnostico genetico prenatal altamente paralelo.
Naturalmente, en situaciones en las que el factor tiempo es crucial, como la genotipificacion de un blastocisto durante la IVF, los ensayos mas rapidos revisten una clara ventaja sobre los ensayos lentos, mientras que en casos en los que la presion del tiempo es menor, por ejemplo, al genotipificar el ADN parental antes de iniciar la IVF, seran otros factores los que predominen a la hora de escoger el metodo apropiado. Por ejemplo, otro aspecto que vana de una tecnica a otra es la relacion entre el precio y la calidad de los datos. Puede ser razonable utilizar tecnicas mas caras que proporcionen datos de alta calidad para mediciones mas importantes, y tecnicas menos caras que proporcionen datos de menor calidad para mediciones en las que la fidelidad no sea crucial. Cualquier tecnica que este desarrollada hasta el punto de permitir una genotipificacion de alto rendimiento lo suficientemente rapida podna utilizarse para genotipificar material genetico para el uso con este metodo.
Un ejemplo contextual del metodo
A continuacion se describe un ejemplo de como se puede utilizar, en el contexto de un laboratorio IVF, el metodo divulgado de forma que sea posible la genotipificacion completa de todos los embriones viables dentro de las limitaciones de tiempo del procedimiento IVF. El tiempo de ciclo requerido en un laboratorio IVF, desde la fertilizacion del ovulo hasta la implantacion del embrion, es inferior a tres dfas. Esto significa que el trabajo de laboratorio relevante, la limpieza de los datos y la prediccion fenotfpica deben completarse en este tiempo. En la figura 19 se muestra un diagrama esquematico de este sistema aqrn descrito. Este sistema puede consistir en muestras geneticas parentales 1901 del usuario de IVF (madre) 1902 y del usuario de IVF (padre) 1903, analizadas en el laboratorio IVF 1904 utilizando un sistema de genotipificacion. Puede implicar multiples ovulos extrafdos de la madre 1902 y fertilizados con semen del padre 1903 para crear multiples embriones fertilizados 1905. Puede implicar la extraccion de un blastocisto para cada embrion por parte de un tecnico del laboratorio, la amplificacion del ADN de cada blastocisto y el analisis de los blastocistos utilizando un sistema de genotipificacion de alto rendimiento 1906. Puede incluir el envfo de los datos geneticos de los progenitores y del blastocisto a un sistema de procesamiento de datos seguro 1907 que valide y limpie los datos geneticos embrionarios. Puede incluir un proceso donde un algoritmo de fenotipificacion 1909 opera sobre los datos embrionarios limpios 1908 para predecir las susceptibilidades fenotfpicas de cada embrion. Puede incluir el envfo de dichas predicciones, junto con los niveles de certeza relevantes, al facultativo 1910 quien ayuda a los usuarios de IVF 1902 y1903 a seleccionar embriones para su implantacion en la madre 1901.
Notas diversas relativas a la limpieza de datos geneticos
Es importante senalar que el metodo aqrn descrito concierne a la limpieza de datos geneticos, y dado que todas las criaturas vivientes contienen datos geneticos, los metodos son igualmente aplicables a cualquier humano, animal o planta que herede cromosomas de sus progenitores. La lista de animales y plantas podna incluir, entre otros: gorilas, chimpances, bonobos, gatos, perros, pandas, caballos, vacas, ovejas, cabras, cerdos, guepardos, tigres, leones, salmones, tiburones, ballenas, camellos, bisontes, manages, alces, peces espada, delfines, armadillos, avispas, cucarachas, gusanos, condores, aguilas, gorriones, mariposas, secuoyas, mafz, trigo, arroz, petunias, arvejas silvestres, girasoles, artemisias, robles, castanos y piojos.
La medicion de datos geneticos no es un proceso perfecto, especialmente cuando la muestra de material genetico es pequena. A menudo, las mediciones contienen mediciones incorrectas, mediciones poco claras, mediciones espurias y mediciones ausentes. La finalidad del metodo aqrn descrito es detectar y corregir parte o la totalidad de estos errores. La utilizacion de este metodo puede mejorar en gran medida la certeza con la que se conocen los datos geneticos. Por ejemplo, utilizando tecnicas actuales, los datos geneticos medidos no limpiados de ADN amplificado procedente de una celula individual pueden contener entre un 20 % y un 50 % de regiones no medidas o perdidas de alelos. En algunos casos, los datos geneticos pueden contener entre un 1 % y un 99 % de regiones no medidas o perdidas de alelos. Ademas, la certeza de un sNp medido concreto tambien esta sujeta a errores.
5
10
15
20
25
30
35
40
45
50
55
60
En un caso en el que los datos no limpiados presentan una tasa de perdida de alelos de aproximadamente el 50 %, se espera que tras aplicar el metodo aqm divulgado los datos limpios presentaran determinaciones de alelos correctas en al menos el 90 % de los casos, y en circunstancias ideales este porcentaje podna aumentar hasta el 99 % o incluso superior. En un caso en el que los datos no limpiados presentan una tasa de perdida de alelos de aproximadamente el 80%, se espera que tras aplicar el metodo aqm divulgado los datos limpios presentaran determinaciones de alelos correctas en al menos el 95% de los casos, y en circunstancias ideales este porcentaje podna aumentar hasta el 99,9% o incluso superior. En un caso en el que los datos no limpiados presenten una tasa de perdida de alelos de aproximadamente el 90%, se espera que tras aplicar el metodo aqm divulgado los datos limpios presentaran determinaciones de alelo correctas en al menos el 99% de los casos, y en circunstancias ideales este porcentaje podna aumentar hasta el 99,99% o incluso superior. En casos en los que se realiza la medicion de un SNP concreto con un mdice de certeza cercano al 90 %, se espera que los datos limpios presentaran determinaciones de SNP con un mdice de certeza superior al 95 % y, en casos ideales, del 99% o incluso superior. En casos en los que se realiza la medicion de un SNP concreto con un mdice de certeza cercano al 99%, se espera que los datos limpios presentaran determinaciones de SNP con un mdice de certeza superior al 99,9% y, en casos ideales, del 99,99% o incluso superior.
Tambien es importante senalar que los datos geneticos embrionarios que pueden generarse midiendo el ADN amplificado de un blastomero pueden utilizarse para multiples fines. Por ejemplo, se pueden utilizar para detectar aneuploidfas, disoirna uniparental, determinar el sexo del individuo, asf como para hacer diversas predicciones fenotipicas. Actualmente, en laboratorios de IVF, debido a las tecnicas empleadas, a menudo se da el caso de que un blastomero solo puede proporcionar material genetico suficiente para detectar un trastorno, como pueda ser una aneuploidfa, o una enfermedad monogenica concreta. Dado que el metodo aqm divulgado presenta el primer paso comun de medir un gran conjunto de SNP de un blastomero, con independencia del tipo de prediccion a hacer, un facultativo o progenitor no se ve obligado a escoger un numero limitado de trastornos a detectar. En su lugar, existe la opcion de detectar tantos genes y/o genotipos como lo permita el estado de los conocimientos medicos. Con el metodo divulgado, la unica ventaja derivada de identificar trastornos concretos a detectar antes de genotipificar el blastomero reside en que, si se decide que ciertos PSNP son especialmente relevantes, se puede seleccionar un conjunto mas apropiado de NSNP que tiene mayor probabilidad de cosegregar con los PSNP de interes, aumentando asf la certeza de las determinaciones de alelos de interes. Cabe senalar que, incluso en caso de que no se personalicen los SNP con antelacion, se espera que las certezas sean mas que suficientes para los diversos fines aqm descritos.
Combinaciones de los aspectos
Como se ha senalado anteriormente, a partir del beneficio de esta divulgacion, otros aspectos, caractensticas y realizaciones pueden implementar uno o varios de los metodos y sistemas aqm divulgados.
A continuacion se ofrece una breve lista de ejemplos que ilustran situaciones en las que se pueden combinar de varias maneras los diversos aspectos de la divulgacion. Es importante senalar que esta lista no pretende ser completa, sino que son posibles muchas otras combinaciones de los aspectos, las caractensticas y realizaciones de esta divulgacion.
Un ejemplo podna utilizar diversas tecnicas de medicion de genotipificacion de una manera que optimizana el valor de cada una de ellas. Por ejemplo, un laboratorio podna usar en casos con baja senal una tecnica cara pero capaz de proporcionar datos de alta calidad, como por ejemplo el ensayo TaqMan de AppliedBioscience, para medir el ADN diana, y utilizar una tecnica que sea menos costosa pero que requiere una mayor cantidad de material genetico para proporcionar datos de buena calidad, como por ejemplo el Genechip 500K de Affymetrix o MIPS para medir el ADN parental.
Otro ejemplo podna ser la situacion de una pareja que se este sometiendo a un tratamiento de IVF, donde se extraigan ovulos de la mujer y se fertilicen con semen del hombre, produciendo ocho embriones viables. Se extrae un blastocisto de cada embrion, y los datos genomicos de los blastocistos se miden utilizando el ensayo de genotipificacion de TaqMan. Mientras tanto, utilizando sondas de inversion molecular, se miden los datos diploides a partir de tejido extrafdo de ambos progenitores. Tambien se miden utilizando MIP datos haploides procedentes del semen del hombre y de uno de los ovulos de la mujer. Los datos geneticos de los progenitores se utilizan para limpiar los datos SNP de los ocho blastocistos. A continuacion, los datos geneticos limpiados se utilizan para posibilitar predicciones relativas a los fenotipos potenciales de los embriones. Se seleccionan dos embriones que tienen el perfil mas prometedor, y se implantan en el utero de la mujer.
Otro ejemplo podna ser una situacion en la que una mujer embarazada cuyo marido tiene un historial familiar de enfermedad de Tay-Sachs quiere saber si el feto que esta gestando es geneticamente susceptible, pero no desea someterse a amniocentesis, ya que esta entrana un riesgo significativo de aborto. Se le extrae una muestra de sangre, se afsla ADN fetal de su sangre y se analiza dicho ADN utilizando MIP. Tanto ella como su marido ya se habfan sometido previamente al analisis de sus datos genomicos completos, los cuales estan disponibles en el ordenador. El facultativo puede utilizar la informacion sobre los genomas parentales disponible en el ordenador y el metodo aqm divulgado para limpiar los datos de ADN fetal, y comprobar si el gen cntico que es responsable de la enfermedad de Tay-Sachs esta presente en el genoma del feto.
Otro ejemplo podna ser una situacion en la que una mujer embarazada de 44 anos esta preocupara por la posibilidad de que el feto que esta gestando padezca smdrome de Down. Debido a un historial personal de abortos, no quiere utilizar una tecnica intrusiva para el diagnostico prenatal, de modo que opta por someterse a un analisis de sangre. El
5
10
15
20
25
30
35
40
45
50
55
facultativo encuentra celulas fetales en la muestra de sangre materna y, utilizando el metodo aqrn divulgado, junto con el conocimiento de los datos geneticos de la propia mujer, puede diagnosticar la aneuploid^a.
Otro ejemplo podna ser la situacion de una pareja que se este sometiendo a un tratamiento de IVF, donde se extraigan ovulos de la mujer y se fertilicen con semen del hombre, produciendo nueve embriones viables. Se extrae un blastocisto de cada embrion, y los datos genomicos de los blastocistos se miden utilizando un ensayo de nanoperlas de Illumina. Mientras tanto, utilizando sondas de inversion molecular, se miden los datos diploides a partir de tejido extrafdo de ambos progenitores. Los datos haploides del semen del padre se miden utilizando el mismo metodo. No se dispone de ovulos extra de la madre, de modo que se toman muestras de tejido diploide bruto de su padre y de su madre y una muestra de semen de su padre. Se analizan todas las muestras empleando MIP, y se utiliza el metodo aqrn divulgado para proporcionar un analisis genetico del genoma de la madre. A continuacion se utilizan esos datos, junto con los datos diploides y haploides del padre, para posibilitar un analisis altamente preciso de los datos geneticos de cada uno de los blastocistos. Sobre la base de las predicciones fenotfpicas, la pareja selecciona tres embriones para su implantacion.
Otro ejemplo podna ser una situacion en la que un criador de caballos de carreras quiere aumentar las probabilidades de que los potros engendrados por su caballo campeon se conviertan tambien en campeones. Opta por la fecundacion de la yegua deseada mediante IVF y utiliza datos geneticos del semental y de la yegua para limpiar los datos geneticos medidos de los embriones viables. Los datos embrionarios limpios permiten al criador encontrar correlaciones genotipicas-fenotipicas relevantes y seleccionar para la implantacion los embriones con mayores probabilidades de producir un caballo de carreras deseable.
Otro ejemplo podna ser una situacion en la que una mujer embarazada desea saber si el feto que esta gestando esta predispuesto a padecer cualquier enfermedad grave. El padre ya ha fallecido, de modo que se utilizan los datos haploides y diploides generados a partir del hermano y del padre del padre para ayudar a limpiar los datos geneticos del feto, medidos a partir de celulas fetales obtenidas durante la toma de muestras de sangre fetal. Una empresa contratada por el facultativo utiliza los datos geneticos limpios para proporcionar una lista de los fenotipos que es probable que presente el feto, junto con la certeza de cada prediccion.
Otro ejemplo podna ser un laboratorio de amniocentesis que deba trabajar ocasionalmente con datos geneticos fetales contaminados debido a tecnicas de laboratorio deficientes. El metodo divulgado podna utilizarse para limpiar los datos geneticos fetales contaminados, empleando para ello datos geneticos maternos y paternos. Cabe imaginar una situacion en la que un laboratorio sea capaz de reducir costes relajando los procedimientos de esterilidad, desde la certeza de que el metodo divulgado podra compensar un aumento de la tasa de ADN contaminante.
Otro ejemplo podna ser una situacion en la que una mujer en su cuarta decada de vida se esta sometiendo a IVF para quedarse embarazada. Desea cribar los embriones para seleccionar el(los) que tenga(n) menores probabilidades de padecer una enfermedad genetica y mayores probabilidades de implantarse y desarrollarse con exito. La clmica de IVF a la que acude extrae un blastocisto de cada uno de los embriones viables, y utiliza procedimientos estandar para amplificar el DN y medir los SNP clave. A continuacion, el tecnico utiliza los metodos aqrn descritos para detectar desequilibrios cromosomicos, asf como para encontrar y limpiar los datos geneticos de los embriones a fin de hacer predicciones sobre las predisposiciones fenotfpicas de cada embrion.
Otro ejemplo podna ser una situacion en la que una mujer embarazada se somete a amniocentesis, y el material genetico presente en las celulas fetales en la muestra de sangre se utiliza, junto con los metodos aqrn descritos, para detectar aneuploidfas y otras anomalfas cromosomicas.
Definiciones
SNP (Polimorfismo de nucleotido unico): un locus espedfico en un cromosoma que tiende a presentar variacion interindividual.
Determinar un SNP: interrogar la identidad de un par de bases concreto, teniendo en cuenta las evidencias directas e indirectas.
Determinar un alelo: determinar a un SNP.
Limpiar datos geneticos: tomar datos geneticos imperfectos y corregir parte o la totalidad de los errores, utilizando datos geneticos de individuos emparentados y el metodo aqrn descrito.
Datos geneticos imperfectos: datos geneticos que presentan cualquiera de los siguientes defectos: perdidas de alelos, mediciones de pares de bases poco claras, mediciones de pares de bases incorrectas, senales espurias o mediciones ausentes.
Certeza: la probabilidad estadfstica de que el SNP, el alelo o el conjunto de alelos determinado represente correctamente el estado genetico real del individuo.
Multigenico: afectado por multiples genes o alelos.
Datos geneticos ruidosos: datos geneticos incompletos, tambien determinados datos geneticos incompletos.
Datos geneticos no limpiados: datos geneticos tal como son medidos, esto es, sin que se haya utilizado metodo alguno para corregir la presencia de ruido en los datos geneticos brutos; tambien determinados datos geneticos crudos.
Pariente directo: madre, padre, hijo o hija.
Region cromosomica: un segmento de un cromosoma o un cromosoma entero.
5 Parental Support: el nombre en ocasiones utilizado para el metodo divulgado para la limpieza de datos geneticos.
Seccion de un cromosoma: una seccion de un cromosoma cuyo tamano puede abarcar desde un par de bases hasta el cromosoma entero.
10
TABLAS
Resumen de los genes-e vinculados a enfermedad
imagen61
k - - il ij H 0-H. ,
tiimt
imi}'
' Gio&.rtjttK known 0 ons'SHij know n
dr i-Mdisf •
;ecidanofc^ahdir
fMitm
Tabla 1.
imagen62
to corpus j*&K8y <3*............ W3TB
CtpyNa
l&P
t.
prrp^f Torero
.OnpcJntiie
•airpn
parvamuG Ni^SSWtbEvS
aafefi
rptftssa&ro
> zmm
tr,n dnttfti
2.mm
CXrrparreersrD
•(?%}'(
■'/ha(-ynito
(qcr/gtmt'rrorg)
rtiaemro :
Sfyg/nTl-frOyg); ff -0,19 kfrr>
tv^Knx>^r?0g
Tabla 2.
idsnp mmmBmmMW®.
B
101100940
C T T C C T 0.9538 0.8902 0.8626 0.8580 0.8654 0.9101
101164838
T C T C T C 0.9359 0.9521 0.9406 0.9253 0.9957 0.8770
rsl463589
C C T c C C 0.9428 0.9928 0.9841 0.9266 0.8661 0.9798
101028396
C G C G c c 0.9252 0.8792 0.9246 0.9856 0.9819 0.8631
101204217
A G G A G G 0.9799 0.9843 0.9194 0.9478 0.9438 0.9709
101214313
A G G A G A 0.8513 0.9863 0.9521 0.9707 0.8570 0.9639
101231593
G A G G A A 0.9857 0.9653 0.8908 0.9036 0.9431 0.9832
rs 1426442
G 0 C G C G 0.9338 0.9278 0.9469 0.9514 0.8766 0.9017
rs7486852
C C c T T C 0.9566 0.9616 0.9390 0.8673 0.8785 0.8889
101266729
A G A G A G 0.9238 0.9500 0.9026 0.9855 0.8760 0.9381
Tabla 3.
Id Snp'm
PI M nl. u2 j»2 ...pel.... uc2 . mul PPH
101019515
G G G G G G 0.9134 0.8768 0.8666 0.9690 0.8679 0.8599
101100940
C T T C C T 0.9538 0.8902 0.8626 0.8580 0.8654 0.9101
101160854
A A A A A A 0.8705 0.9769 0.8763 0.8870 0.9311 0.9553
. rs4980809
A G G A A G 0.9638 0.9951 0.9582 0.9621 0.9197 0.9199
101058479
G A G A G A 0.9003 0.9885 0.8906 0.9235 0.9787 0.8792
101236938
G G G G G A 0.8528 0.9710 0.8810 0.9249 0.9274 0.9891
rs7137405
T T T T T A 0.9360 0.9918 0.9148 0.9558 0.9135 0.9388
101251161
G G G G G G 0.9802 0.8620 0.9372 0.8501 0.9891 0.8679
101270051
G G G G G A 0.9004 0.9643 0.9778 0.9060 0.9943 0.8962
rs215227
G G G G G A 0.9244 0.9236 0.9629 0.8575 0.9019 0.9362
101245U75
G G G G G G 0.9958 0.8593 0.9129 0.8504 0.8534 0.9866
101158538
A G A G G G 0.9471 0.8909 0.8710 0.9581 0.8961 0.9046
rs2535386
A A A A A A 0.9273 0.9479 0.9867 0.8918 0.9264 0.9750
rs6489653
T T T T T T 0.9453 0.9776 0.9051 0.8547 0.9636 0,9532
10U37205
C G C C G G 0.8619 0.9503 0.9029 0.9426 0.8845 0.9282
101089311
T C c C C T 0.8844 0.9381 0.9719 0.8636 0.9186 0.9652
101205712
A A A A A A 0,8513 0.9226 0.8755 0.8999 0.9193 0.8535
101124605
G G G G G G 0.8981 0.9093 0.9075 0.8676 0.8931 0.9258
101025989
G T T G G T 0.9695 0.9016 0.8722 0.8821 0.9787 0.9273
rs4766370
T A A T T A 0,8886 0.9166 0.8762 0.8767 0.9890 0.8536
5 Tabla 4.
IdSnp
Valor real Hip. real im 1 SondaSnip SondaHip
101100940
CT p2 m2 CT TC CT 0.8416 0.5206
101164838
CT p2 ml TC TC TC 0.9061 0.5206
rs!463589
cc p2 ml CC TC CC 0.9946 0.5206
101028396
GC p2 ml CG CG CC 0.9791 0.5206
101204217
AG p2 m2 AG GA GG 0.9577 0.5206
101214313
GA pi m2 AG GA GA 0.9308 0.5206
101231593
GA pi m2 GA GG AA 1.0000 0.5206
rs1426442
CG pi m2 GC CG CG 0.9198 0.5206
rs7486852
CC pi m2 CC CT TC 0.9138 0.5206
101266729
AG pi m2 AG AG AG 0.9296 0.5206
Tabla 5.
Id Snp
Valor real Hip.real SondaSnip SondaHip
101019515
GG pi ml GG GG GG 1.0000 0.9890
101100940
TC pi ml CT TC CT 0.9946 0.9890
101160854
AA pi ml AA AA AA 1.0000 0.9890
rs4980809
GA pi ml AG GA AG 0.9961 0.9890
101058479
GG pi ml GA GA GA 0.9957 0.9890
101236938
GG pi ml GG GG GA 1.0000 0.9890
rs7137405
XT pi ml TT TT TA 1.0000 0.9890
101251161
GG pi ml GG GG GG 1.0000 0.9890
101270051
GG pi ml GG GG GA 1.0000 0.9890
13215227
GG pi ml GG GG GA 1.0000 0.9890
101245075
GG pi ml GG GG GG 1.0000 0.9890
101158538
AG pi ml AG AG GG 0.9977 0.9890
rs2535386
AA pi ml AA AA AA 1.0000 0.9890
rs6489653
TT pi ml TT TT TT 1.0000 0.9890
101137205
CG pi ml CG CC GG 1.0000 0.9890
101089311
CC pi ml TC CC CT 0.9940 0.9890
101205712
AA pi ml AA AA AA 1.0000 0.9890
101124605
GG pi ml GG GG GG 1.0000 0.9890
101025989
TG pi ml GT TG GT 0.9973 0.9890
rs4766370
AT pi ml TA AT TA 0.9973 0.9890
Tabla 6.
DHAIgoritmo1 DHAIgoritmo2
Free. Pob
ph pd P1exactitud P2exactitud P1exactitud P2exactitud
datos
0,95 0,95 0, 0,951 0,95 0,906
datos
0,75 0,75 0,891 0,811 0,749 0,618
datos
0,25 0,25 0,71 0,71 0,253 0,25
datos
0,5 0,9 0,849 0,838 0,499 0,768
datos
0,9 0,5 0,942 0,734 0,898 0,347
datos
0,6 0,8 0,852 0,816 0,601 0,673
uniforme
0,95 0,95 0,95 0,906 0,949 0,905
uniforme
0,75 0,75 0,749 0,612 0,749 0,612
uniforme
0,25 0,25 0,25 0,248 0,25 0,25
uniforme
0,5 0,9 0,69 0,669 0,501 0,671
uniforme
0,9 0,5 0,901 0,412 0,901 0,413
uniforme
0,6 0,8 0,678 0,618 0,6 0,618
Tabla 7.
PSAlgoritmo1 PSAlgoritmo2
Frec. Pob
ph pd pe P1exactitud P2exactitud P1exactitud P2exactitud
datos
0,95 0,95 0,95 0,834 0,815 0,928 0,931
datos
0,75 0,75 0,75 0,797 0,769 0,819 0,819
datos
0,25 0,25 0,25 0,711 0,682 0,703 0,687
datos
0,5 0,9 0,9 0,849 0,838 0,866 0,864
datos
0,9 0,5 0,5 0,792 0,809 0,756 0,752
datos
0,6 0,8 0,8 0,777 0,788 0,835 0,828
uniforme
0,95 0,95 0,95 0,673 0,631 0,898 0,901
uniforme
0,75 0,75 0,75 0,549 0,497 0,635 0,65
uniforme
0,25 0,25 0,25 0,239 0,249 0,252 0,25
uniforme
0,5 0,9 0,9 0,601 0,611 0,814 0,818
uniforme
0,9 0,5 0,5 0,459 0,391 0,449 0.468
uniforme
0,6 0,8 0,8 0,544 0,511 0,672 0,679
Tabla 8.
imagen63
5
Tabla 9.
x x< k
... .1 J
1
m ..W..:-
Ml.....S,
* J T ’TF,.
m .....
10

Claims (6)

  1. 5
    10
    15
    20
    25
    30
    35
    REIVINDICACIONES
    1. Un metodo ex vivo en el que la medicion de multiples loci de SNP en un segmento determinado de un cromosoma determinado de un feto humano se utiliza para determinar el numero de veces que el segmento en cuestion esta presente en el genoma del feto; dicho metodo comprende:
    (i) crear un conjunto de una o varias hipotesis acerca del numero de veces que el segmento en cuestion esta presente en el genoma del feto,
    (ii) medir la cantidad de material genetico para algunos o todos los posibles alelos en una pluralidad de loci de SNP en el segmento en cuestion, utilizando instrumentos y tecnicas tomados del grupo formado por las sondas de inversion molecular (MIP), los microarrays de genotipificacion, el ensayo de genotipificacion SNP Taqman, la PCR cuantitativa, el sistema de genotipificacion Illumina, otros ensayos de genotipificacion, la hibridacion fluorescente in situ (FISH) y combinaciones de estas,
    (iii) determinar las probabilidades relativas de cada una de las hipotesis considerando las mediciones del material genetico fetal, donde la determinacion de las probabilidades relativas de cada hipotesis se lleva a cabo utilizando tecnicas cuantitativas que no hacen determinaciones de alelos y donde la desviacion media y estandar para la medicion de cada locus es conocida, desconocida o uniforme, y
    (iv) utilizar las probabilidades relativas asociadas a cada hipotesis para determinar el estado mas probable del material genetico real del feto,
    donde la determinacion del numero de veces que el segmento de cromosoma en cuestion esta presente en el genoma del feto sirve para detectar una anomalfa cromosomica, la cual se selecciona de una lista que comprende monosoirna, disoirna uniparental, trisoirna, otras aneuploidfas, translocacion no balanceada y combinaciones de estas.
  2. 2. El metodo de la reivindicacion 1, donde la determinacion de las probabilidades relativas de cada una de las hipotesis se lleva a cabo utilizando alelos conocidos de secuencias de referencia y mediciones de alelos cuantitativas.
  3. 3. El metodo de la reivindicacion 1, que comprende ademas la amplificacion del material genetico fetal utilizando instrumentos y/o tecnicas tomados del grupo formado por la reaccion en cadena de la polimerasa (PCR), la PCR mediada por ligando, PCR con cebadores de oligonucleotidos degenerados, amplificacion por desplazamiento multiple, amplificacion espedfica de alelos y combinaciones de estas.
  4. 4. El metodo de la reivindicacion 1, donde el material genetico fetal se mide analizando sustancias tomadas del grupo formado por tejido diploide en bruto del individuo diana, una o varias celulas diploides tomadas del individuo diana, uno o varios blastocistos extrafdos del individuo diana, material genetico extracelular encontrado en el individuo diana, material genetico extracelular del individuo diana encontrado en la sangre materna, celulas del individuo diana encontradas en la sangre materna, material genetico que se sabe que se ha originado en el individuo diana y combinaciones de estas.
  5. 5. El metodo de la reivindicacion 1, donde la determinacion del numero de veces que el segmento del cromosoma en cuestion esta presente en el genoma del feto se utiliza para el diagnostico genetico prenatal.
  6. 6. Un sistema implementado por ordenador, configurado para aplicar el metodo de la reivindicacion 1.
ES11175867.8T 2005-11-26 2006-11-22 Método y sistema para detectar anormalidades cromosómicas Active ES2634665T3 (es)

Applications Claiming Priority (16)

Application Number Priority Date Filing Date Title
US73988205P 2005-11-26 2005-11-26
US739882P 2005-11-26
US74230505P 2005-12-06 2005-12-06
US742305P 2005-12-06
US75439605P 2005-12-29 2005-12-29
US754396P 2005-12-29
US77497606P 2006-02-21 2006-02-21
US774976P 2006-02-21
US78950606P 2006-04-04 2006-04-04
US789506P 2006-04-04
US81774106P 2006-06-30 2006-06-30
US817741P 2006-06-30
US11/496,982 US20070027636A1 (en) 2005-07-29 2006-07-31 System and method for using genetic, phentoypic and clinical data to make predictions for clinical or lifestyle decisions
US496982 2006-07-31
US84661006P 2006-09-22 2006-09-22
US846610P 2006-09-22

Publications (1)

Publication Number Publication Date
ES2634665T3 true ES2634665T3 (es) 2017-09-28

Family

ID=38067926

Family Applications (1)

Application Number Title Priority Date Filing Date
ES11175867.8T Active ES2634665T3 (es) 2005-11-26 2006-11-22 Método y sistema para detectar anormalidades cromosómicas

Country Status (8)

Country Link
EP (5) EP3373175B1 (es)
JP (4) JP6121642B2 (es)
CN (1) CN101346724B (es)
AU (1) AU2006318425B2 (es)
CA (1) CA2632230C (es)
ES (1) ES2634665T3 (es)
HK (1) HK1224053A1 (es)
WO (1) WO2007062164A2 (es)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2025093197A1 (en) * 2023-10-31 2025-05-08 Københavns Universitet Electronic device for pregnancy loss classification and related methods

Families Citing this family (100)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8024128B2 (en) 2004-09-07 2011-09-20 Gene Security Network, Inc. System and method for improving clinical decisions by aggregating, validating and analysing genetic and phenotypic data
US8532930B2 (en) 2005-11-26 2013-09-10 Natera, Inc. Method for determining the number of copies of a chromosome in the genome of a target individual using genetic data from genetically related individuals
US10081839B2 (en) 2005-07-29 2018-09-25 Natera, Inc System and method for cleaning noisy genetic data and determining chromosome copy number
US10083273B2 (en) 2005-07-29 2018-09-25 Natera, Inc. System and method for cleaning noisy genetic data and determining chromosome copy number
US11111543B2 (en) 2005-07-29 2021-09-07 Natera, Inc. System and method for cleaning noisy genetic data and determining chromosome copy number
US8515679B2 (en) 2005-12-06 2013-08-20 Natera, Inc. System and method for cleaning noisy genetic data and determining chromosome copy number
US9424392B2 (en) 2005-11-26 2016-08-23 Natera, Inc. System and method for cleaning noisy genetic data from target individuals using genetic data from genetically related individuals
US11111544B2 (en) 2005-07-29 2021-09-07 Natera, Inc. System and method for cleaning noisy genetic data and determining chromosome copy number
GB0523276D0 (en) 2005-11-15 2005-12-21 London Bridge Fertility Chromosomal analysis by molecular karyotyping
WO2008115497A2 (en) * 2007-03-16 2008-09-25 Gene Security Network System and method for cleaning noisy genetic data and determining chromsome copy number
AU2008258272A1 (en) 2007-06-07 2008-12-11 Simons Haplomics Limited In situ methods for gene mapping and haplotyping
CN106834481A (zh) 2007-07-23 2017-06-13 香港中文大学 用于分析遗传变异的方法
US9864835B2 (en) * 2007-10-15 2018-01-09 23Andme, Inc. Genetic comparisons between grandparents and grandchildren
EP2321642B1 (en) 2008-08-04 2017-01-11 Natera, Inc. Methods for allele calling and ploidy calling
US12129514B2 (en) 2009-04-30 2024-10-29 Molecular Loop Biosolutions, Llc Methods and compositions for evaluating genetic markers
WO2010126614A2 (en) 2009-04-30 2010-11-04 Good Start Genetics, Inc. Methods and compositions for evaluating genetic markers
EP2854056A3 (en) 2009-09-30 2015-06-03 Natera, Inc. Methods for non-invasive pre-natal ploidy calling
US11322224B2 (en) 2010-05-18 2022-05-03 Natera, Inc. Methods for non-invasive prenatal ploidy calling
US11332793B2 (en) 2010-05-18 2022-05-17 Natera, Inc. Methods for simultaneous amplification of target loci
US11408031B2 (en) 2010-05-18 2022-08-09 Natera, Inc. Methods for non-invasive prenatal paternity testing
AU2011255641A1 (en) 2010-05-18 2012-12-06 Natera, Inc. Methods for non-invasive prenatal ploidy calling
US11339429B2 (en) 2010-05-18 2022-05-24 Natera, Inc. Methods for non-invasive prenatal ploidy calling
US11326208B2 (en) 2010-05-18 2022-05-10 Natera, Inc. Methods for nested PCR amplification of cell-free DNA
US20190010543A1 (en) 2010-05-18 2019-01-10 Natera, Inc. Methods for simultaneous amplification of target loci
US11332785B2 (en) 2010-05-18 2022-05-17 Natera, Inc. Methods for non-invasive prenatal ploidy calling
US12152275B2 (en) 2010-05-18 2024-11-26 Natera, Inc. Methods for non-invasive prenatal ploidy calling
US10316362B2 (en) 2010-05-18 2019-06-11 Natera, Inc. Methods for simultaneous amplification of target loci
US9677118B2 (en) 2014-04-21 2017-06-13 Natera, Inc. Methods for simultaneous amplification of target loci
US11939634B2 (en) 2010-05-18 2024-03-26 Natera, Inc. Methods for simultaneous amplification of target loci
US12221653B2 (en) 2010-05-18 2025-02-11 Natera, Inc. Methods for simultaneous amplification of target loci
CN101894216B (zh) * 2010-07-16 2012-09-05 西安电子科技大学 从snp数据中发现与复杂疾病相关snp组的方法
US20120034603A1 (en) * 2010-08-06 2012-02-09 Tandem Diagnostics, Inc. Ligation-based detection of genetic variants
WO2012088456A2 (en) 2010-12-22 2012-06-28 Natera, Inc. Methods for non-invasive prenatal paternity testing
US9163281B2 (en) 2010-12-23 2015-10-20 Good Start Genetics, Inc. Methods for maintaining the integrity and identification of a nucleic acid template in a multiplex sequencing reaction
JP6153874B2 (ja) 2011-02-09 2017-06-28 ナテラ, インコーポレイテッド 非侵襲的出生前倍数性呼び出しのための方法
US8812943B2 (en) * 2011-09-23 2014-08-19 Fujitsu Limited Detecting data corruption in medical binary decision diagrams using hashing techniques
WO2013058907A1 (en) 2011-10-17 2013-04-25 Good Start Genetics, Inc. Analysis methods
US8209130B1 (en) 2012-04-04 2012-06-26 Good Start Genetics, Inc. Sequence assembly
US8812422B2 (en) 2012-04-09 2014-08-19 Good Start Genetics, Inc. Variant database
US10227635B2 (en) 2012-04-16 2019-03-12 Molecular Loop Biosolutions, Llc Capture reactions
EP2875149B1 (en) * 2012-07-20 2019-12-04 Verinata Health, Inc. Detecting and classifying copy number variation in a cancer genome
US20140100126A1 (en) 2012-08-17 2014-04-10 Natera, Inc. Method for Non-Invasive Prenatal Testing Using Parental Mosaicism Data
EP2890985B1 (en) * 2012-08-31 2019-11-20 Koninklijke Philips N.V. White blood cell monitoring during treatment cycles
EP2923292B1 (en) * 2012-11-26 2022-04-13 Koninklijke Philips N.V. Diagnostic genetic analysis using variant-disease association with patient-specific relevance assessment
US8778609B1 (en) 2013-03-14 2014-07-15 Good Start Genetics, Inc. Methods for analyzing nucleic acids
IL300163B2 (en) * 2013-05-24 2024-06-01 Sequenom Inc Methods and processes for non-invasive assessment of genetic variations
WO2014197377A2 (en) 2013-06-03 2014-12-11 Good Start Genetics, Inc. Methods and systems for storing sequence read data
US10262755B2 (en) 2014-04-21 2019-04-16 Natera, Inc. Detecting cancer mutations and aneuploidy in chromosomal segments
US9499870B2 (en) 2013-09-27 2016-11-22 Natera, Inc. Cell free DNA diagnostic testing standards
US10577655B2 (en) 2013-09-27 2020-03-03 Natera, Inc. Cell free DNA diagnostic testing standards
US11041203B2 (en) 2013-10-18 2021-06-22 Molecular Loop Biosolutions, Inc. Methods for assessing a genomic region of a subject
US10851414B2 (en) 2013-10-18 2020-12-01 Good Start Genetics, Inc. Methods for determining carrier status
US12492429B2 (en) 2014-04-21 2025-12-09 Natera, Inc. Detecting mutations and ploidy in chromosomal segments
JP6659575B2 (ja) 2014-04-21 2020-03-04 ナテラ, インコーポレイテッド 変異の検出および染色体分節の倍数性
WO2015175530A1 (en) 2014-05-12 2015-11-19 Gore Athurva Methods for detecting aneuploidy
US20180173846A1 (en) 2014-06-05 2018-06-21 Natera, Inc. Systems and Methods for Detection of Aneuploidy
WO2016025818A1 (en) 2014-08-15 2016-02-18 Good Start Genetics, Inc. Systems and methods for genetic analysis
WO2016040446A1 (en) 2014-09-10 2016-03-17 Good Start Genetics, Inc. Methods for selectively suppressing non-target sequences
JP2017536087A (ja) 2014-09-24 2017-12-07 グッド スタート ジェネティクス, インコーポレイテッド 遺伝子アッセイのロバストネスを増大させるためのプロセス制御
EP4095261B1 (en) 2015-01-06 2025-05-28 Molecular Loop Biosciences, Inc. Screening for structural variants
US20160292188A1 (en) * 2015-03-30 2016-10-06 Uop Llc Data cleansing system and method for inferring a feed composition
US9864823B2 (en) 2015-03-30 2018-01-09 Uop Llc Cleansing system for a feed composition based on environmental factors
DK3294906T3 (en) 2015-05-11 2024-08-05 Natera Inc Methods for determining ploidy
CN107922936B (zh) * 2015-05-28 2021-10-22 施特丁.奈德兰卡克研究所-安东尼.范.列文虎克医院 识别影响表型的遗传元件的分析
JP6570929B2 (ja) * 2015-09-08 2019-09-04 国立研究開発法人農業・食品産業技術総合研究機構 特性推定モデル生成装置および方法、解析対象の特性推定装置および方法
EP3375886A4 (en) * 2015-11-10 2018-09-19 Fujifilm Corporation Method for determining whether cells or cell masses are originated from same person, or unrelated persons, or parent and child, or related persons
CN109477138A (zh) 2016-04-15 2019-03-15 纳特拉公司 肺癌检测方法
WO2018067517A1 (en) 2016-10-04 2018-04-12 Natera, Inc. Methods for characterizing copy number variation using proximity-litigation sequencing
GB201618485D0 (en) 2016-11-02 2016-12-14 Ucl Business Plc Method of detecting tumour recurrence
US10011870B2 (en) 2016-12-07 2018-07-03 Natera, Inc. Compositions and methods for identifying nucleic acid molecules
JP2020506477A (ja) * 2017-01-27 2020-02-27 オリジェン, インコーポレイテッド 個人遺伝子のプロフィールに基づいて購入勧告を決定して、提示するためのシステム及び方法
US10894976B2 (en) 2017-02-21 2021-01-19 Natera, Inc. Compositions, methods, and kits for isolating nucleic acids
CN107145712B (zh) * 2017-04-06 2021-01-01 广州慧扬健康科技有限公司 合并症与并发症的病历统计分析系统
SG11201911538YA (en) * 2017-06-20 2020-01-30 Illumina Inc Methods and systems for decomposition and quantification of dna mixtures from multiple contributors of known or unknown genotypes
KR102543270B1 (ko) * 2017-06-20 2023-06-13 일루미나, 인코포레이티드 미지의 유전자형의 기여자로부터의 dna 혼합물의 정확한 컴퓨팅 분해를 위한 방법
JP2021508488A (ja) * 2017-10-03 2021-03-11 アトラス バイオムド グループ リミティッド データの解釈、ならびにユーザの遺伝的データ及び腸内マイクロバイオータの組成に関するデータに基づいてユーザに推奨事項を提供するシステム及び方法
US10426424B2 (en) 2017-11-21 2019-10-01 General Electric Company System and method for generating and performing imaging protocol simulations
US12084720B2 (en) 2017-12-14 2024-09-10 Natera, Inc. Assessing graft suitability for transplantation
RU2699517C2 (ru) * 2018-02-15 2019-09-05 Атлас Биомед Груп Лимитед Способ оценки риска заболевания у пользователя на основании генетических данных и данных о составе микробиоты кишечника
US20190287644A1 (en) * 2018-02-15 2019-09-19 Northeastern University Correlation Method To Identify Relevant Genes For Personalized Treatment Of Complex Disease
WO2019161244A1 (en) 2018-02-15 2019-08-22 Natera, Inc. Methods for isolating nucleic acids with size selection
EP3543940A1 (de) * 2018-03-23 2019-09-25 Siemens Aktiengesellschaft Computerimplementiertes verfahren zum bereitstellen von daten, insbesondere für eine konformitätsverfolgung
CN112236535A (zh) 2018-04-14 2021-01-15 纳特拉公司 用于借助于循环肿瘤dna的个人化检测的癌症检测和监测的方法
CN110400597A (zh) * 2018-04-23 2019-11-01 成都二十三魔方生物科技有限公司 一种基于深度学习的基因型预测方法
CN108595911A (zh) * 2018-05-03 2018-09-28 中国人民解放军军事科学院军事医学研究院 早期胚胎稳定H3K4me3区域的识别方法与应用
US12234509B2 (en) 2018-07-03 2025-02-25 Natera, Inc. Methods for detection of donor-derived cell-free DNA
CN108920893B (zh) * 2018-09-06 2019-04-16 南京医科大学 一种基于人工智能的颅颌面骨骼和软组织形态预测方法
US10468141B1 (en) * 2018-11-28 2019-11-05 Asia Genomics Pte. Ltd. Ancestry-specific genetic risk scores
EP3980559A1 (en) 2019-06-06 2022-04-13 Natera, Inc. Methods for detecting immune cell dna and monitoring immune system
CN110444251B (zh) * 2019-07-23 2023-09-22 中国石油大学(华东) 基于分支定界的单体型格局生成方法
CN111192633A (zh) * 2020-01-07 2020-05-22 深圳市早知道科技有限公司 一种预测地中海贫血病表型的方法及终端设备
CN111584011B (zh) * 2020-04-10 2023-08-29 中国科学院计算技术研究所 面向基因比对的细粒度并行负载特征抽取分析方法及系统
CN111476497B (zh) * 2020-04-15 2023-06-16 浙江天泓波控电子科技有限公司 一种用于小型化平台的分配馈电网络方法
CN113095538B (zh) * 2020-06-08 2024-03-19 华北电力大学 面向灵活性运行的热电联产机组宽负荷运行动态特性建模方法
CN113284618B (zh) * 2021-04-14 2022-07-22 北京育学园健康管理中心有限公司 婴幼儿健康评估方法
AU2022289837A1 (en) 2021-06-10 2023-08-24 Alife Health Inc. Machine learning for optimizing ovarian stimulation
EP4534685A4 (en) * 2022-05-26 2025-08-06 Bgi Shenzhen METHOD FOR DETECTING FETAL GENOTYPE FROM A HAPLOTYPE
CN115064210B (zh) * 2022-07-27 2022-11-18 北京大学第三医院(北京大学第三临床医学院) 一种鉴定二倍体胚胎细胞中染色体交叉互换位置的方法及应用
CN115268269B (zh) * 2022-07-29 2023-06-02 无锡市低碳研究院有限公司 一种基于新能源低碳的家居耗能优化系统及方法
CN115929285A (zh) * 2022-11-11 2023-04-07 西南石油大学 一种基于拉格朗日支持向量机算法的地温梯度预测方法

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9305984D0 (en) 1993-03-23 1993-05-12 Royal Free Hosp School Med Predictive assay
US6025128A (en) 1994-09-29 2000-02-15 The University Of Tulsa Prediction of prostate cancer progression by analysis of selected predictive parameters
US6720140B1 (en) 1995-06-07 2004-04-13 Invitrogen Corporation Recombinational cloning using engineered recombination sites
US5824467A (en) 1997-02-25 1998-10-20 Celtrix Pharmaceuticals Methods for predicting drug response
US5994148A (en) 1997-06-23 1999-11-30 The Regents Of University Of California Method of predicting and enhancing success of IVF/ET pregnancy
US7058517B1 (en) 1999-06-25 2006-06-06 Genaissance Pharmaceuticals, Inc. Methods for obtaining and using haplotype data
US7058616B1 (en) 2000-06-08 2006-06-06 Virco Bvba Method and system for predicting resistance of a disease to a therapeutic agent using a neural network
GB0016742D0 (en) * 2000-07-10 2000-08-30 Simeg Limited Diagnostic method
US6489135B1 (en) 2001-04-17 2002-12-03 Atairgintechnologies, Inc. Determination of biological characteristics of embryos fertilized in vitro by assaying for bioactive lipids in culture media
FR2824144B1 (fr) * 2001-04-30 2004-09-17 Metagenex S A R L Methode de diagnostic prenatal sur cellule foetale isolee du sang maternel
US6958211B2 (en) 2001-08-08 2005-10-25 Tibotech Bvba Methods of assessing HIV integrase inhibitor therapy
US6807491B2 (en) * 2001-08-30 2004-10-19 Hewlett-Packard Development Company, L.P. Method and apparatus for combining gene predictions using bayesian networks
EP1442139A4 (en) * 2001-10-12 2005-01-26 Univ Queensland SELECTION AND AMPLIFICATION OF MULTIPLE GENETIC MARKERS
WO2003062441A1 (en) * 2002-01-18 2003-07-31 Genzyme Corporation Methods for fetal dna detection and allele quantitation
CA2474982A1 (en) 2002-02-01 2003-08-07 Rosetta Inpharmatics Llc Computer systems and methods for identifying genes and determining pathways associated with traits
US6977162B2 (en) * 2002-03-01 2005-12-20 Ravgen, Inc. Rapid analysis of variations in a genome
CA2477611A1 (en) * 2002-03-01 2003-09-12 Ravgen, Inc. Rapid analysis of variations in a genome
CA2484360A1 (en) 2002-05-02 2003-11-13 The University Of North Carolina At Chapel Hill In vitro mutagenesis, phenotyping, and gene mapping
US20040122708A1 (en) * 2002-12-18 2004-06-24 Avinash Gopal B. Medical data analysis method and apparatus incorporating in vitro test data
WO2005035725A2 (en) * 2003-10-08 2005-04-21 The Trustees Of Boston University Methods for prenatal diagnosis of chromosomal abnormalities
DE60328193D1 (de) * 2003-10-16 2009-08-13 Sequenom Inc Nicht invasiver Nachweis fötaler genetischer Merkmale
US20050221341A1 (en) * 2003-10-22 2005-10-06 Shimkets Richard A Sequence-based karyotyping
JP4437050B2 (ja) * 2004-03-26 2010-03-24 株式会社日立製作所 診断支援システム、診断支援方法および診断支援サービスの提供方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2025093197A1 (en) * 2023-10-31 2025-05-08 Københavns Universitet Electronic device for pregnancy loss classification and related methods

Also Published As

Publication number Publication date
EP3599609A1 (en) 2020-01-29
AU2006318425B2 (en) 2013-05-02
CA2632230A1 (en) 2007-05-31
AU2006318425A1 (en) 2007-05-31
EP3373175B1 (en) 2025-05-28
CN101346724B (zh) 2018-05-08
EP2437191A2 (en) 2012-04-04
EP3012760A1 (en) 2016-04-27
JP6121642B2 (ja) 2017-04-26
EP2437191B1 (en) 2017-04-26
CN101346724A (zh) 2009-01-14
HK1224053A1 (en) 2017-08-11
JP2015096080A (ja) 2015-05-21
EP1960929A4 (en) 2009-01-28
EP1960929A2 (en) 2008-08-27
JP6430998B2 (ja) 2018-11-28
WO2007062164A2 (en) 2007-05-31
WO2007062164A3 (en) 2007-11-29
JP2016184429A (ja) 2016-10-20
JP2009517050A (ja) 2009-04-30
CA2632230C (en) 2019-05-07
EP3373175A1 (en) 2018-09-12
AU2006318425A2 (en) 2008-08-21
JP2013150622A (ja) 2013-08-08
EP2437191A3 (en) 2015-02-18

Similar Documents

Publication Publication Date Title
ES2634665T3 (es) Método y sistema para detectar anormalidades cromosómicas
US10597724B2 (en) System and method for cleaning noisy genetic data from target individuals using genetic data from genetically related individuals
US8682592B2 (en) System and method for cleaning noisy genetic data from target individuals using genetic data from genetically related individuals
JP7009516B2 (ja) 未知の遺伝子型の寄与体からのdna混合物の正確な計算による分解のための方法
KR20200010464A (ko) 기지 또는 미지의 유전자형의 다수의 기여자로부터 dna 혼합물을 분해 및 정량하기 위한 방법 및 시스템
US20220399077A1 (en) Genotyping polyploid loci
AU2016201386A1 (en) System and Method for Cleaning Noisy Genetic Data and Using Data to Make Predictions
Xue et al. Germline de novo mutation rate of the highly heterozygous amphioxus genome
HK1125195B (en) System and method for cleaning noisy genetic data and using data to make predictions