[go: up one dir, main page]

ES2991797T3 - Procedimiento, sistema y producto de programa informático para determinar las probabilidades de presentación de neoantígenos - Google Patents

Procedimiento, sistema y producto de programa informático para determinar las probabilidades de presentación de neoantígenos Download PDF

Info

Publication number
ES2991797T3
ES2991797T3 ES21742134T ES21742134T ES2991797T3 ES 2991797 T3 ES2991797 T3 ES 2991797T3 ES 21742134 T ES21742134 T ES 21742134T ES 21742134 T ES21742134 T ES 21742134T ES 2991797 T3 ES2991797 T3 ES 2991797T3
Authority
ES
Spain
Prior art keywords
input
training
sequence
output
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES21742134T
Other languages
English (en)
Inventor
Bruno Fant
Cedric Bogaert
Mill Nil Adell
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Myneo NV
Original Assignee
Myneo NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Myneo NV filed Critical Myneo NV
Application granted granted Critical
Publication of ES2991797T3 publication Critical patent/ES2991797T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Peptides Or Proteins (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

La invención se refiere a un método implementado por ordenador, un sistema informático y un producto de programa informático para determinar las probabilidades de presentación de neoantígenos. Además, la invención se refiere a un uso del método, el sistema y/o el producto de programa informático para determinar un tratamiento para el sujeto. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN
Procedimiento, sistema y producto de programa informático para determinar las probabilidades de presentación de neoantígenos
Campo de la invención
La invención se refiere a un procedimiento implementado por ordenador, un sistema informático y un producto de programa informático para determinar las probabilidades de presentación de neoantígenos.
Estado de la técnica
Además de los epítopos normales, es probable que las superficies de las células cancerosas presenten neoantígenos, derivados de eventos genómicos aberrantes, y reconocibles por las células T.
Los neoantígenos son antígenos recién formados que no han sido reconocidos previamente por el sistema inmunitario. En los últimos años, atacar estos neoantígenos ha demostrado ser una vía muy prometedora de medicina personalizada.
Los nuevos avances tecnológicos han permitido una mayor disponibilidad de listas de péptidos derivados de la espectrometría de masas que en realidad están unidos a moléculas del complejo principal de histocompatibilidad (MHC) en la superficie celular. Estas listas se llaman "ligandomas". Los procedimientos de detección de neoantígenos del estado de la técnica actual comienzan generando una lista de todos los neoantígenos potenciales producidos por las células cancerosas y se basan en algoritmos de predicción in silico para extraer los epítopos que tienen más probabilidades de estar presentes en la superficie de estas células, lo que provoca potencialmente una reacción inmunitaria.
El documento WO 2017 106638 describe un procedimiento para identificar uno o más neoantígenos de una célula tumoral en un sujeto que es probable que se presenten en la superficie de la célula tumoral. Además, el documento describe sistemas y procedimientos para obtener datos de secuenciación de alta calidad de un tumor y para identificar cambios somáticos en los datos del genoma polimórficos. Finalmente, el documento WO '638 describe vacunas únicas contra el cáncer.
El documento US 2019 0311 781 describe un procedimiento para identificar péptidos que contienen características asociadas con el procesamiento celular, el transporte y la presentación de MHC satisfactorios, mediante el uso de un algoritmo de aprendizaje automático o un modelo de inferencia estadística.
El documento US 2018 0085 447 describe un procedimiento para identificar péptidos mutantes inmunógenos que tienen utilidad terapéutica como vacunas contra el cáncer. Más específicamente, un procedimiento para identificar neoepítopos activadores de las células T de todas las proteínas alteradas genéticamente. Estas proteínas mutadas contribuyen a los neoepítopos después de degradarse mediante proteólisis dentro de las células presentadoras de antígenos.
El documento EP 3256853 describe un procedimiento para predecir epítopos de células T útiles para la vacunación. En particular, el documento se refiere a procedimientos para predecir si las modificaciones en péptidos o polipéptidos tales como los neoantígenos asociados a tumores son inmunógenas y, en particular, útiles para la vacunación, o para predecir cuáles de dichas modificaciones son más inmunógenas y, en particular, más útiles para la vacunación.
El documento US 2020/105377 A1 divulga procedimientos para identificar neoantígenos de un tumor en un sujeto que es probable que se presenten en la superficie celular del tumor y/o es probable que sean inmunógenos. En un ejemplo, el procedimiento comprende las etapas de: obtener por lo menos uno de los datos de secuenciación de nucleótidos tumorales del exoma, transcriptoma o genoma completo a partir de la célula tumoral del sujeto, en el que los datos de secuenciación de nucleótidos tumorales se utilizan para obtener datos que representan las secuencias de péptidos de cada uno de un conjunto de neoantígenos, y en el que la secuencia peptídica de cada neoantígeno comprende por lo menos una alteración que la hace distinta de la secuencia peptídica parentales de tipo silvestre correspondiente; introducir la secuencia peptídica de cada neoantígeno en uno o más modelos de presentación para generar un conjunto de las probabilidades numéricas de que cada uno de los neoantígenos sea presentado por uno o más alelos MHC en la superficie de la célula tumoral de la célula tumoral del sujeto o células presentes en el tumor, habiéndose identificado el conjunto de probabilidades numéricas por lo menos a partir de los datos de espectrometría de masas recibidos; y seleccionar un subconjunto del conjunto de neoantígenos basado en el conjunto de probabilidades numéricas para generar un conjunto de neoantígenos seleccionados.
Hay otras herramientas y planteamientos disponibles que abordan el mismo problema, tales como NetMHCpan o MHCflurry. Estos planteamientos utilizan procedimientos que predicen la afinidad de unión de un péptido a un alelo del HLA determinado. Otros planteamientos, tal como EDGE o MARIA, también generan probabilidades de presentación basadas en el aprendizaje, pero no tienen en cuenta la secuencia del HLA y codifican el tipo de HLA como una variable categórica.
Además, los procedimientos de predicción inicial utilizan la afinidad de unión de los neoantígenos candidatos al MHC como indicador de la probabilidad de presencia en la superficie celular. Sin embargo, estos planteamientos no logran modelar la totalidad del proceso de presentación de la superficie celular y, por lo tanto, adolecen de valores predictivos positivos bajos. Además, estos planteamientos no pueden predecir las probabilidades de presentación de neoepítopos para las moléculas HLA que no están incluidas en el entrenamiento del modelo.
La invención pretende aportar una solución a por lo menos algunos de los inconvenientes comentados anteriormente, así como mejoras respecto a las técnicas del estado de la técnica.
Compendio de la invención
En un primer aspecto, la invención se refiere a un procedimiento implementado por ordenador para determinar las probabilidades de presentación de un conjunto de neoantígenos por una célula tumoral de un tumor en un sujeto<según la reivindicación>1<.>
En un segundo aspecto, la invención se refiere a un sistema informático para determinar las probabilidades de presentación de un conjunto de neoantígenos por una célula tumoral de un tumor en un sujeto según la reivindicación 12.
En un tercer aspecto, la invención se refiere a un producto de programa informático para determinar las probabilidades de presentación de un conjunto de neoantígenos por una célula tumoral de un tumor en un sujeto según la reivindicación 13.
En cuarto aspecto la invención se refiere a un uso para determinar un tratamiento para el sujeto según la reivindicación 14.
El objeto de la invención es predecir las probabilidades de presentación en la superficie de una célula cancerosa de un neoepítopo de longitud variable dado un conjunto de alelos del HLA expresados por dicha célula. Con este fin se utiliza un modelo de aprendizaje profundo.
La invención es ventajosa ya que se pueden predecir las probabilidades de presentación de neoepítopos para cualquier alelo del HLA incluso si el modelo no se ha entrenado en el alelo del HLA.
Las realizaciones preferidas de la invención se analizan en las reivindicaciones 2 a 12, así como a lo largo de la descripción y los ejemplos.
Figuras
La figura 1 muestra curvas de precisión-recuperación obtenidas como resultado de probar un modelo según la presente invención con conjuntos de datos de prueba. La figura 1A muestra una comparación del rendimiento de un modelo según la presente invención y los algoritmos de la técnica anterior, el algoritmo EDGE y el algoritmo MHCflurry, cuando se prueban con el mismo conjunto de datos de prueba. La figura 1B muestra el poder predictivo de un modelo según la presente invención cuando se prueba con un nuevo conjunto de datos.
Descripción detallada de la invención
La invención se refiere, en un primer aspecto, a un procedimiento implementado por ordenador para determinar las probabilidades de presentación de un conjunto de neoantígenos. En un segundo y tercer aspecto, la invención se refiere a un sistema informático y a un producto de programa informático. En un cuarto aspecto, la invención se refiere al uso de cualquiera de los procedimientos, sistemas o productos para determinar un tratamiento para el sujeto. A continuación, se describirá la invención en detalle, se analizarán las realizaciones preferidas y se ilustrará la invención por medio de ejemplos no limitativos.
A menos que se definan de otro modo, todos los términos usados en la divulgación de la invención, incluidos los términos técnicos y científicos, tienen el significado que comúnmente entiende una persona con experiencia ordinaria en la técnica a la que pertenece esta invención. A modo de orientación adicional, se incluyen definiciones de los términos utilizados en la descripción para apreciar mejor la enseñanza de la presente invención. Los términos o definiciones utilizados en la presente memoria se proporcionan únicamente para ayudar a comprender la invención.
Tal como se usan en la presente memoria, los términos siguientes tienen los significados siguientes:
Las formas "un", "una" y "el/la" tal como se usan en la presente memoria hacen referencia tanto a los referentes en plural como en singular, a menos que el contexto indique claramente lo contrario. A modo de ejemplo, "un compartimento" se refiere a uno o más de un compartimento.
Los términos "comprender", "comprendiendo", "comprende" y "comprendido", tal como se usan en la presente memoria, son sinónimos de "incluir", "incluyendo", "incluye" o "contener", "conteniendo", "contiene" y son inclusivos o términos abiertos que especifican la presencia de lo que sigue, por ejemplo, un componente, y no excluyen ni descartan la presencia de componentes, características, elementos, miembros, etapas adicionales, no mencionados, conocidos en la técnica o divulgados en la misma.
La indicación de intervalos numéricos con puntos finales incluye todos los números y fracciones incluidos dentro de ese intervalo, así como los puntos finales indicados. Todos los porcentajes deben entenderse como porcentaje en peso a menos que se defina lo contrario o que para el experto en la materia resulte obvio un significado diferente a partir de su uso y en el contexto en el que se utiliza. La expresión "% en peso", "porcentaje en peso", "% peso" o "% peso", aquí y en toda la descripción, a menos que se defina lo contrario, se refiere al peso relativo del componente respectivo en función del peso total de la formulación.
Si bien los términos "uno o más" o "por lo menos uno", tal como uno o más o por lo menos un miembro(s) de un grupo de miembros, son claros en sí mismos, mediante una ejemplificación adicional, el término abarca, entre otras cosas, una referencia a cualquiera de dichos miembros, o a cualesquiera dos o más de dichos miembros, tal como, por<ejemplo, cualesquiera 3, 4, 5,>6<o 7, etc. de dichos miembros, y hasta todos dichos miembros.>
A menos que se definan de otro modo, todos los términos usados en la divulgación de la invención, incluidos los términos técnicos y científicos, tienen el significado que comúnmente entiende una persona con experiencia ordinaria en la técnica a la que pertenece esta invención. A modo de orientación adicional, se incluyen definiciones de los términos utilizados en la descripción para apreciar mejor la enseñanza de la presente invención. Los términos o definiciones utilizados en la presente memoria se proporcionan únicamente para ayudar a comprender la invención.
Además, las referencias en esta memoria descriptiva a "un ejemplo" significa que una función, estructura o característica particular descrita en relación con el ejemplo se incluye en, por lo menos, un ejemplo de la presente invención. Así, cuando aparecen frases como "en una realización” en diversos lugares de esta memoria descriptiva, no se refieren todas necesariamente a la misma realización, pero pueden.
Además, los términos primero, segundo y similares en la descripción y en las reivindicaciones, se utilizan para distinguir entre elementos similares y no necesariamente para describir una secuencia u orden cronológico, a menos que se especifique. Se ha de entender que los términos utilizados de esta manera son intercambiables en circunstancias adecuadas y que las realizaciones de la invención descritas en la presente memoria pueden funcionar en otras secuencias distintas de las descritas o ilustradas en la presente memoria.
En un primer aspecto, la invención se refiere a un procedimiento implementado por ordenador para determinar las probabilidades de presentación de un conjunto de neoantígenos por una célula tumoral de un tumor en un sujeto. El procedimiento comprende preferiblemente la etapa de obtener por lo menos uno de los datos de secuenciación de los nucleótidos del exoma o del genoma completo y los datos de secuenciación de los nucleótidos del transcriptoma a partir de las células tumorales asociadas a dicho tumor y de las células normales del sujeto. El procedimiento además comprende preferiblemente la etapa de obtener un conjunto de eventos genómicos aberrantes asociados a dicho tumor al comparar los datos de secuenciación de los nucleótidos del exoma y/o del genoma completo y los datos de secuenciación de los nucleótidos del transcriptoma a partir de las células tumorales con los datos de secuenciación de los nucleótidos del exoma y/o del genoma completo y los datos de secuenciación de los nucleótidos del transcriptoma a partir de las células normales. El procedimiento además comprende preferiblemente la etapa de obtener datos que representan las secuencias de péptidos de cada uno de un conjunto de neoantígenos identificados basándose, por lo menos en parte, en dicho conjunto de eventos aberrantes, en el que la secuencia peptídica de cada neoantígeno comprende por lo menos una alteración que la hace distinta de una secuencia peptídica de tipo silvestre correspondiente identificada a partir de las células normales del sujeto. El procedimiento además comprende preferiblemente la etapa de obtener datos que representan una secuencia peptídica de un HLA basándose en los datos de secuenciación de los nucleótidos del exoma tumoral y/o del genoma completo y los datos de secuenciación de los nucleótidos del transcriptoma a partir de las células tumorales. El procedimiento además comprende preferiblemente la etapa de entrenar un modelo de aprendizaje profundo en un conjunto de datos de entrenamiento que comprende un conjunto de datos positivos, en el que el conjunto de datos positivos comprende una pluralidad de pares de entrada-salida, en el que cada par comprende una entrada de una secuencia de epítopos como entrada, dicha secuencia de epítopos se identifica o se infiere a partir de un complejo del HLA/péptido unido a la superficie o secretado codificado por un alelo del HLA correspondiente expresado por una célula de entrenamiento, en el que cada par además comprende una entrada de una secuencia peptídica de una cadena alfa codificada por el alelo del HLA correspondiente como salida. El procedimiento además comprende preferiblemente la etapa de determinar una probabilidad de presentación para cada uno del conjunto de neoantígenos en la secuencia peptídica del HLA por medio del modelo entrenado.
En un segundo aspecto, la invención se refiere a un sistema informático para determinar las probabilidades de presentación de un conjunto de neoantígenos por una célula tumoral de un tumor en un sujeto. El sistema informático configurado para realizar el procedimiento implementado por ordenador según el primer aspecto de la invención.
En un tercer aspecto, la invención se refiere a un producto de programa informático para determinar las probabilidades de presentación de un conjunto de neoantígenos por una célula tumoral de un tumor en un sujeto. El producto de programa informático que comprende instrucciones que, cuando el producto de programa informático es ejecutado por un ordenador, hacen que el ordenador lleve a cabo el procedimiento según el primer aspecto de la invención.
En un cuarto aspecto, la invención se refiere a un uso del procedimiento según el primer aspecto de la invención y/o del sistema informático según el segundo aspecto de la invención y/o del producto de programa informático según el tercer aspecto de la invención, para determinar un tratamiento para el sujeto.
La invención proporciona un procedimiento implementado por ordenador, un sistema informático y un producto de programa informático para determinar las probabilidades de presentación de neoantígenos por una célula tumoral de un tumor en un sujeto, así como un uso de cualquiera del procedimiento, sistema o producto para determinar un tratamiento para el sujeto. Una persona experta en la materia apreciará que el procedimiento se implementa en el producto de programa informático y se ejecuta utilizando el sistema informático. También está claro que una persona experta en la materia puede utilizar las probabilidades de presentación de un conjunto de neoantígenos para determinar un tratamiento para el sujeto. A continuación, se tratan por tanto conjuntamente los cuatro aspectos de la presente invención.
"Sujeto", tal como se utiliza en la presente memoria, se refiere a un término conocido en el estado de la técnica, que debe entenderse preferiblemente como un cuerpo humano o animal, más preferiblemente un cuerpo humano. Tal como se utiliza en la presente memoria, "animal" se refiere preferiblemente a vertebrados, más preferiblemente a aves y mamíferos, incluso más preferiblemente a mamíferos. "Sujeto que lo necesita", tal como se utiliza en la presente memoria, debe entenderse como un sujeto que se beneficiará del tratamiento.
Una realización sencilla de la invención proporciona preferiblemente la obtención de por lo menos uno de los datos de secuenciación de los nucleótidos del exoma o del genoma completo y los datos de secuenciación de los nucleótidos del transcriptoma a partir de las células tumorales asociadas a dicho tumor y de las células normales del sujeto. Una realización sencilla proporciona además preferiblemente la etapa de obtener un conjunto de eventos genómicos aberrantes asociados a dicho tumor al comparar los datos de secuenciación de los nucleótidos del exoma y/o del genoma completo y los datos de secuenciación de los nucleótidos del transcriptoma a partir de las células tumorales con los datos de secuenciación de los nucleótidos del exoma y/o del genoma completo y los datos de secuenciación de los nucleótidos del transcriptoma a partir de las células normales. Está claro que los datos de secuenciación de los nucleótidos del exoma, del genoma completo y los datos de secuenciación de los nucleótidos del transcriptoma se comparan respectivamente con el tipo de datos de secuenciación de los nucleótidos correspondiente.
"Neoepítopo", tal como se utiliza en la presente memoria, se refiere a un término conocido en el estado de la técnica, que debe entenderse preferiblemente como una clase de péptidos unidos al complejo principal de histocompatibilidad (MHC) que surgen de mutaciones específicas de un tumor. Estos péptidos representan los determinantes antigénicos de los neoantígenos. Los neoepítopos son reconocidos por el sistema inmunitario como objetivos de las células T y pueden provocar respuestas inmunitarias al cáncer.
"Neoantígeno", tal como se utiliza en la presente memoria, se refiere a un término conocido en el estado de la técnica, que debe entenderse preferiblemente como un antígeno que tiene por lo menos una alteración que lo hace distinto del antígeno de tipo silvestre más estrechamente relacionado, es decir, la secuencia de tipo silvestre correspondiente, por ejemplo, mediante mutación de la célula tumoral, modificación postraduccional específica de una célula tumoral, fusión, inserción de elementos transponibles, evento de empalme alternativo o cualquier forma de alteración conocida por un experto en la materia. Además, un neoantígeno puede o no incluir una secuencia polipéptida o de nucleótidos.
Preferiblemente, el conjunto de eventos genómicos aberrantes comprende uno o más de polimorfismos de un solo nucleótido (SNP), mutaciones indel, fusiones de genes, reordenamientos cromosómicos tales como inversión, translocación, duplicación o cronotropismos, inserciones de elementos transponibles o eventos de empalme alternativo. En el contexto de esta descripción, el término "indel" debe entenderse como un término de biología molecular relativo a una inserción o eliminación de uno o más ácidos nucleicos en el genoma de un organismo. Además, en el contexto de esta descripción, el término "SNP" o "polimorfismo de nucleótido único" se refiere a una sustitución de un solo nucleótido que se produce en una posición específica en el genoma de un organismo.
La presente invención puede o no utilizar secuencias de péptidos o neoepítopos de entrada generadas por un canal de detección de neoepítopos, a partir de datos de secuenciación sin procesar de un sujeto, preferiblemente un paciente. Estos datos de secuenciación sin procesar comprenden por lo menos ADN tumoral, preferiblemente ADN tumoral generado por biopsia. Preferiblemente, estos datos sin procesar comprenden además ARN tumoral, más preferiblemente ARN tumoral generado por biopsia. Preferiblemente, estos datos sin procesar comprenden además ADN normal generado a partir de una muestra del sujeto, preferiblemente una muestra de sangre. Preferiblemente, estos datos sin procesar comprenden además<a>R<n>normal generado a partir de una muestra del sujeto, preferiblemente una muestra de sangre.
"Muestra", tal como se utiliza en la presente memoria, se refiere a un término conocido en el estado de la técnica, que debe entenderse preferiblemente como una sola célula o múltiples células o fragmentos de células o una parte alícuota de fluido corporal, tomado de un sujeto, por medio de, entre otros, venopunción, excreción, eyaculación, masaje, biopsia, aspiración con aguja, muestra de lavado, raspado, incisión quirúrgica o intervención o cualquier otro medio conocido en la técnica.
El proceso de detección de neoepítopos genera una lista de todos los eventos que alteran el genoma y el transcriptoma que se producen dentro del tumor. Estos "eventos genómicos aberrantes" comprenden eventos novedosos de inserción de elementos transponibles, isoformas novedosas de ARN, nuevas fusiones de genes, eventos novedosos de edición de ARN, así como eventos novedosos de modificaciones postraduccionales basadas en nucleótidos en las proteínas producidas. Además, detecta polimorfismos de un solo nucleótido (SNP) e indels (mutaciones de inserción o deleción localizadas) tanto a nivel de ARN como de ADN y compara los resultados de ambos análisis para producir una lista de SNP e indels de alta confianza.
Según una realización preferida, se asocia una puntuación de confianza a cada uno de dicho conjunto de eventos genómicos aberrantes basándose, por lo menos en parte, en un número de lecturas de secuenciación de los datos de secuenciación que respaldan cada evento genómico aberrante asociado.
Preferiblemente, la puntuación de confianza además se basa, por lo menos en parte, en una presencia generalizada en el genoma de los datos de secuenciación que respaldan cada evento genómico aberrante asociado. La realización preferida, que además comprende la obtención de un subconjunto de eventos genómicos aberrantes al comparar la puntuación de confianza de cada evento genómico aberrante de dicho conjunto de eventos genómicos aberrantes con un valor umbral, en el que se añade un evento a dicho subconjunto si la puntuación de confianza asociada sobrepasa dicho valor umbral. El conjunto de neoantígenos identificados basándose, por lo menos en parte, en dicho conjunto de eventos aberrantes se identifica, según la presente realización preferida, basándose, por lo menos en parte, en dicho subconjunto de eventos aberrantes. Los eventos con una alta puntuación de confianza muestran un gran número de lecturas de secuenciación y son omnipresentes en el genoma, por lo que se seleccionan para futuras investigaciones. Como consecuencia, se mejora el rendimiento.
Cabe señalar que la invención no funcionará si la secuencia de entrada incluye aminoácidos no canónicos. En el contexto de esta descripción, el término "aminoácidos no canónicos" debe entenderse como aminoácidos no estándar o no codificados, que no están codificados de forma natural ni se encuentran en el código genético de ningún organismo.
Una realización sencilla de la invención proporciona preferiblemente la obtención de datos que representan una secuencia peptídica de un HLA basándose en los datos de secuenciación de los nucleótidos del exoma tumoral y/o del genoma completo y los datos de secuenciación de los nucleótidos del transcriptoma a partir de las células tumorales. Así, la composición del HLA de una biopsia tumoral se evalúa utilizando los mismos datos genómicos utilizados para identificar el conjunto de neoantígenos. Preferiblemente, la invención proporciona la obtención de datos que representan una secuencia peptídica de cada uno de un conjunto de HLA basándose en los datos de secuenciación de los nucleótidos del exoma tumoral y/o del genoma completo y los datos de secuenciación de los nucleótidos del transcriptoma a partir de las células tumorales.
"Antígeno leucocitario humano (HLA)", tal como se utiliza en la presente memoria, se refiere a un término conocido en el estado de la técnica, que debe entenderse preferiblemente como un complejo genético que codifica las proteínas del "complejo principal de histocompatibilidad (MHC)" en humanos. Estas proteínas de la superficie celular son responsables de la regulación del sistema inmunitario en los humanos. Los genes del HLA son altamente polimórficos, es decir, tienen muchos alelos diferentes, lo que les permite afinar el sistema inmunitario adaptativo de un sujeto. En el contexto de esta descripción, el término "afinidad de unión del HLA" o "afinidad de unión del MHC" debe entenderse como la afinidad de unión entre un antígeno específico y un alelo específico del MHC. En el contexto de esta descripción, el término "tipo de HLA" debe entenderse como el complemento de los alelos del gen del HLA.
Una realización simple de la invención proporciona preferiblemente el entrenamiento de un modelo de aprendizaje profundo en un conjunto de datos de entrenamiento. El conjunto de datos de entrenamiento comprende preferiblemente un conjunto de datos positivos. El conjunto de datos positivos comprende preferiblemente una pluralidad de pares de entrada-salida. Cada par comprende preferiblemente una entrada de una secuencia de epítopo como entrada. La secuencia del epítopo se identifica o infiere preferiblemente a partir de un complejo del HLA/péptido unido a la superficie o secretado, codificado por un alelo del HLA correspondiente expresado por una célula de entrenamiento. Cada par además comprende preferiblemente una entrada de una secuencia peptídica de una cadena alfa codificada por el alelo del HLA correspondiente como salida.
"Célula de entrenamiento", tal como se utiliza en la presente memoria, debe entenderse preferiblemente como una célula de la que se deriva una muestra y en el que dicha muestra se utiliza para obtener la entrada y la salida de un par de entrada-salida con el conjunto de datos positivos. La célula de entrenamiento puede ser o no una célula obtenida a partir de una línea celular monoalélica, tal como una línea celular humana, o una célula obtenida a partir de un tejido multialélico, tal como un tejido humano.
<Según una realización más preferida, cada entrada positiva consiste en la secuencia de un epítopo que consiste en>8 a 15 aminoácidos, que se demostró que estaba presente en la superficie celular en un conjunto de datos determinado. Cada salida positiva asociada está formada por la secuencia de aminoácidos concatenada, hasta 71 aminoácidos, de las cadenas alfa de los alelos del HLA expresados por la célula con el mismo conjunto de datos.
Según una realización preferida, las secuencias de epítopos de las entradas de cada par de entrada-salida del conjunto de datos positivos se obtienen mediante espectrometría de masas. En otra realización adicional, la secuencia peptídica de una cadena alfa codificada por el alelo del HLA correspondiente de las salidas de cada par de entrada-salida del conjunto de datos positivos se obtiene mediante espectrometría de masas.
En una realización de la invención, a los pares de entrada-salida positivos se les pueden asignar diferentes pesos, preferiblemente dependiendo de la frecuencia de aparición en los datos de espectrometría de masas utilizados para construir el conjunto de entrenamiento positivo. Los pesos modifican el impacto que tienen los pares en el entrenamiento del modelo de aprendizaje profundo. Un peso mayor dará lugar a un mayor ajuste de los parámetros asociados al modelo de aprendizaje profundo al entrenar el modelo con dicho par de entrada-salida, como se explica más adelante.
Según una realización preferida adicional, el conjunto de datos de entrenamiento para entrenar el modelo de aprendizaje profundo además comprende un conjunto de datos negativos. El conjunto de datos negativos comprende preferiblemente una pluralidad de pares de entrada-salida. Cada par comprende preferiblemente una entrada de una secuencia peptídica como entrada. Dicha secuencia peptídica es preferiblemente una secuencia aleatoria de un proteoma humano. Cada par además comprende, preferiblemente, una secuencia peptídica codificada a partir de un alelo del HLA aleatorio como salida.
Según una realización más preferida, cada entrada positiva es una secuencia aleatoria del proteoma humano que no<está presente en ningún conjunto de datos del ligandoma. Las entradas son secuencias aleatorias que consisten en>8 a 15 aminoácidos. Cada salida asociada es una concatenación de la secuencia de las cadenas alfa de un conjunto aleatorio de alelos del HLA presentes en el conjunto de datos positivos.
"Proteoma", tal como se utiliza en la presente memoria, se refiere a un término conocido en el estado de la técnica, que debe entenderse preferiblemente como el conjunto completo de proteínas que es, o puede ser, expresado por un genoma, célula, tejido u organismo en un momento determinado. Es el conjunto de proteínas expresadas en un determinado tipo de célula u organismo, en un momento dado, en condiciones definidas. La "proteómica" es el estudio del proteoma.
Preferiblemente, una parte, preferiblemente una mayoría, de los pares de entrada-salida del conjunto de datos positivos, más preferiblemente tanto del conjunto de datos positivos como del negativo, se utiliza para entrenar el modelo de aprendizaje profundo. Preferiblemente, una parte, preferiblemente una minoría, de los pares de entradasalida del conjunto de datos positivos, más preferiblemente tanto del conjunto de datos positivos como del negativo, se utiliza para validar el modelo de aprendizaje profundo entrenado.
La relación entre el número de pares de entrada-salida positivos y negativos para entrenar el modelo de aprendizaje profundo puede variar o no. Dicha relación es un parámetro importante del entrenamiento del modelo.
La relación entre el número de pares de entrada-salida positivos y negativos para la validación del modelo de aprendizaje profundo puede variar o no. Dicha relación es un parámetro importante de la validación del modelo.
Según una realización preferida, el conjunto de datos positivos comprende un conjunto de datos monoalélicos y multialélicos. El conjunto de datos monoalélicos comprende preferiblemente pares de entrada-salida obtenidos a partir de una célula de entrenamiento de una línea celular monoalélica. El conjunto de datos multialélicos comprende preferiblemente pares de entrada-salida obtenidos a partir de una célula de entrenamiento de un tejido multialélico. La célula de entrenamiento obtenida a partir de una línea celular monoalélica es preferiblemente una célula obtenida a partir de una línea celular humana monoalélica. La célula de entrenamiento obtenida a partir de un tejido multialélico siendo preferiblemente una célula obtenida a partir de un tejido humano. El tejido humano multialélico puede ser sano o canceroso.
"Monoalélico", tal como se utiliza en la presente memoria, se refiere a un término conocido en el estado de la técnica, que debe entenderse preferiblemente como una situación en la que se produce solo un alelo en un sitio o locus en una población.
"Multialélico", tal como se utiliza en la presente memoria, se refiere a un término conocido en el estado de la técnica, que debe entenderse preferiblemente como una situación en la que se producen muchos alelos. El polimorfismo es “multialélico”, también conocido como “polialélico”.
Según una realización preferida, el entrenamiento del modelo de aprendizaje profundo comprende dos o más ciclos de entrenamiento. Cada ciclo de entrenamiento comprende preferiblemente una pluralidad de etapas de entrenamiento. Cada etapa de entrenamiento comprende preferiblemente el procesamiento de un par de la pluralidad de pares de entrada-salida. Preferiblemente, uno de dichos dos o más ciclos de entrenamiento comprende entrenar el modelo de aprendizaje profundo con el conjunto de datos monoalélicos. Preferiblemente, uno de dichos dos o más ciclos de entrenamiento comprende entrenar el modelo de aprendizaje profundo tanto con el conjunto de datos monoalélicos como con el conjunto de datos multialélicos.
Según otra realización preferida, la invención proporciona tres o más ciclos de entrenamiento. Un ciclo de entrenamiento de dichos tres o más ciclos es un período de aprendizaje supervisado, en el que el modelo se entrena tanto con el conjunto de datos monoalélicos como con el conjunto de datos multialélicos para predecir la secuencia completa de aminoácidos que presenta un conjunto específico de alelos. Un ciclo de entrenamiento de dichos tres o más ciclos es un período de formación inicial, durante el cual solo se utilizan muestras derivadas de conjuntos de datos monoalélicos, para que el modelo aprenda las relaciones específicas entre los péptidos y el HLA. Un ciclo de dichos tres o más ciclos es un período de generalización, durante el cual el conjunto de datos multialélicos se utiliza para generalizar el modelo, con lo cual aprende los datos del paciente.
Según una realización preferida, las secuencias de epítopos de las entradas de cada par de entrada-salida del conjunto de datos positivos se obtienen mediante espectrometría de masas. Los nuevos avances tecnológicos han permitido una mayor disponibilidad de listas derivadas de la espectrometría de masas de los péptidos que en realidad están unidos a moléculas del MHC en la superficie celular. Estas listas se llaman "ligandomas". En el contexto de este texto, el término "ligandoma" debe entenderse como el conjunto completo de ligandos moleculares para proteínas en células y organismos. Preferiblemente, el conjunto positivo de pares de entrada-salida se construye a partir de datos del ligandoma de las células de entrenamiento.
Preferiblemente, el modelo de aprendizaje profundo según la presente invención es por lo menos uno de un modelo de similitud semántica profunda, un modelo de similitud semántica profunda convolucional, un modelo de similitud semántica profunda recurrente, un modelo de coincidencia de relevancia profunda, un modelo profundo y amplio, un modelo de lenguaje profundo, una red de transformadores, una red de memoria de corto plazo largo, una inserción de texto de aprendizaje profundo aprendido, un reconocimiento de entidad con nombre aprendido, una red neuronal siamesa, una red siamesa de interacción o una red de coincidencia léxica y semántica, o cualquier combinación de los mismos.
Preferiblemente, el entrenamiento del modelo de aprendizaje profundo comprende la determinación de una función de puntuación. Más preferiblemente, en el que la función de puntuación es una o más de las siguientes: función de puntuación de error al cuadrado, función de puntuación promedio o función de puntuación máxima. Preferiblemente, la función de puntuación se construye como la suma de los errores al cuadrado entre las probabilidades generadas por el modelo y la información de la relación entre el HLA y el neoepítopo asociada con el conjunto de datos de entrenamiento. Además, esto se puede implementar utilizando las puntuaciones 0 y 1. Estas puntuaciones representan<los valores asignados a la verdad fundamental con el conjunto de datos de entrenamiento, de “no presentado” (=>0<) y “presentado” (=>1<).>
En una realización adicional de la invención, los coeficientes del modelo se ajustan en cada etapa de entrenamiento para minimizar la función de puntuación. Una red neuronal está formada por neuronas conectadas entre sí; a su vez, cada conexión de nuestra red neuronal está asociada a un peso que dicta la importancia de esta relación en la neurona al multiplicarse por un valor de entrada. Para que las redes neuronales aprendan, los pesos asociados con las conexiones neuronales deben actualizarse después de pasar los datos a través de la red. Estos pesos se ajustan para ayudar a resolver las diferencias entre los resultados reales y previstos en las pasadas hacia adelante posteriores, a menudo a través de un proceso llamado retropropagación.
Preferiblemente, el modelo de aprendizaje profundo según la invención es un modelo de secuencia a secuencia. "Modelo de secuencia a secuencia (seq2seq)", tal como se utiliza en la presente memoria, se refiere a un término conocido en el estado de la técnica, también denominado modelo de codificador-descodificador, que debe entenderse preferiblemente como un modelo en el que un codificador lee una secuencia de entrada y genera un único vector y en el que el descodificador lee ese vector para producir una secuencia de salida. Dicho modelo pretende mapear una entrada de longitud fija y/o no fija con una salida de longitud fija y/o no fija donde la longitud de la entrada y la salida pueden diferir. El uso de un planteamiento seq2seq, en el que los alelos del HLA se modelan mediante la secuencia de aminoácidos de secciones específicas y funcionalmente relevantes en toda su estructura, tiene la ventaja de poder extrapolar y predecir la probabilidad de presentación de un neoepítopo a los alelos del HLA para los que el modelo no ha sido entrenado. Lo más preferible es que el modelo seq2seq sea una red de transformadores.
Según una realización preferida, la invención proporciona el procesamiento de la entrada de un par de una pluralidad de pares de entrada-salida en un vector numérico de entrada insertado convirtiendo la entrada correspondiente de una secuencia de epítopos utilizando un insertador del neoepítopo y un codificador posicional. El vector numérico de entrada insertado que comprende información sobre una pluralidad de aminoácidos que constituyen la secuencia del epítopo de la entrada correspondiente y el conjunto de posiciones de los aminoácidos en la secuencia del epítopo. Según otra realización preferida, la invención proporciona el procesamiento de la salida del par en un vector numérico de salida insertado convirtiendo la entrada correspondiente de la secuencia peptídica de la cadena alfa utilizando un insertador de alelos y un codificador posicional. El vector numérico de salida insertado comprende información sobre la pluralidad de aminoácidos que constituyen la secuencia peptídica de la entrada correspondiente y un conjunto de posiciones de los aminoácidos en la secuencia peptídica. Los insertadores y codificadores analizados anteriormente permiten la conversión de las entradas y salidas del modelo de aprendizaje profundo al formato adecuado, antes y después del procesamiento, durante el entrenamiento, la validación o el uso.
Lo más preferible es que el modelo de aprendizaje profundo sea una red de transformadores o un transformador. Las redes de transformadores se desarrollaron para resolver el problema de la transducción de secuencias o traducción automática neuronal. Es decir, cualquier tarea que transforme o haga coincidir una secuencia de entrada con una secuencia de salida. Para que los modelos realicen la transducción de secuencias, es necesario tener algún tipo de memoria. Es necesario descubrir dependencias y conexiones, incluidas las conexiones de largo alcance, entre entradas. Estas redes neuronales transformadoras aprovechan el concepto de la autoatención y son capaces de reemplazar planteamientos anteriores de memoria larga a corto plazo (LSTM) o redes neuronales convolucionales (CNN), que utilizaban la atención entre el codificador y el descodificador del modelo. Un mecanismo de autoatención permite que las entradas de un modelo interactúen entre sí y descubran a qué elemento o parte deben prestar más atención. Los resultados son agregados de estas interacciones y puntuaciones de atención.
Más detalladamente, una función de atención se puede describir como el mapeo de una consulta, es decir, una secuencia, y un conjunto de pares clave-valor a una salida, donde la consulta (q), las claves (k), los valores (v) y la salida son todos vectores. Las claves y los valores pueden verse como la memoria del modelo, es decir, todas las consultas que se han procesado anteriormente. Se calcula una puntuación para determinar la autoatención de un token, es decir, un aminoácido, en una secuencia. Cada token de la secuencia debe puntuarse frente al token para el que se desea realizar el cálculo de la autoatención. Esa puntuación determina cuánto foco de atención debe ponerse en otras partes de la secuencia cuando un token se codifica en una determinada posición. Esa puntuación se calcula tomando el producto escalar del vector de consulta con el vector de claves del token respectivo que se puntúa. Al adoptar la atención del producto escalar, la salida se calcula como una suma ponderada de los valores, donde el peso<asignado a cada valor está determinado por el producto escalar de la consulta con todas las claves.>
Existen diferentes motivaciones para el uso de procedimientos de autoatención. Una ventaja principal de utilizar redes neuronales de estilo transformador es que la autoatención del codificador se puede paralelizar, con lo cual disminuye el tiempo global de entrenamiento del modelo. Otra es la longitud de la trayectoria entre dependencias de largo alcance en la red. El aprendizaje de las dependencias de largo alcance es un desafío clave en muchas tareas de transducción de secuencias. Un factor clave que afecta a la capacidad de aprender dichas dependencias es la longitud de las trayectorias que las señales hacia adelante y hacia atrás deben recorrer en la red. Cuanto más cortas sean estas trayectorias entre cualquier combinación de posiciones en las secuencias de entrada y salida, más fácil será aprender las dependencias de largo alcance.
Según una realización preferida, la red de transformadores comprende un codificador y un descodificador,
comprendiendo el codificador:
o un insertador del neoepítopo;
o un codificador posicional;
o uno o más codificadores de secuencia, cada uno de los cuales comprende dos subcapas:
i. una subcapa de autoatención de múltiples cabezas;
ii. una subcapa de propagación hacia adelante;
comprendiendo el descodificador:
o uno o más descodificadores de secuencia, cada uno de los cuales comprende tres subcapas:
i. una subcapa de autoatención de múltiples cabezas;
ii. una subcapa de atención de codificador-descodificador de múltiples cabezas;
iii. una subcapa de propagación hacia adelante;
o un insertador de secuencias del HLA;
o un generador de probabilidad, que comprende:
i. un proyector lineal;
ii. una capa softmax.
Los "insertadores" convierten cada entrada en un vector o tensor utilizando un algoritmo de inserción. Esta transformación es necesaria porque muchos algoritmos de aprendizaje automático, incluidas las redes neuronales profundas, requieren que su entrada sean vectores de valores continuos, puesto que no funcionarán en cadenas de texto simple. El uso de un insertador ofrece la ventaja de la reducción de dimensionalidad y la similitud contextual. Al reducir la dimensionalidad de su característica o conjunto de datos, la exactitud del modelo mejora, el algoritmo se entrena más rápido, se requiere menos espacio de almacenamiento y se eliminan las características redundantes y el ruido. El grado de similitud entre un par de entradas se puede calcular mediante alguna medida de similitud o distancia que se aplica a los pares de vectores correspondientes, lo que proporciona una representación más expresiva de los datos.
En los transformadores, la autoatención ignora la posición de los tokens dentro de la secuencia. Sin embargo, la posición y el orden de los tokens, es decir, los aminoácidos, son partes esenciales de una secuencia. Para superar esta limitación, los transformadores añaden explícitamente "codificaciones posicionales", que son elementos de información que se añaden a cada token sobre su posición en la secuencia. Tanto las secuencias de entrada como las de salida están codificadas en función de la posición para permitir que el proceso de autoatención infiera correctamente las interdependencias relacionadas con la posición. Estos se añaden a la inserción de entrada o salida antes de que la suma pase a la primera capa de atención.
Un "codificador de secuencia" está compuesto por una pila de varias capas idénticas. Cada capa tiene dos subcapas. La primera es un mecanismo de "autoatención de múltiples cabezas" y la segunda es una sencilla "red de propagación hacia adelante". En lugar de calcular la atención solo una vez, el mecanismo de múltiples cabezas ejecuta la atención del producto escalar múltiples veces en paralelo. Las salidas de atención independientes sencillamente se concatenan y se transforman linealmente en las dimensiones previstas. Esto amplía la capacidad del modelo para centrarse en diferentes posiciones. Las salidas de la capa de autoatención se envían a una sencilla red neuronal de propagación hacia adelante, en la que la información se mueve en una sola dirección. Se emplea una conexión residual o atajo alrededor de cada una de las dos subcapas, lo que permite que el modelo utilice menos capas en las etapas iniciales de entrenamiento y, de este modo, simplifica la red. Cada capa termina con la normalización sobre la suma de su propia salida y la conexión residual. El "descodificador de secuencia" es muy similar al codificador, pero tiene una "subcapa de atención de codificador-descodificador de múltiples cabezas" adicional. La subcapa codificadordescodificador es diferente de las subcapas de atención del codificador o descodificador. A diferencia de la autoatención de múltiples cabezas, la subcapa de atención del codificador-descodificador crea su matriz de consulta a partir de la capa que se encuentra debajo de ella, que es la autoatención del descodificador, y toma la matriz de claves y valores de la salida de la capa del codificador. Esto ayuda al descodificador a centrarse en los lugares apropiados en la secuencia de entrada.
La salida del descodificador se convierte en las probabilidades previstas del siguiente token mediante una "proyección lineal" o transformación y una "función softmax" o "capa softmax". Una capa de proyección lineal reduce la dimensionalidad de los datos, así como el número de parámetros de red. Las capas softmax son operaciones multiclase, lo que significa que se utilizan para determinar la probabilidad de múltiples clases a la vez. Dado que las<salidas de una función softmax se pueden interpretar como una probabilidad, es decir, deben sumar>1<, una capa>softmax típicamente es la capa final utilizada en las funciones de redes neuronales.
Según una realización preferida, el entrenamiento del modelo de aprendizaje profundo comprende una pluralidad de etapas de entrenamiento, comprendiendo cada etapa de entrenamiento el procesamiento de un par de la pluralidad de pares de entrada-salida según las etapas de:
o procesar la entrada del par en un vector numérico de entrada insertado convirtiendo la entrada correspondiente de una secuencia de epítopos utilizando un insertador del neoepítopo y un codificador posicional, comprendiendo el vector numérico de entrada insertado información con respecto a una pluralidad de aminoácidos que constituyen la secuencia de epítopos de la entrada correspondiente y un conjunto de posiciones de los aminoácidos en la secuencia de epítopos;
o procesar la salida del par en un vector numérico de salida insertado convirtiendo la entrada correspondiente de la secuencia peptídica de la cadena alfa utilizando un insertador de alelos y un codificador posicional, comprendiendo el vector numérico de salida insertado información con respecto a la pluralidad de aminoácidos que constituyen la secuencia peptídica de la entrada correspondiente y un conjunto de posiciones de los aminoácidos en la secuencia peptídica;
o procesar el vector numérico de entrada insertado en un vector numérico de entrada codificado utilizando por lo menos un codificador de secuencia que comprende una subcapa de autoatención de múltiples cabezas y una subcapa de propagación hacia adelante, comprendiendo el vector numérico de entrada codificado información con respecto a una característica de la secuencia de epítopos de la entrada correspondiente de la secuencia de epítopos;
o procesar el vector numérico de salida insertado en un vector numérico de atención de salida utilizando una subcapa de autoatención de múltiples cabezas, comprendiendo el vector numérico de atención de salida información sobre las interdependencias de la pluralidad de aminoácidos que constituyen la secuencia peptídica de la entrada correspondiente de la secuencia peptídica de la cadena alfa;
o procesar el vector numérico de entrada codificado y el vector de atención de salida correspondiente en un vector numérico de correlación utilizando una subcapa de atención de codificador-descodificador de múltiples cabezas y una subcapa de propagación hacia adelante, comprendiendo el vector numérico de correlación información de correlación entre el vector numérico de entrada codificado y el vector de atención de salida correspondiente; y
o procesar el vector numérico de correlación en una probabilidad de correspondencia entre el vector numérico de entrada insertado y el vector numérico de salida insertado utilizando un generador de probabilidad.
En una realización adicional, la inserción tanto de la entrada del par, la secuencia del epítopo, como de la salida del par, la secuencia del péptido del HLA, puede seguir una de diferentes modalidades.
Según una primera modalidad posible, cada posición del aminoácido se codifica one-hot, lo que significa que se transforma en un vector 1 x 20, ya que existen 20 aminoácidos canónicos. En cada posición del vector hay un 0 (cero), excepto en una posición donde está presente un 1 (uno). Esta última posición representa el aminoácido real presente. De esta manera, por ejemplo, un 9mer se transforma en una matriz 9 x 20 donde solo 9 posiciones son 1, mientras<que todas las demás posiciones son>0<.>
Según una segunda modalidad posible, cada aminoácido se tokeniza individualmente, lo que significa que se construye un diccionario de aminoácidos a valores numéricos, donde cada aminoácido está representado por un valor numérico. Por ejemplo, el praliné se representa como 1, mientras que la valina se representa como 2, .... De esta manera, un 9mer se transforma en un vector con longitud de 9 números.
Según una tercera modalidad posible, cada aminoácido es reemplazado por un vector de inserción de n valores numéricos. Estos n valores numéricos se relacionan con características específicas del aminoácido, que pueden ser físicas, químicas o definidas de otro modo. Como ejemplo preferido, un aminoácido está integrado por los valores de sus n componentes principales derivados a partir de un conjunto de propiedades/características fisicoquímicas. Por lo tanto, un 9mer se transforma en este ejemplo en una matriz numérica 9 x n.
Las tres posibles modalidades de inserción se pueden realizar directamente en la posición de cada aminoácido, donde 1 aminoácido se inserta en 1 vector de inserción. En otra modalidad o modalidad adicional, para la inserción tanto de las secuencias de epítopos (entradas) como de las secuencias del HLA (salidas), las secuencias se pueden dividir en cadenas que tienen una longitud de más de 1. De esta manera, en lugar de considerar aminoácidos individuales, se consideran los ^-meros.
Según una realización preferida adicional, el procesamiento de un par de la pluralidad de pares de entrada-salida además comprende la etapa de:
o obtener un punto de datos de una función de puntuación para el entrenamiento al comparar la probabilidad de correspondencia entre el vector numérico de entrada insertado y el vector numérico de salida insertado con la información de relación correspondiente asociada al conjunto de datos de entrenamiento;
o ajustar un parámetro asociado al modelo de aprendizaje profundo para optimizar dicha función de puntuación;
preferiblemente en el que la función de puntuación es una o más de las siguientes: función de puntuación de error al cuadrado, función de puntuación promedio o función de puntuación máxima.
En una realización, la función de puntuación puede ser una función binaria de pérdida de entropía cruzada.
En una realización de la invención, como se explica anteriormente, a los pares de entrada-salida positivos se les pueden asignar diferentes pesos, preferiblemente dependiendo de la frecuencia de aparición en los datos de espectrometría de masas utilizados para construir el conjunto de entrenamiento positivo. Los pesos modifican el impacto que tienen los pares en el entrenamiento del modelo de aprendizaje profundo. Un peso mayor dará lugar a un mayor ajuste de los parámetros asociados al modelo de aprendizaje profundo al entrenar el modelo con dicho par de entrada-salida.
Según otra realización preferida, la red de transformadores comprende un codificador, pero no un descodificador. En esta red, tanto los vectores integrados de la secuencia del epítopo de entrada como los de la secuencia del HLA de entrada se procesan como un solo vector. Para indicar si un valor del vector de inserción de entrada se refiere a un neoepítopo o un HLA, se realiza un tipo de enmascaramiento. Esto significa que, por ejemplo, el signo de los valores numéricos asociados con la entrada del epítopo se modifica mientras que dicho signo asociado con la entrada del HLA no se modifica. Además, en este modelo de red, se insertan valores separadores personalizados en diversas posiciones de los vectores integrados de entrada, en particular al inicio y/o al final de los vectores, así como entre los valores relacionados con el epítopo y los valores relacionados con el HLA. De esta manera, resulta posible tener ambas secuencias de entrada procesadas como un único vector, mientras que todavía se puede diferenciar entre ambas secuencias de entrada.
Según otra realización preferida, después del entrenamiento del modelo, se obtienen uno o más de los siguientes:
- un conjunto de coeficientes que pueden utilizarse para reproducir su función dada la estructura correcta;
- un conjunto de parámetros que describen todos los aspectos del entrenamiento del modelo;
- un esquema de estructura que puede utilizarse para regenerar el modelo de inferencia/prueba;
- un diccionario de los HLA observados durante el entrenamiento del modelo.
Según una realización, la invención proporciona un procedimiento en el que se pueden entrenar otros modelos semiindependientes en relación con la arquitectura central utilizada para tener en cuenta otros parámetros biológicos relevantes. Estos parámetros biológicos comprenden: expresión del ARN del gen del cual se deriva el neoepítopo, la expresión del ARN de todos los demás genes en la muestra, la expresión de los ARN no codificantes, el estado de modificación postraduccional, los eventos de edición de ARN, las fracciones inmunitarias de cada tipo de célula inmunitaria, la clonalidad de la muestra, la puntuación de confianza de todos los eventos de alteración del genoma, la afinidad de unión péptido-MHC según lo previsto por otras herramientas, la estabilidad del complejo péptido-MHC, la estabilidad y el recambio de péptidos, los aminoácidos vecinos dentro de la proteína original del neoepítopo, la actividad del proteasoma y la actividad del procesamiento de péptidos. La estructura del modelo está configurada de tal manera que cualquier dato faltante en esta lista no impedirá que el modelo genere una probabilidad de presentación.
Según una realización preferida, la invención además comprende las etapas de:
- entrenar una red neuronal semiindependiente en un conjunto de datos de entrenamiento semiindependiente que comprende por lo menos el conjunto de datos positivos del modelo de aprendizaje profundo o una variante del mismo y un conjunto de datos de entrenamiento de parámetros de mejora de la predicción asociado, en el que dicho conjunto de datos de entrenamiento de parámetros de mejora de la predicción asociado se refiere a uno o más parámetros biológicos de expresión del ARN de un gen del cual se deriva el neoepítopo, la expresión del ARN de una pluralidad de genes en una muestra de tejido canceroso, la expresión de secuencias de ARN no codificantes, información de modificación postraduccional, información de eventos de edición de ARN, las fracciones inmunitarias de una pluralidad de tipos de células inmunitarias, la clonalidad de una muestra de tejido canceroso, la puntuación de confianza de una pluralidad de eventos de alteración del genoma, la afinidad de unión péptido-MHC, la estabilidad del complejo péptido-MHC, la estabilidad y/o recambio de péptidos, aminoácidos vecinos dentro de la secuencia del neoepítopo, la actividad del proteasoma y la actividad del procesamiento de péptidos,
preferiblemente en el que dicho conjunto de datos de entrenamiento de los parámetros de mejora de la predicción asociado se refiere a por lo menos aminoácidos vecinos dentro de la secuencia del neoepítopo;
- determinar una probabilidad de presentación semiindependiente para cada uno del conjunto de neoantígenos en la secuencia peptídica del HLA por medio de la red neuronal semiindependiente entrenada; y
- combinar para cada uno del conjunto de neoantígenos la probabilidad de presentación semiindependiente determinada y la probabilidad de presentación obtenida por medio del modelo entrenado para obtener una probabilidad de presentación global;
preferiblemente en el que la combinación se realiza por medio de una red neuronal de una sola capa entrenada;
preferiblemente en el que la red neuronal semiindependiente es una red neuronal de una sola capa;
preferiblemente en el que por lo menos uno de los datos de secuenciación de los nucleótidos del exoma o del genoma completo y los datos de secuenciación de los nucleótidos del transcriptoma a partir de las células tumorales asociadas a dicho tumor y de las células normales del sujeto se obtienen respectivamente de una muestra de tejido canceroso y de una muestra de tejido sano del sujeto.
Según una realización, el entrenamiento de todas las subcapas se realiza utilizando un algoritmo de optimización de tipo Adam. Los optimizadores son algoritmos o procedimientos utilizados para cambiar los atributos de su red neuronal, tal como los pesos y las tasas de aprendizaje, con el fin de reducir las pérdidas o errores y ayudar a obtener resultados más rápido. El algoritmo aprovecha el poder de los procedimientos de tasas de aprendizaje adaptativas para encontrar tasas de aprendizaje individuales para cada parámetro. Adam utiliza estimaciones del primer y segundo momento del gradiente para adaptar la tasa de aprendizaje a cada peso de la red neuronal.
Según una realización, el modelo de aprendizaje profundo, preferiblemente la red de transformadores, se entrena durante 5 épocas de validación cruzada de 5 pliegues. La validación cruzada de k pliegues es fácil de entender, fácil de implementar y da como resultado estimaciones de habilidad, para un modelo con datos nuevos, que en general tienen un sesgo menor que otros procedimientos. Existe una compensación de sesgo y varianza asociada con la elección de k en la validación cruzada de k pliegues.
Al realizar una validación cruzada de k pliegues utilizando k = 5, se obtienen estimaciones de la tasa de error de prueba que no adolecen ni de un sesgo excesivamente alto ni de una varianza muy alta.
"Época", tal como se utiliza en la presente memoria, se refiere a un término conocido en el estado de la técnica, que debe entenderse preferiblemente como una indicación del número de pasadas a través de todo un conjunto de datos de entrenamiento que completa un algoritmo de aprendizaje automático. Una época es un ciclo a través del conjunto de datos de entrenamiento completo.
"Validación cruzada de k pliegues", tal como se utiliza en la presente memoria, se refiere a un término conocido en el estado de la técnica, que debe entenderse preferiblemente como un procedimiento estadístico para estimar la habilidad de los modelos de aprendizaje automático. Este planteamiento implica dividir aleatoriamente y repetidamente un conjunto de observaciones en k grupos, o pliegues, de tamaño aproximadamente igual. El primer pliegue se trata como un conjunto de validación y el procedimiento se ajusta a los k-1 pliegues restantes. Los resultados de una ejecución de validación cruzada de k pliegues a menudo se resumen con la media de las puntuaciones de habilidad del modelo. También es una buena práctica incluir una medida de la varianza de las puntuaciones de las habilidades, tal como la desviación estándar o el error estándar.
La invención se describe adicionalmente mediante los ejemplos no limitativos siguientes que ilustran adicionalmente la invención, y no pretenden ni deben interpretarse que limitan el alcance de la invención.
Ejemplos
Ejemplo 1:
El presente ejemplo se refiere al entrenamiento de un modelo de transformador de secuencia a secuencia según la presente invención.
El modelo del transformador secuencia a secuencia tiene la siguiente arquitectura:
- codificador:
o un insertador del neoepítopo;
o un codificador posicional;
o uno o más codificadores de secuencia, cada uno de los cuales comprende dos subcapas:
i. una subcapa de autoatención de múltiples cabezas;
ii. una subcapa de propagación hacia adelante;
- descodificador:
o uno o más descodificadores de secuencia, cada uno de los cuales comprende tres subcapas:
i. una subcapa de autoatención de múltiples cabezas;
ii. una subcapa de atención de codificador-descodificador de múltiples cabezas;
iii. una subcapa de propagación hacia adelante;
o un insertador de secuencias del HLA;
o un generador de probabilidad, que comprende:
i. un proyector lineal;
ii. una capa softmax.
El modelo de transformador de secuencia a secuencia descrito anteriormente se entrena al procesar conjuntos de pares de entrada-salida positivos y negativos a través del modelo.
Se construye un conjunto positivo de pares de entrada-salida a partir de los datos de ligandomas de líneas celulares humanas monoalélicas o de tejido humano multialélico (sano o canceroso). Cada entrada positiva consiste en la<secuencia de un epítopo (de>8<a 15 aminoácidos) que se ha demostrado que estaba presente en la superficie celular>en un conjunto de datos determinado. Cada salida positiva asociada está formada por la secuencia de aminoácidos concatenada de las cadenas alfa de los alelos del HLA expresados por la célula con el mismo conjunto de datos (71 aminoácidos).
Se construye un conjunto negativo de pares de entrada-salida a partir del proteoma humano. Cada entrada es una<secuencia aleatoria de>8<a 15 meros del proteoma humano que no está presente en ningún conjunto de datos del>ligandoma. Cada salida asociada es una concatenación de la secuencia de las cadenas alfa de un conjunto aleatorio de alelos del HLA presentes en el conjunto de datos positivos.
Cada par de entrada-salida de entrenamiento se procesa a través del modelo de la siguiente manera:
- El péptido de entrada se rellena hasta una longitud de 15 con tokens "." si es necesario, y luego la secuencia resultante se inserta mediante el insertador del neoepítopo en un tensor codificado en caliente de 21 * 15.
- El modelo basado en secuencias incorpora cada HLA mediante el insertador de alelos en un tensor codificado en caliente de 21 * 71 según la secuencia de sus dos hélices alfa que interactúan con los péptidos.
- A continuación, tanto la secuencia de entrada como la de salida se codifican en función de la posición para permitir que el proceso de autoatención infiera correctamente las interdependencias relacionadas con la posición.
- La secuencia de entrada insertada se procesa secuencialmente por cada codificador de secuencia. Las subcapas de autoatención aprenden interdependencias dentro del péptido y las subcapas de propagación hacia adelante procesan la inserción de entrada en consecuencia.
- El resultado de este proceso de codificación es una codificación representativa de características y de dimensión fija del neopéptido de entrada.
- La entrada de secuencia del HLA insertada se procesa a su vez y se combina con la entrada del neoepítopo codificada secuencialmente en cada descodificador, lo cual forma progresivamente la secuencia de salida insertada. Las subcapas de autoatención aprenden interdependencias dentro del alelo; las subcapas de atención peptídica correlacionan la representación peptídica codificada con la salida insertada, y las subcapas de propagación hacia adelante aplican modificaciones a la salida insertada en consecuencia. En esta etapa se establece la correspondencia entre entrada y salida. Cabe señalar que las subcapas de atención, que permiten la detección de interdependencia dentro de la secuencia, mejoran significativamente el poder de predicción global del modelo.
- Finalmente, la salida insertada se procesa a través del generador para generar una probabilidad de correspondencia<entre la entrada insertada y la salida insertada, lo que representa una probabilidad de presentación (de>0<a>1<, siendo>1<la probabilidad más alta).>
- Se construye una función de puntuación que es la suma de los errores al cuadrado entre las probabilidades generadas por el modelo y la relación HLA-péptido real (0: el péptido no se ha presentado en la superficie de las células que expresaban este alelo, es decir, el péptido era parte del conjunto de datos negativos mencionado<anteriormente;>1<: el péptido se ha presentado en la superficie de las células que expresaban este alelo, es decir, era>parte del conjunto de datos positivos mencionado anteriormente). Son posibles otras formas de agregar los datos, tal como considerar la función de puntuación promedio o la función de puntuación máxima. En cada etapa de entrenamiento, es decir, con cada nuevo procesamiento de pares entrada-salida, los coeficientes del modelo se ajustan para minimizar la función de puntuación así definida.
El modelo se entrena de la siguiente manera:
- El modelo se entrena para 5 épocas de validación cruzada de 5 pliegues.
- El entrenamiento de este modelo sigue las etapas siguientes: En primer lugar, el modelo se entrena en TODAS las muestras para predecir sencillamente, aminoácido por aminoácido, la secuencia completa de aminoácidos presentada por un conjunto específico de alelos (aprendizaje autosupervisado). A continuación, solo se utilizan muestras derivadas de conjuntos de datos del HLA monoalélicos (p. ej., de líneas celulares monoalélicas) para el entrenamiento (período de "formación inicial”), para que el modelo aprenda relaciones péptido-HLA específicas. Finalmente, se utilizan instancias multialélicas del HLA para el entrenamiento con el fin de generalizar el aprendizaje del modelo a los datos reales del paciente.
- El entrenamiento de todas las capas del modelo se realiza mediante un optimizador de tipo ADAM.
Al final del entrenamiento, el modelo genera un conjunto de coeficientes que pueden usarse para reproducir su función dada la estructura correcta, un conjunto de parámetros que describen todos los aspectos del entrenamiento del modelo, un esquema de estructura que puede usarse para regenerar el modelo de inferencia/prueba y un diccionario de los HLA observados durante el entrenamiento del modelo.
Ejemplo 2:
El presente ejemplo se refiere al uso de un modelo entrenado según el ejemplo 1 en un flujo de trabajo según la presente invención.
La realización proporciona un flujo de trabajo para predecir la probabilidad de presentación en la superficie de una célula cancerosa de un neoepítopo de longitud variable dado un conjunto de alelos del HLA expresados por la célula. El flujo de trabajo utiliza un modelo de transformador de secuencia a secuencia. Dicho modelo permite extrapolar y predecir las probabilidades de presentación del neoepítopo a cualquier alelo del HLA, incluso si no se ha entrenado con él.
El flujo de trabajo es de la siguiente manera:
- En primer lugar, se detectan neopéptidos utilizando datos de secuenciación de próxima generación en una biopsia de cáncer. Se utilizan datos de secuenciación tanto de ADN como de ARN para extraer un conjunto de eventos genómicos aberrantes que potencialmente pueden generar neoepítopos.
- A estos eventos se les asigna una puntuación de confianza basándose en el número de lecturas de secuenciación que los respaldan y su omnipresencia en el genoma, y se eligen epítopos de los eventos con mayor confianza para las etapas de seguimiento.
- La composición del HLA de la biopsia también se evalúa utilizando los mismos datos genómicos.
- La secuencia de los péptidos elegidos se proporciona al modelo entrenado junto con la secuencia de HLA conocidos.
- El modelo calcula una probabilidad de presentación de péptidos para cada HLA del conjunto provisto y genera una probabilidad de péptidos global basada en estos valores individuales.
Además, el flujo de trabajo puede o no comprender la etapa de perfeccionar la predicción de probabilidad al proporcionar otros parámetros biológicos al modelo, tales como los niveles de expresión del ARN, la probabilidad de unión del MHC o el contexto de la proteína neoepítopo.
Ejemplo 3:
El presente ejemplo se refiere a implementaciones alternativas del modelo de transformador según el ejemplo 1.
Como se describe anteriormente en el ejemplo 1, la secuencia del neoepítopo de entrada se rellena hasta una longitud de 15 con tokens "." si es necesario y luego la secuencia resultante se inserta mediante el insertador del neoepítopo en un tensor codificado en caliente de 21 x 15. Por tanto, el modelo del ejemplo 1 requiere que la secuencia esté dentro de un rango de longitud correcto. Sin embargo, el modelo también se puede implementar para permitir epítopos y HLA de cualquier longitud. De forma similar, el modelo puede implementarse para permitir una inserción de longitud variable. Además, el modelo puede implementarse para permitir su inserción en una matriz de tamaño diferente, hasta 300 x 15.
Como se describe anteriormente en el ejemplo 1, el modelo está basado en secuencias e incorpora cada HLA mediante el insertador de alelos en un tensor codificado en caliente de 21 * 71 según la secuencia de sus dos hélices alfa que interactúan con péptidos. De forma alternativa, el modelo puede procesar los HLA asociados como una codificación categórica. La codificación categórica se refiere a la transformación de una característica categórica en una o múltiples características numéricas. Cada HLA se codifica según un repositorio central que reagrupa todas las secuencias del HLA conocidas en el momento en que se ha construido el modelo. De forma alternativa, el modelo también puede no estar basado en secuencias. De este modo, los HLA se codifican en caliente basándose en su codificación de repositorio central previa. Las secuencias del HLA asociadas se procesan una por una. Como tal, un neoepítopo específico se procesará una vez por cada secuencia del HLA con la que se encontró asociado en una muestra específica. Este modelo no podrá generar una predicción si se desconoce la secuencia de aminoácidos del alelo del HLA. Esta es una posibilidad remota, pero real para algunos alelos del HLA raros.
Ejemplo 4:
El presente ejemplo se refiere al uso del flujo de trabajo según el ejemplo 2 para determinar un tratamiento para un sujeto.
La determinación de un tratamiento es de la siguiente manera:
- seleccionar un subconjunto del conjunto identificado de neoantígenos basándose en las probabilidades de presentación determinadas para obtener un subconjunto de neoantígenos seleccionados,
en el que el subconjunto se obtiene al comparar la probabilidad de presentación de cada uno de los neoantígenos del conjunto con un valor umbral y en el que se añade un neoantígeno a dicho subconjunto si la probabilidad de presentación asociada sobrepasa dicho valor umbral; y
- identificar una o más células T que sean específicas de antígeno para por lo menos uno de los neoantígenos en dicho subconjunto.
Ejemplo 5:
El presente ejemplo se refiere a un modelo mejorado que comprende el modelo de transformador secuencia a secuencia según el ejemplo 1 y uno o más modelos semiindependientes de dicho modelo de transformador. El modelo<mejorado se puede utilizar en el flujo de trabajo según el ejemplo>2<para determinar un tratamiento para un sujeto.>
Según el presente ejemplo, se entrenan una pluralidad de modelos de redes neuronales de una sola capa semiindependientes en relación con la arquitectura del transformador central para tener en cuenta otros parámetros biológicos relevantes. En consecuencia, cada uno de dicha pluralidad de modelos semiindependientes se entrena al entrenar una red neuronal de una sola capa en un conjunto de datos de entrenamiento semiindependiente que comprende el conjunto de datos de entrenamiento del modelo de transformador de secuencia a secuencia y un conjunto de datos de entrenamiento de los parámetros de mejora de la predicción asociado. Al tener en cuenta los parámetros del conjunto de datos de entrenamiento de los parámetros de mejora de la predicción, se mejora la exactitud global de la predicción.
El conjunto de datos de entrenamiento de parámetros de cada uno de los modelos de red neuronal de capa única semiindependientes se refiere a uno o más parámetros biológicos de expresión del ARN de un gen del cual se deriva el neoepítopo, la expresión del ARN de todos los genes en la muestra de tejido canceroso excepto el gen del cual se deriva el neoepítopo, la expresión de secuencias de ARN no codificantes, el estado de modificación postraduccional, los eventos de edición de ARN, las fracciones inmunitarias de cada tipo de célula inmunitaria, la clonalidad de la muestra de tejido canceroso, la puntuación de confianza de todos los eventos de alteración del genoma, la afinidad de unión péptido-MHC según lo previsto por otras herramientas, la estabilidad del complejo péptido-MHC, la estabilidad y el recambio de péptidos, los aminoácidos vecinos dentro de la proteína original del neoepítopo, la actividad del proteasoma y la actividad del procesamiento de péptidos.
Después del entrenamiento de cada uno de los modelos semiindependientes, se determina una probabilidad de presentación semiindependiente para cada uno del conjunto de neoantígenos en la secuencia peptídica del HLA por medio de la red neuronal semiindependiente entrenada. Esta probabilidad de presentación semiindependiente determinada se combina luego para cada uno del conjunto de neoantígenos con la probabilidad de presentación semiindependiente determinada y la probabilidad de presentación obtenida por medio del modelo entrenado para obtener una probabilidad de presentación global. Según el presente ejemplo, la combinación se realiza mediante una red neuronal de una sola capa entrenada.
<Ejemplo>6<:>
El ejemplo se refiere a una comparación entre un modelo según la presente invención y los algoritmos de la técnica anterior, el algoritmo EDGE y el algoritmo MHCflurry.
Se ha desarrollado y entrenado un modelo de transformador secuencia a secuencia según la presente invención en:
- un conjunto de datos positivos que comprende 326.297 pares de entrada-salida disponibles públicamente, en el que cada par comprende una entrada de una secuencia de epítopos como entrada, dicha secuencia de epítopos se identifica o se infiere a partir de un complejo del HLA/péptido unido a la superficie o secretado, codificado por un alelo del HLA correspondiente expresado por una célula de entrenamiento, en el que cada par además comprende una entrada de una secuencia peptídica de una cadena alfa codificada por el alelo del HLA correspondiente como salida; disponible públicamente en Abelina et al., 2017; Bulik-Sullivan et al., 2019; di Marco et al., 2017; Sarkizova et al., 2019; y Trolle et al., 2016; y
- un conjunto de datos negativos que comprende 652.594 pares de entrada-salida, comprendiendo cada par una entrada de una secuencia peptídica como entrada, en el que dicha secuencia peptídica es una secuencia aleatoria de un proteoma humano y en el que cada par además comprende una secuencia peptídica codificada a partir de un alelo del HLA aleatorio como salida.
A continuación, se probó el modelo en un conjunto de datos de prueba que comprendía:
- 729 pares positivos, que se seleccionaron a partir dl conjunto de datos de prueba publicado del algoritmo EDGE (Bulik-Sullivan et al., 2019), y
- 1.822.500 pares negativos, comprendiendo cada par una entrada de una secuencia peptídica como entrada, en el que dicha secuencia peptídica es una secuencia aleatoria de un proteoma humano y en el que cada par además comprende una secuencia peptídica codificada a partir de un alelo del HLA aleatorio como salida.
Se tuvo cuidado de no incluir en el conjunto de datos de prueba pares que ya estaban incluidos en la fase de entrenamiento del modelo.
Se generaron curvas de precisión-recuperación del conjunto de datos de prueba. La precisión se mide como la proporción de epítopos llamados positivos que realmente se presentaron, mientras que la recuperación mide la proporción de epítopos verdaderamente positivos que se llamaron positivos con exactitud. Como tal, la curva de recuperación de precisión es una buena medida de la capacidad de un modelo para predecir con exactitud los resultados positivos deseables sin cometer errores. Cuanto mejor sea el modelo, más se inclinará la curva de precisión-recuperación hacia la esquina superior derecha.
Los resultados se muestran en la figura 1A, en el que los resultados del modelo de transformador según la presente invención se muestran en azul (inclinándose más hacia la esquina superior derecha), mientras que los resultados del algoritmo EDGE se muestran en negro. Además, la línea verde (sustancialmente plana) representa la mejor precisión lograda por el modelo basado en la afinidad MHCflurry.
De los resultados se desprende claramente que el modelo según la presente invención supera al algoritmo EDGE de la técnica anterior, así como a los procedimientos industriales de última generación actuales como MHCflurry con el mismo conjunto de datos de prueba.
Ejemplo 7:
Este ejemplo se refiere a la capacidad de un modelo según la presente invención para la extrapolación y predicción. Como algoritmo de secuencia a secuencia, el modelo obtiene su poder predictivo no de datos categóricos, sino de la comparación y el establecimiento de correlaciones entre dos secuencias. Esto implica que es capaz de hacer predicciones para los alelos del HLA de los que no había datos de entrenamiento disponibles, siempre que se conozca su secuencia de proteínas.
Esta capacidad de extrapolación/predicción es una verdadera ventaja, si se tienen en cuenta que la obtención de nuevos datos de entrenamiento es un proceso largo y costoso.
<Para probar esta capacidad, el modelo se entrenó como en el ejemplo>6<, y se construyó un nuevo conjunto de datos>de prueba a partir de 2.039 pares positivos asociados únicamente con el alelo del HLA-A*74: 02, para el cual no había datos presentes en el conjunto de entrenamiento, junto con 5.097.500 pares negativos, cada par comprendiendo una entrada de una secuencia peptídica como entrada, en el que dicha secuencia peptídica es una secuencia aleatoria de un proteoma humano y en el que cada par además comprende una secuencia peptídica codificada a partir de un alelo del HLA aleatorio como salida.
Los resultados se muestran en la figura 1B. La curva de recuperación de precisión indica claramente que el modelo según la presente invención tiene un poder predictivo muy bueno incluso en este alelo no observado previamente.

Claims (15)

REIVINDICACIONES
1. Procedimiento implementado por ordenador para determinar las probabilidades de presentación de un conjunto de neoantígenos por una célula tumoral de un tumor en un sujeto, comprendiendo el procedimiento las etapas de:
- obtener por lo menos uno de los datos de secuenciación de los nucleótidos del exorna o del genoma completo y los datos de secuenciación de los nucleótidos del transcriptoma a partir de las células tumorales asociadas a dicho tumor y de las células normales del sujeto;
- obtener un conjunto de eventos genómicos aberrantes asociados a dicho tumor al comparar los datos de secuenciación de los nucleótidos del exoma y/o del genoma completo y los datos de secuenciación de los nucleótidos del transcriptoma a partir de las células tumorales con los datos de secuenciación de los nucleótidos del exoma y/o del genoma completo y los datos de secuenciación de los nucleótidos del transcriptoma a partir de las células normales;
- obtener datos que representan las secuencias de péptidos de cada uno de un conjunto de neoantígenos identificados basándose, por lo menos en parte, en dicho conjunto de eventos aberrantes, en el que la secuencia peptídica de cada neoantígeno comprende por lo menos una alteración que lo hace distinto de una secuencia peptídica de tipo silvestre correspondiente identificada a partir de las células normales del sujeto; obtener datos que representan una secuencia peptídica de un antígeno leucocitario humano (HLA) basándose en los datos de secuenciación de los nucleótidos del exoma tumoral y/o del genoma completo y los datos de secuenciación de los nucleótidos del transcriptoma a partir de las células tumorales;
- entrenar un modelo de aprendizaje profundo en un conjunto de datos de entrenamiento que comprende un conjunto de datos positivos, en el que el conjunto de datos positivos comprende una pluralidad de pares de entrada-salida, en el que cada par comprende una entrada de una secuencia de epítopos como entrada, dicha secuencia de epítopos se identifica o se infiere a partir de un complejo del HLA/péptido unido a la superficie o secretado codificado por un alelo del HLA correspondiente expresado por una célula de entrenamiento, en el que cada par además comprende una entrada de una secuencia peptídica de una cadena alfa codificada por el alelo del HLA correspondiente como salida; y
- determinar una probabilidad de presentación para cada uno del conjunto de neoantígenos en la secuencia peptídica del HLA por medio del modelo entrenado.
2. Procedimiento según la reivindicación 1 anterior, que además comprende las etapas de:
- asociar una puntuación de confianza a cada uno de dicho conjunto de eventos genómicos aberrantes basándose, por lo menos en parte, en un número de lecturas de secuenciación de los datos de secuenciación que respaldan cada evento genómico aberrante asociado;
- obtener un subconjunto de eventos genómicos aberrantes al comparar la puntuación de confianza de cada evento genómico aberrante de dicho conjunto de eventos genómicos aberrantes con un valor umbral, en el que se añade un evento a dicho subconjunto si la puntuación de confianza asociada sobrepasa dicho valor umbral;
en el que dicho conjunto de neoantígenos se identifica basándose, por lo menos en parte, en dicho subconjunto de eventos genómicos aberrantes.
3. Procedimiento según cualquiera de las reivindicaciones anteriores 1 o 2, en el que el conjunto de datos positivos comprende un conjunto de datos monoalélicos y multialélicos, en el que el conjunto de datos monoalélicos comprende pares de entrada-salida obtenidos a partir de una célula de entrenamiento de una línea celular monoalélica y en el que el conjunto de datos multialélicos comprende pares de entrada-salida obtenidos a partir de una célula de entrenamiento de un tejido multialélico.
4. Procedimiento según la reivindicación 3 anterior, en el que el entrenamiento del modelo de aprendizaje profundo comprende dos o más ciclos de entrenamiento, en el que cada ciclo de entrenamiento comprende una pluralidad de etapas de entrenamiento, en el que cada etapa de entrenamiento comprende procesar un par de la pluralidad de pares de entrada-salida, en el que uno de dichos dos o más ciclos de entrenamiento comprende entrenar el modelo de aprendizaje profundo con el conjunto de datos monoalélicos y en el que uno de dichos dos o más ciclos de entrenamiento comprende entrenar el modelo de aprendizaje profundo tanto con el conjunto de datos monoalélicos como con el conjunto de datos multialélicos.
5. Procedimiento según cualquiera de las reivindicaciones anteriores 1 a 4, en el que el conjunto de datos de entrenamiento para entrenar el modelo de aprendizaje profundo además comprende un conjunto de datos negativos que comprende una pluralidad de pares de entrada-salida, comprendiendo cada par una entrada de una secuencia peptídica como entrada, en el que dicha secuencia peptídica es una secuencia aleatoria de un proteoma humano y en el que cada par además comprende una secuencia peptídica codificada a partir de un alelo del HLA aleatorio como salida.
6<. Procedimiento según cualquiera de las reivindicaciones anteriores 1 a 5, en el que el modelo de aprendizaje profundo>es por lo menos uno de un modelo de similitud semántica profunda convolucional, un modelo de similitud semántica profunda recurrente, un modelo de coincidencia de relevancia profunda, un modelo profundo y amplio, un modelo de lenguaje profundo, una red de transformadores, una red de memoria de corto plazo largo, una inserción de texto de aprendizaje profundo aprendido, un reconocimiento de entidad con nombre aprendido, una red neuronal siamesa, una red siamesa de interacción o una red de coincidencia léxica y semántica, o combinaciones de los mismos.
<
7. Procedimiento según cualquiera de las reivindicaciones anteriores 1 a>6<, en el que el modelo de aprendizaje>profundo es una red de transformadores.
8<. Procedimiento según cualquiera de las reivindicaciones anteriores 1 a 7, en el que el entrenamiento del modelo de>aprendizaje profundo comprende una pluralidad de etapas de entrenamiento, comprendiendo cada etapa de entrenamiento el procesamiento de un par de la pluralidad de pares de entrada-salida según las etapas de:
o procesar la entrada del par en un vector numérico de entrada insertado convirtiendo la entrada correspondiente de una secuencia de epítopos utilizando un insertador del neoepítopo y un codificador posicional, comprendiendo el vector numérico de entrada insertado información con respecto a una pluralidad de aminoácidos que constituyen la secuencia de epítopos de la entrada correspondiente y un conjunto de posiciones de los aminoácidos en la secuencia de epítopos;
o procesar la salida del par en un vector numérico de salida insertado convirtiendo la entrada correspondiente de la secuencia peptídica de la cadena alfa utilizando un insertador de alelos y un codificador posicional, comprendiendo el vector numérico de salida insertado información con respecto a la pluralidad de aminoácidos que constituyen la secuencia peptídica de la entrada correspondiente y un conjunto de posiciones de los aminoácidos en la secuencia peptídica;
o procesar el vector numérico de entrada insertado en un vector numérico de entrada codificado utilizando por lo menos un codificador de secuencia que comprende una subcapa de autoatención de múltiples cabezas y una subcapa de propagación hacia adelante, comprendiendo el vector numérico de entrada codificado información con respecto a una característica de la secuencia de epítopos de la entrada correspondiente de la secuencia de epítopos;
o procesar el vector numérico de salida insertado en un vector numérico de atención de salida utilizando una subcapa de autoatención de múltiples cabezas, comprendiendo el vector numérico de atención de salida información sobre las interdependencias de la pluralidad de aminoácidos que constituyen la secuencia peptídica de la entrada correspondiente de la secuencia peptídica de la cadena alfa;
o procesar el vector numérico de entrada codificado y el vector de atención de salida correspondiente en un vector numérico de correlación utilizando una subcapa de atención de codificador-descodificador de múltiples cabezas y una subcapa de propagación hacia adelante, comprendiendo el vector numérico de correlación información de correlación entre el vector numérico de entrada codificado y el vector de atención de salida correspondiente; y
o procesar el vector numérico de correlación en una probabilidad de correspondencia entre el vector numérico de entrada insertado y el vector numérico de salida insertado utilizando un generador de probabilidad.
<
9. Procedimiento según las reivindicaciones anteriores>8<, en el que el procesamiento de un par de la pluralidad de>pares de entrada-salida además comprende la etapa de:
o obtener un punto de datos de una función de puntuación para el entrenamiento al comparar la probabilidad de correspondencia entre el vector numérico de entrada insertado y el vector numérico de salida insertado con la información de relación correspondiente asociada al conjunto de datos de entrenamiento;
o ajustar un parámetro asociado al modelo de aprendizaje profundo para optimizar dicha función de puntuación;
preferiblemente en el que la función de puntuación es una o más de una función de puntuación de suma de error al cuadrado, una función de puntuación promedio o una función de puntuación máxima.
10. Procedimiento según cualquiera de las reivindicaciones anteriores 7 a 9, en el que la red de transformadores comprende un codificador y un descodificador;
comprendiendo el codificador:
o un insertador del neoepítopo;
o un codificador posicional;
o uno o más codificadores de secuencia, cada uno de los cuales comprende dos subcapas:
i. una subcapa de autoatención de múltiples cabezas;
11. una subcapa de propagación hacia adelante;
comprendiendo el descodificador:
o uno o más descodificadores de secuencia, cada uno de los cuales comprende tres subcapas:
i. una subcapa de autoatención de múltiples cabezas;
ii. una subcapa de atención de codificador-descodificador de múltiples cabezas;
iii. una subcapa de propagación hacia adelante;
o un insertador de secuencias del HLA;
o un generador de probabilidad, que comprende:
i. un proyector lineal;
ii. una capa softmax.
11. Procedimiento según una cualquiera de las reivindicaciones anteriores 1 a 10, que además comprende las etapas de:
- entrenar una red neuronal semiindependiente en un conjunto de datos de entrenamiento semiindependiente que comprende por lo menos el conjunto de datos positivos del modelo de aprendizaje profundo o una variante del mismo y un conjunto de datos de entrenamiento de parámetros de mejora de la predicción asociado, en el que dicho conjunto de datos de entrenamiento de parámetros de mejora de la predicción asociado se refiere a uno o más parámetros biológicos de expresión del ARN de un gen del cual se deriva el neoepítopo, la expresión del ARN de una pluralidad de genes en una muestra de tejido canceroso, la expresión de secuencias de ARN no codificantes, información de modificación postraduccional, información de eventos de edición de ARN, las fracciones inmunitarias de una pluralidad de tipos de células inmunitarias, la clonalidad de una muestra de tejido canceroso, la puntuación de confianza de una pluralidad de eventos de alteración del genoma, la afinidad de unión péptido-MHC, la estabilidad del complejo péptido-MHC, la estabilidad y/o recambio de péptidos, aminoácidos vecinos dentro de la secuencia del neoepítopo, la actividad del proteasoma y la actividad del procesamiento de péptidos, preferiblemente en el que dicho conjunto de datos de entrenamiento de los parámetros de mejora de la predicción asociados por lo menos se refiere a los aminoácidos vecinos dentro de la secuencia del neoepítopo;
- determinar una probabilidad de presentación semiindependiente para cada uno del conjunto de neoantígenos en la secuencia peptídica del HLA por medio de la red neuronal semiindependiente entrenada; y
- combinar para cada uno del conjunto de neoantígenos la probabilidad de presentación semiindependiente determinada y la probabilidad de presentación obtenida por medio del modelo entrenado para obtener una probabilidad de presentación global;
preferiblemente en el que la combinación se realiza por medio de una red neuronal de una sola capa entrenada;
preferiblemente en el que la red neuronal semiindependiente es una red neuronal de una sola capa.
12. Sistema informático para determinar las probabilidades de presentación de un conjunto de neoantígenos por una célula tumoral de un tumor en un sujeto, estando configurado el sistema informático para realizar el procedimiento<implementado por ordenador según una cualquiera de las reivindicaciones anteriores>1<a>11<.>
13. Producto de programa informático para determinar las probabilidades de presentación de un conjunto de neoantígenos por una célula tumoral de un tumor en un sujeto, comprendiendo el producto de programa informático instrucciones que, cuando el producto de programa informático es ejecutado por un ordenador, hacen que el ordenador<lleve a cabo el procedimiento implementado por ordenador según una cualquiera de las reivindicaciones anteriores>1<a>11<.>
14. Utilización del procedimiento implementado por ordenador según una cualquiera de las reivindicaciones anteriores 1<a>11<y/o del sistema informático según la reivindicación anterior>12<y/o del producto de programa informático según>la reivindicación anterior 13, para determinar un tratamiento para el sujeto.
15. Uso según la reivindicación anterior 14, en el que la determinación de un tratamiento comprende: seleccionar un subconjunto del conjunto identificado de neoantígenos basándose en las probabilidades de presentación determinadas para obtener un subconjunto de neoantígenos seleccionados, preferiblemente en el que el subconjunto se obtiene al comparar la probabilidad de presentación de cada uno del conjunto de neoantígenos con un valor umbral, en el que se añade un neoantígeno a dicho subconjunto si la probabilidad de presentación asociada supera dicho valor umbral; e identificar una o más células T que son específicas del antígeno para por lo menos uno de los neoantígenos en dicho subconjunto.
ES21742134T 2020-07-14 2021-07-12 Procedimiento, sistema y producto de programa informático para determinar las probabilidades de presentación de neoantígenos Active ES2991797T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP20185779 2020-07-14
PCT/EP2021/069341 WO2022013154A1 (en) 2020-07-14 2021-07-12 Method, system and computer program product for determining presentation likelihoods of neoantigens

Publications (1)

Publication Number Publication Date
ES2991797T3 true ES2991797T3 (es) 2024-12-04

Family

ID=71620189

Family Applications (1)

Application Number Title Priority Date Filing Date
ES21742134T Active ES2991797T3 (es) 2020-07-14 2021-07-12 Procedimiento, sistema y producto de programa informático para determinar las probabilidades de presentación de neoantígenos

Country Status (6)

Country Link
US (1) US20230298692A1 (es)
EP (1) EP4182928B1 (es)
JP (1) JP2023534220A (es)
CN (1) CN115836350A (es)
ES (1) ES2991797T3 (es)
WO (1) WO2022013154A1 (es)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230081439A1 (en) * 2021-09-10 2023-03-16 X Development Llc Generative tna sequence design with experiment-in-the-loop training
CN115512762B (zh) * 2022-10-26 2023-06-20 北京百度网讯科技有限公司 多肽序列的生成方法、装置、电子设备及存储介质
CN116013404B (zh) * 2022-12-28 2025-11-28 云南大学 一种多模态融合深度学习模型及多功能生物活性肽预测方法
CN116741275B (zh) * 2023-06-20 2025-08-19 森瑞斯生物科技(深圳)有限公司 一种基于大型预训练模型的新型抗菌肽设计方法
EP4520345A1 (en) 2023-09-06 2025-03-12 Myneo Nv Product
WO2025191132A1 (en) * 2024-03-15 2025-09-18 Evaxion Biotech A/S Mhc ligand identification and related systems and methods
CN118571309B (zh) * 2024-04-16 2025-04-18 四川大学华西医院 抗生素耐药基因或毒力因子的基因预测或分类方法、装置、设备
CN118898031A (zh) * 2024-09-30 2024-11-05 中国海洋大学 一种基于位置编码的抗冻肽快速预测方法及装置
CN119296653B (zh) * 2024-10-12 2025-09-16 西安电子科技大学 一种预测主要组织相容性复合体与多肽的亲和力的方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016128060A1 (en) 2015-02-12 2016-08-18 Biontech Ag Predicting t cell epitopes useful for vaccination
RU2729116C2 (ru) 2015-12-16 2020-08-04 Гритстоун Онколоджи, Инк. Идентификация, производство и применение неоантигенов
GB201607521D0 (en) 2016-04-29 2016-06-15 Oncolmmunity As Method
US10350280B2 (en) 2016-08-31 2019-07-16 Medgenome Inc. Methods to analyze genetic alterations in cancer to identify therapeutic peptide vaccines and kits therefore
AU2018279627B2 (en) * 2017-06-09 2023-08-10 Seattle Project Corp. Neoantigen identification, manufacture, and use

Also Published As

Publication number Publication date
CN115836350A (zh) 2023-03-21
JP2023534220A (ja) 2023-08-08
US20230298692A1 (en) 2023-09-21
EP4182928A1 (en) 2023-05-24
EP4182928B1 (en) 2024-09-04
EP4182928C0 (en) 2024-09-04
WO2022013154A1 (en) 2022-01-20

Similar Documents

Publication Publication Date Title
ES2991797T3 (es) Procedimiento, sistema y producto de programa informático para determinar las probabilidades de presentación de neoantígenos
Baldi et al. Bioinformatics: the machine learning approach
CN113168887B (zh) 用于结合亲和力预测的方法和系统以及生成候选蛋白-结合肽的方法
BR112020023429A2 (pt) métodos e aparelhos para a previsão multimodal usando um modelo estatístico treinado
CN114708931A (zh) 结合机器学习和构象计算提高药-靶活性预测精度的方法
CN106503484A (zh) 一种基于抽象凸估计的多阶段差分进化蛋白质结构预测方法
CN111816255A (zh) 融合多视角和最优多标签链式学习的rna结合蛋白识别
Tran et al. An extensive examination of discovering 5-Methylcytosine Sites in Genome-Wide DNA Promoters using machine learning based approaches
Downey et al. alineR: An R package for optimizing feature-weighted alignments and linguistic distances
Tan et al. Rdesign: Hierarchical data-efficient representation learning for tertiary structure-based rna design
Wang et al. Improving the topology prediction of α-helical transmembrane proteins with deep transfer learning
KR20240110613A (ko) 면역학적 펩타이드 서열을 평가하기 위한 시스템 및 방법
Ullanat et al. Learning the language of protein-protein interactions
Zviling et al. Genetic algorithm-based optimization of hydrophobicity tables
Szymczak et al. HydrAMP: A deep generative model for antimicrobial peptide discovery
US20230377682A1 (en) Peptide binding motif generation
Fariselli et al. Prediction of structurally-determined coiled-coil domains with hidden Markov models
He et al. An inductive learning-based method for predicting drug-gene interactions using a multi-relational drug-disease-gene graph
Zhong et al. A free energy perturbation-assisted machine learning strategy for mimotope screening in neoantigen-based vaccine design
Ma et al. Clustering protein sequences with a novel metric transformed from sequence similarity scores and sequence alignments with neural networks
Obonyo et al. RNA generative modeling with tree search
KR102558550B1 (ko) 인공지능 기술을 이용하여 tcr에 대한 예측 결과를 생성하기 위한 방법 및 장치
Sumanaweera Minimum Message Length Inference of Protein Alignments and Statistical Models of Amino Acid Evolution
Ji Improving protein structure prediction using amino acid contact & distance prediction
Weinstein et al. Estimating the causal effects of T cell receptors