EP3559841B1

EP3559841B1 - Normalisation de couverture de base et son utilisation pour détecter une variation du nombre de copies

Info

Publication number: EP3559841B1
Application number: EP17838107.5A
Authority: EP
Inventors: Catalin Barbacioru
Original assignee: Grail Inc
Current assignee: Grail Inc
Priority date: 2016-12-22
Filing date: 2017-12-22
Publication date: 2025-08-06
Anticipated expiration: 2037-12-22
Also published as: US20240387000A1; US20180225413A1; EP3559841A1; WO2018119438A1; US12100483B2

Claims

Procédé mis en œuvre par ordinateur pour détecter des variations du nombre de copies dans un échantillon, le procédé comprenant les étapes suivantes :
obtenir des lectures de séquences pour une pluralité de fragments d'acide nucléique, la pluralité de fragments d'acide nucléique étant obtenue à partir de l'échantillon à l'aide d'une pluralité de sondes ;

pour chaque position de base d'un gène :
déterminer la couverture au niveau des bases de la position de base à partir des lectures de séquences qui couvrent la position de base ;

modifier la couverture au niveau des bases de la position afin de tenir compte des caractéristiques de chacune d'un sous-ensemble de la pluralité de sondes qui ciblent une partie du gène qui couvre la position de base ; et

appliquer une ou plusieurs couvertures de niveau de base modifiées pour une pluralité de positions de base du gène en tant qu'entrée à un modèle linéaire afin de déterminer un coefficient de gène indiquant un niveau de couverture à travers le gène par rapport à un niveau de couverture du gène dans des échantillons d'apprentissage ;

où la modification de la couverture au niveau des bases de la position de base comprend l'application d'un premier modèle, ledit premier modèle étant généré par les étapes suivantes :
obtenir des exemples d'apprentissage comprenant des lectures de séquences d'apprentissage qui croisent chacune au moins l'une de la pluralité de positions de base d'une région du gène ;

déterminer la couverture au niveau des bases pour chacune de la pluralité de positions de base du gène sur la base des lectures de séquences d'apprentissage qui croisent la position de base du gène ; et

réaliser un ou plusieurs ajustements de la couverture au niveau des bases des lectures de séquences d'apprentissage à travers la pluralité de positions de base du gène afin d'obtenir un ou plusieurs paramètres du premier modèle ;

où la réalisation desdits un ou plusieurs ajustements de la couverture au niveau des bases comprend en outre les étapes suivantes :
réaliser un ajustement polynomial de la couverture au niveau des bases sur la pluralité de positions de base de la région du gène afin d'obtenir un premier ensemble de paramètres ;

pour chaque position de base dans la région du gène, déterminer une couverture théorique au niveau des bases à l'aide du premier ensemble de paramètres ; et

générer des paramètres du premier modèle en réalisant un ajustement linéaire des couvertures théoriques au niveau des bases sur la pluralité de positions de base de la région du gène ;

où une ou plusieurs des caractéristiques d'une sonde utilisée pour obtenir un fragment d'acide nucléique sont représentées comme un paramètre du premier modèle ;

et où les caractéristiques d'une sonde utilisée pour obtenir un fragment d'acide nucléique comprennent :
(i) une efficacité de capture, ou pull-down, de la sonde ; et/ou

(ii) une distance entre une coordonnée génomique du gène sur lequel la sonde est centrée et la position de base du gène ; et/ou

(iii) une teneur en GC dans la sonde.
Procédé selon la revendication 1, comprenant en outre l'appel d'une variation du nombre de copies pour le gène en comparant le coefficient déterminé du gène à une valeur seuil.
Procédé selon la revendication 2, comprenant en outre la détermination de la présence d'un cancer dans l'échantillon sur la base de l'appel de la variation du nombre de copies.
Procédé selon l'une quelconque des revendications 1 à 3, dans lequel la modification de la couverture au niveau des bases de la position de base comprend les étapes suivantes :
(i) redimensionner la couverture au niveau des bases de la position de base à l'aide d'un niveau de couverture au niveau des bases médian de l'échantillon ; et/ou

(ii) normaliser la couverture au niveau des bases pour la teneur en GC dans une région du gène, où, en option, la modification de la couverture au niveau des bases pour la teneur en GC dans la région du gène comprend la réalisation d'un ajustement sur la teneur en GC dans une fenêtre de la région du gène, et, éventuellement, où la fenêtre de la région du gène a une taille comprise entre 4 et 200 paires de bases, entre 5 et 100 paires de bases, entre 6 et 80 paires de bases, entre 8 et 60 paires de bases, entre 10 et 40 paires de bases, entre 12 et 30 paires de bases, au moins 5 paires de bases, au moins 10 paires de bases, au moins 15 paires de bases, au moins 20 paires de bases, au moins 25 paires de bases, au moins 30 paires de bases, au moins 35 paires de bases, au moins 40 paires de bases ou 21 paires de bases ; et/ou

(iii) normaliser la couverture au niveau des bases pour un biais de mappabilité résultant d'une mappabilité de la position de base, où, en option, la normalisation de la couverture au niveau des bases pour un biais de mappabilité comprend la réalisation d'un ajustement sur la mappabilité des positions de base dans une fenêtre de la région du gène ; et/ou

(iv) réaliser une analyse en composantes principales pour identifier les biais provenant de sources inconnues, où, en option, les composantes principales de l'analyse en composantes principales sont déterminées pour la position de base à partir d'échantillons d'apprentissage.
Procédé selon l'une quelconque des revendications 1 à 4, comprenant en outre les étapes suivantes :
avant de déterminer le niveau de couverture pour le gène, filtrer une ou plusieurs positions du gène, le filtrage comprenant :
la détermination d'un niveau de couverture médian du gène sur la base des niveaux de couverture déterminés des positions de base du gène,

l'élimination des positions de base du gène ayant un niveau de couverture qui diffère du niveau de couverture médian au-delà d'une quantité seuil ;

et, en option, où la quantité seuil dépend d'un écart de niveau de couverture du gène calculé à partir des niveaux de couverture déterminés des positions de base du gène.
Procédé selon l'une quelconque des revendications 1 à 5, dans lequel l'échantillon d'essai est enrichi en fragments d'ADN indicatifs d'un ou plusieurs des éléments suivants : la présence ou l'absence d'un cancer, le statut d'un cancer ou une classification d'un cancer.
Procédé selon l'une quelconque des revendications 1 à 6, dans lequel les lectures de séquences obtenues sont séquencées à partir d'un échantillon d'acide nucléique exempt de cellules obtenu à partir d'un individu, le procédé comprenant en outre, de manière optionnelle, les étapes suivantes :
collecter ou avoir préalablement collecté l'échantillon d'acide nucléique exempt de cellules à partir d'un échantillon de sang de l'individu ; et

enrichir la pluralité de fragments d'acide nucléique provenant de l'échantillon d'acide nucléique exempt de cellules afin de générer les lectures de séquences.
Procédé selon l'une quelconque des revendications 1 à 7, dans lequel les lectures de séquence obtenues sont séquencées à partir d'un échantillon de sang, de sang total, de plasma, de sérum, d'urine, de liquide céphalo-rachidien, de matières fécales, de salive, de larmes, d'une biopsie tissulaire, de liquide pleural, de liquide péricardique ou de liquide péritonéal d'un individu.
Procédé selon l'une quelconque des revendications 1 à 8, dans lequel le gène est inclus dans un panel de gènes ciblés.
Système pour détecter des variations du nombre de copies dans un échantillon, le système comprenant :
une mémoire de stockage pour stocker des lectures de séquences pour une pluralité de fragments d'acide nucléique, la pluralité de fragments d'acide nucléique étant obtenue à partir d'un échantillon à l'aide d'une pluralité de sondes ;

un processeur couplé de manière communicative à la mémoire de stockage pour appeler une variation du nombre de copies d'un gène, où l'appel de la variation du nombre de copies du gène comprend les étapes suivantes :
pour chaque position de base du gène :
déterminer la couverture au niveau des bases de la position de base à partir des lectures de séquences qui couvrent la position de base ;

modifier la couverture au niveau des bases de la position afin de tenir compte des caractéristiques de chacune d'un sous-ensemble de la pluralité de sondes qui ciblent une partie du gène qui couvre la position de base ; et

appliquer une ou plusieurs couvertures de niveau de base modifiées pour une pluralité de positions de base du gène en tant qu'entrée à un modèle linéaire afin de déterminer un coefficient de gène indiquant un niveau de couverture à travers le gène par rapport à un niveau de couverture du gène dans des échantillons d'apprentissage ;

où la modification de la couverture au niveau des bases de la position de base comprend l'application d'un premier modèle, ledit premier modèle étant généré par les étapes suivantes :
obtenir des exemples d'apprentissage comprenant des lectures de séquences d'apprentissage qui croisent chacune au moins l'une de la pluralité de positions de base d'une région du gène ;

déterminer la couverture au niveau des bases pour chacune de la pluralité de positions de base du gène sur la base des lectures de séquences d'apprentissage qui croisent la position de base du gène ; et

réaliser un ou plusieurs ajustements de la couverture au niveau des bases des lectures de séquences d'apprentissage à travers la pluralité de positions de base du gène afin d'obtenir un ou plusieurs paramètres du premier modèle ;

où la réalisation desdits un ou plusieurs ajustements de la couverture au niveau des bases comprend en outre les étapes suivantes :
réaliser un ajustement polynomial de la couverture au niveau des bases sur la pluralité de positions de base de la région du gène afin d'obtenir un premier ensemble de paramètres ;

pour chaque position de base dans la région du gène, déterminer une couverture théorique au niveau des bases à l'aide du premier ensemble de paramètres ; et

générer des paramètres du premier modèle en réalisant un ajustement linéaire des couvertures théoriques au niveau des bases sur la pluralité de positions de base de la région du gène ;

où une ou plusieurs des caractéristiques d'une sonde utilisée pour obtenir un fragment d'acide nucléique sont représentées comme un paramètre du premier modèle ;

et où les caractéristiques d'une sonde utilisée pour obtenir un fragment d'acide nucléique comprennent :
(i) une efficacité de capture, ou pull-down, de la sonde ; et/ou

(ii) une distance entre une coordonnée génomique du gène sur lequel la sonde est centrée et la position de base du gène ; et/ou

(iii) une teneur en GC dans la sonde.
Système selon la revendication 10, dans lequel l'appel de la variation du nombre de copies pour le gène est effectué en comparant le coefficient déterminé du gène à une valeur seuil.
Système selon la revendication 11, comprenant en outre de déterminer la présence d'un cancer dans l'échantillon sur la base de l'appel de la variation du nombre de copies.
Support de stockage non transitoire lisible par ordinateur stockant un code de programme exécutable par ordinateur qui, lorsqu'il est exécuté par un processeur, amène le processeur à traiter des lectures de séquences pour une pluralité de fragments d'acide nucléique, la pluralité de fragments d'acide nucléique étant obtenue à partir d'un échantillon à l'aide d'une pluralité de sondes, afin de :
pour chaque position de base d'un gène :
déterminer la couverture au niveau des bases de la position de base à partir des lectures de séquences qui couvrent la position de base du gène ;

modifier la couverture au niveau des bases de la position de base afin de tenir compte des caractéristiques de chacune d'un sous-ensemble de la pluralité de sondes qui ciblent une région du gène qui couvre la position de base ; et

appliquer une ou plusieurs couvertures de niveau de base modifiées pour une pluralité de positions de base du gène en tant qu'entrée à un modèle linéaire afin de déterminer un coefficient de gène indiquant un niveau de couverture à travers le gène par rapport à un niveau de couverture du gène dans des échantillons d'apprentissage ;

où la modification de la couverture au niveau des bases de la position de base comprend l'application d'un premier modèle, ledit premier modèle étant généré par les étapes suivantes :
obtenir des exemples d'apprentissage comprenant des lectures de séquences d'apprentissage qui croisent chacune au moins l'une de la pluralité de positions de base d'une région du gène ;

déterminer la couverture au niveau des bases pour chacune de la pluralité de positions de base du gène sur la base des lectures de séquences d'apprentissage qui croisent la position de base du gène ; et

réaliser un ou plusieurs ajustements de la couverture au niveau des bases des lectures de séquences d'apprentissage à travers la pluralité de positions de base du gène afin d'obtenir un ou plusieurs paramètres du premier modèle ;

où la réalisation desdits un ou plusieurs ajustements de la couverture au niveau des bases comprend en outre les étapes suivantes :
réaliser un ajustement polynomial de la couverture au niveau des bases sur la pluralité de positions de base de la région du gène afin d'obtenir un premier ensemble de paramètres ;

pour chaque position de base dans la région du gène, déterminer une couverture théorique au niveau des bases à l'aide du premier ensemble de paramètres ; et

générer des paramètres du premier modèle en réalisant un ajustement linéaire des couvertures théoriques au niveau des bases sur la pluralité de positions de base de la région du gène ;

où une ou plusieurs des caractéristiques d'une sonde utilisée pour obtenir un fragment d'acide nucléique sont représentées comme un paramètre du premier modèle ;

et où les caractéristiques d'une sonde utilisée pour obtenir un fragment d'acide nucléique comprennent :
(i) une efficacité de capture, ou pull-down, de la sonde ; et/ou

(ii) une distance entre une coordonnée génomique du gène sur lequel la sonde est centrée et la position de base du gène ; et/ou

(iii) une teneur en GC dans la sonde.
Support de stockage non transitoire lisible par ordinateur selon la revendication 13, dans lequel le traitement des lectures de séquences comprend en outre l'appel d'une variation du nombre de copies pour le gène en comparant le coefficient déterminé du gène à une valeur seuil.
Support de stockage non transitoire lisible par ordinateur selon la revendication 14, dans lequel le traitement des lectures de séquences comprend en outre de déterminer la présence d'un cancer dans l'échantillon sur la base de l'appel de la variation du nombre de copies.