-
Hintergrund
-
Diese
Anmeldung beansprucht die Priorität der provisorischen U.S. Anmeldung
Nr. 60/368,789, eingereicht am 29. März 2002.
-
Die
Erfindung betrifft die Auswahl von Portfolios diagnostischer Marker.
-
Derzeit
werden einige Einzelgene als diagnostische Marker verwendet, sowie
her-2-neu. Allerdings können
Krankheiten normalerweise nicht mittels einer molekularen Diagnostik
diagnostiziert werden, die nur ein bestimmtes Gen verwendet. Vielmehr
sind oft mehrere Marker notwendig und die Anzahl derartiger Marker, die
in einen auf der differenziellen Genmodulation basierenden Assay
aufgenommen werden müssen
kann groß sein
und sogar Hunderte von Genen umfassen. Daher ist es wünschenswert,
Marker in Portfolios zu gruppieren, so dass die zuverlässigsten
Ergebnisse unter Verwendung der geringstmöglichen Anzahl von Markern erhalten
wird, die für
ein derartiges Ergebnis notwendig sind. Dies trifft insbesondere
für Assays
zu, die mehrere Schritte umfassen, so wie beispielsweise Nukleinsäureamplifikationsschritte.
-
Zusammenfassung der Erfindung
-
Die
Erfindung betrifft ein Verfahren zur Vorhersage von Metastasen in
einer Brustkrebspatientin durch Identifizieren der differentiellen
Modulation jedes Gens (relativ zur Expression der gleichen Gene
in einer normalen Population) in einer Kombination von Genen entsprechend
zu denjenigen Genen, die eine Sequenz gemäß Seq. ID. Nr. 70–97 aufweisen.
-
Genexpressionsportfolios
und Kits zur Durchführung
des Verfahrens stellen weitere Aspekte der Erfindung dar.
-
Ausführliche Beschreibung
-
Die
Verfahren der vorliegenden Erfindung können in Verbindung mit jeglichem
Verfahren zur Bestimmung des Genexpressionsmusters von relevanten
Zellen, als auch mit proteinbasierten Verfahren zur Bestimmung der
Genexpression verwendet werden. Bevorzugte Verfahren zur Erstellung
von Genexpressionsprofilen schließen die Bestimmung der RNA-Menge
ein, die von einem Gen produziert werden, welches für ein Protein
oder ein Peptid kodieren kann. Diese Bestimmung wird durch reverse
Transskriptase PCR (RT-PCR), kompetitive RT-PCR, Echtzeit RT-PCR,
differentielle Display RT-PCR, Northern Blot Analyse und andere
verwandte Tests erreicht. Obwohl es möglich ist diese Techniken mittels
individueller PCR Reaktionen durchzuführen ist es vorteilhafter,
auf der Basis von mRNA hergestellte „copy DANN" (cDNA) oder „copy RNA" (cRNA) zu amplifizieren und mittels
eines Mikroarray zu analysieren. Verschiedene Arraykonfigurationen
und Herstellungsverfahren sind dem Fachmann bekannt und werden in
den folgenden US-Patenten
beschrieben:
5,445,934 ;
5,532,128 ;
5,556,752 ;
5,242,974 ;
5,384,261 ;
5,405,783 ;
5,412,087 ;
5,424,186 ;
5,429,807 ;
5,436,327 ;
5,472,672 ;
5,527,681 ;
5,529,756 ;
5,545,531 ;
5,554,501 ;
5,561,071 ;
5,571,639 ;
5,593,839 ;
5,599,695 ;
5,624,711 ;
5,658,734 und
5,700,637 .
-
Die
Mikroarraytechnologie erlaubt die Messung von mRNA-Spiegeln im Gleichgewichtszustand
von Tausenden von Genen gleichzeitig und stellt daher ein wirkungsvolles
Werkzeug zur Identifizierung von Effekten dar, wie den Beginn, das
Anhalten oder die Modulation der unkontrollierten Zellproliferation.
Derzeit werden zwei Mikroarraytechnologien häufig verwendet. Die erste Technologie
basiert auf cDNA Arrays und die zweite auf Oligonukleotidarrays.
Obwohl es in der Herstellung derartiger Chips Unterschiede gibt,
sind Datenanalyse und Datenausgabe im Wesentlichen gleich. Das Produkt
derartiger Analysen sind typischerweise Messungen der Intensität von Signalen,
die von einer markierten Sonde stammen, welche zur Detektion einer
cDNA Sequenz der Probe verwendet werden, und die mit einer Nukleinsäuresequenz
in einer bekannten Position auf dem Mikroarray hybridisieren. Typischerweise
ist die Signalintensität
proportional zur Menge der cDNA und daher proportional zur Menge
der mRNA, die in den Probenzellen expliziert wird. Eine große Zahl
derartiger Techniken sind bekannt und nützlich. Bevorzugte Verfahren
zur Bestimmung der Genexpression können in den folgenden Dokumenten
gefunden werden:
US Patent 6,271,002 (Linsley
et al.);
6,218,122 (Friend
et al.);
6,218,114 (Peck
et al.) und
6,004,755 (Wang
et al.).
-
Die
Analyse der Expressionsstärke
erfolgt durch Vergleich derartiger Intensitäten. Dies erfolgt günstigsterweise
durch Generierung einer Verhältnismatrix
der Expressionsintensitäten
von Genen in einer Testprobe gegenüber einer Kontrollprobe. Beispielsweise
können
die Genexpressionsintensitäten
von einem krankhaften Gewebe mit Genexpressionsintensitäten verglichen
werden, die von normalem Gewebe des gleichen Typs stammen (z. B.
eine krankhafte Colongewebeprobe gegenüber einer normalen Colongewebeprobe).
Das Verhältnis
dieser Expressionsintensitäten
zeigt die x-fache Veränderung
zwischen den Testproben und Kontrollproben an.
-
Modulierte
Gene sind solche, die in nicht normalen Zellen als hochregulierte
oder herunterregulierte Gene differentiell exprimiert werden. Hochregulation
und Runterregulation sind relative Begriffe die bedeuten, dass eine
messbare Differenz (jenseits des Messfehlers des Systems, das zur
Messung verwendet wird) in der Expressionsmenge des Gens relativ
zu einer Grundlinie („baseline") gefunden wird.
In diesem Fall ist die Grundlinie die gemessene Genexpression einer
normalen Zelle. Die interessierenden Gene sind dann relativ zu der
Grundlinie entweder hochreguliert oder runterreguliert, wobei jeweils
die gleiche Messmethode Verwendung finden muss.
-
Bevorzugterweise
wird die Stärke
der Hoch- und Runterregulation als x-fache Veränderung der Intensitätsmessung
von hybridisierten Mikroarraysonden ausgedrückt. In dem Fall, in dem eine
1,5 oder mehrfache Differenz für
eine derartige Unterscheidung verwendet wird, zeigt die erkrankte
Zelle wenigstens 1,5 mal mehr, oder 1,5 mal weniger Intensität auf als
die normale Zelle.
-
Andere
Verfahren zur Feststellung derartiger Unterschiede sind ebenfalls
verwendbar. Beispielsweise können
statistische Tests dafür
verwendet werden, um die Gene zu finden, die mit der größten Signifikanz
zwischen verschiedenen Gruppen von Proben differieren. Der Student
t-Test stellt ein Beispiel für
einen robusten statistischen Test dar, der zum Auffinden signifikanter
Unterschiede zwischen zwei Gruppen verwendet werden kann. Je geringer
der p-Wert, desto
mehr spricht dies dafür,
dass das Gen einen Unterschied zwischen den verschiedenen Gruppen
zeigt. Da Mikroarrays mehr als ein Gen gleichzeitig messen, können Zehntausende von
statistischen Tests zur gleichen Zeit abgefragt werden. Aus diesem
Grund besteht die Wahrscheinlichkeit, kleine p-Werte zufälligerweise
zu erhalten. Demgemäß können Anpassungen
mittels einer Sidak-Korrektur und einem Randomisierungs-/Permutationsexperiment
durchgeführt
werden.
-
Ein
durch den t-Test erhaltener p-Wert kleiner als 0,05 ist Beweis dafür, dass
das Gen signifikant unterschiedlich ist. Einen zwingenderen Beweis
stellt ein p-Wert kleiner als 0,05 dar, der nach der Sidak-Korrektur erhalten
wurde. Für
eine große
Anzahl von Proben in jeder Gruppe stellt ein p-Wert kleiner als
0,05 nach dem Randomisierungs-/Permutationstest den zwingensten
Beweis für
einen signifikanten Unterschied dar.
-
Gene
können
derart gruppiert werden, dass die erhaltene Information über den
Satz von Genen in der Gruppe eine solide Basis für klinisch relevante Beurteilungen,
wie für
Diagnose, Prognose oder Behandlungsart, darstellt. Diese Sätze von
Genen stellen die Portfolios gemäß der Erfindung
dar. Wie bei den meisten diagnostischen Markern ist es oft wünschenswert
die kleinste Anzahl von Markern zu verwenden, die eine zutreffende
medizinische Beurteilung erlauben. Dies verhindert eine Verzögerung der
Behandlung aufgrund noch nicht vorliegender weitergehender Analysen
sowie eine unangemessene Verwendung von Zeit und Ressourcen. Ein
bevorzugtes optimales Portfolio ist eines, das die geringste Anzahl
Marker verwendet, um derartige Beurteilungen zu treffen, und gleichzeitig
die Voraussetzungen erfüllt,
die die Wahrscheinlichkeit für
eine zutreffende Beurteilung maximiert. Diese Vorraussetzungen schließen grundsätzlich Sensitivität und Spezifität ein. Im
Zusammenhang mit Mikroarraybasierten Detektionsverfahren kann die
Sensitivität
des Portfolios in den x-fachen Unterschieden ausgedrückt werden,
die durch die Expression eines Gens in einem erkrankten oder unnormalen
Status relativ zum normalen Status gezeigt wird. Die Detektion der
differentiellen Expression eines Gens ist sensitiv, wenn es eine
große
x-fache Veränderung
relativ zur Expression des Gens in einem anderen Status zeigt. Ein
weiterer Aspekt der Sensitivität
ist die Fähigkeit,
ein Signal vom Hintergrund zu unterscheiden. Während beispielsweise die Expression
eines Satzes von Genen eine adäquate
Sensitivität
zur Definition eines bestimmten Krankheitsstatus zeigen kann, sollte
ein Gen aus dem optimalen Portfolio entfernt werden, wenn das von
diesem Gen generierte Signal (z. B. Intensitätsmessungen in Mikroarrays)
unter einem Wert liegt, der eine leichte Unterscheidung von Hintergrundsignal
in einem bestimmten Setting (z. B. einem klinischen Laborator) erlaubt.
Das Vorgeben bestimmter Bedingungen, wie solche die ein optimales
Portfolio definieren, kann in das erfindungsgemäße Verfahren aufgenommen werden.
-
Spezifität kann sich
aus statistischen Messungen der Korrelation der Genexpressionssignale
mit dem interessierenden Zustand ergeben. Wenn sich herausstellt,
dass die differentielle Expression eines Satzes von Genen zu einer
großen
x-fachen Veränderung
führt,
aber das diese Veränderung
auch für
eine Anzahl weiterer Zustände
neben dem interessierenden Zustand (z. B. multiple Krankheitsstaten)
auftritt, dann ist das Genexpressionsprofil für diesen Satz von Genen unspezifisch.
Statische Messungen der Korrelation von Daten oder dem Grad der
Konsistenz von Daten wie der Standardabweichung, den Korrelationskoeffizienten
u. a. können für derartige
Messungen herangezogen werden. Beim in Betracht ziehen einer Gruppe
von Genen zur Aufnahme in ein Portfolio korreliert eine kleine Standardabweichung
bei den Expressionsmessungen mit einer größeren Spezifität. Gene
mit ähnlichen
Expressionsmustern können
von einem identischen Faktor koreguliert werden, der die Gene in
der gleichen Richtung beeinflusst. Wenn dieser Faktor zur Klassifizierung
einer Probe hinreichend, aber nicht notwendig ist, dann werden diese
Gene eine Probe nicht korrekt identifizieren, wenn die Marker alle
mit diesem einzelnen Faktor in Beziehung stehen. Diversifikation
führt dann
zu der Selektion von möglichst
wenig Markern, wobei gleichzeitig so viele wie möglich verschiedene optimale
Expressionsmuster abgedeckt werden, wie im Datensatz vorhanden sind.
-
In
dem Verfahren gemäß der Erfindung
wird eine Gruppe genetischer Marker zur Verwendung in diagnostischen
Applikationen ausgewählt.
Diese Gruppen von Markern sind „Portfolios". Diagnostische Applikationen
schließen
die Folgenden ein: die Detektion oder Identifikation eines Krankheitsstatus
oder eines Krankheitszustands eines Subjektes, die Bestimmung der
Wahrscheinlichkeit, dass ein Subjekt an einer bestimmten Krankheit
erkranken wird oder einen bestimmten Zustand zeigen wird, die Bestimmung
der Wahrscheinlichkeit, dass ein Subjekt mit einer Krankheit oder
einem Zustand auf eine Therapie ansprechen wird, die Bestimmung der
Prognose eines Subjektes mit einer Krankheit oder einem Zustand
(oder seiner wahrscheinlichen Progression oder Regression) und die
Bestimmung des Effektes einer Behandlung eines Subjektes mit einer
Krankheit oder einem Zustand. Das Verfahren kann beispielsweise
dazu verwendet werden, Portfolios zur Bestimmung des Vorhandenseins
von Colonkrebs in einem Subjekt oder zur Bestimmung der Wahrscheinlichkeit
eines Subjekts zu bestimmen, an Colonkrebs zu erkranken oder zur Bestimmung
der Wahrscheinlichkeit, dass ein Subjekt auf ein cytotoxisches Medikament
positiv anspricht.
-
Die
Portfolios, die durch das Verfahren gemäß der Erfindung selektiert
werden, enthalten eine Anzahl und einen Typ von Markern, die akkurate
und präzise
Ergebnisse sicherstellen und im Bezug auf die Anzahl der Gene, die
im Portfolio enthalten sind, optimiert sind. Das Verfahren der Erfindung
kann zur Etablierung optimaler Genexpressionsportfolios für jede Krankheit,
für jeden
Zustand oder Status, der mit der Expression multipler Gene einhergeht,
etabliert werden. Ein optimales Portfolio im Sinne der vorliegenden
Erfindung bezieht sich auf ein Genexpressionsprofil, das die Beurteilung
des Zustandes eines Subjektes (basierend auf dem Zustand, für den die
Analyse durchgeführt
wurde) gemäß vorbestimmten
Standards von mindestens zwei der folgenden Parameter ermöglicht:
Genauigkeit, Präzision
und Anzahl der Gene, die im Portfolio vorhanden sind.
-
Am
stärksten
bevorzugter Weise werden Marker in dem Portfolio verwendet, die
Nukleinsäuresequenzen
sind, welche ein mRNA exprimieren („Gene"). Die Expression der Marker kann gewöhnlicherweise
in einem gesunden Subjekt erfolgen und kann stärker oder weniger stark exprimiert
werden, wenn ein Ereignis auftritt, das Gegenstand der diagnostischen
Anwendung ist. Alternativ kann die Expression nicht erfolgen, wenn das
Ereignis, das Gegenstand der diagnostischen Applikation ist, eintritt.
-
Markerattribute,
Charakteristika, Indices oder Messungen, die miteinander verglichen
werden können um
diagnostische Beurteilungen durchzuführen, stellen in dem Verfahren
diagnostische Parameter dar. Indikatoren für Genexpressionsstärke sind
die am meisten bevorzugten diagnostischen Parameter. Derartige Indikatoren
schließen,
wie oben beschrieben, Intensitätsmessungen
von Mikroarrays ein. Andere diagnostische Parameter sind ebenfalls
möglich,
wie Indikatoren des relativen Methylierungsgrades der Marker.
-
Unterscheidungen
zwischen den diagnostischen Parametern werden unter Verwendung mathematischer/statistischer
Größen vorgenommen,
die zueinander in Beziehung stehen. Die bevorzugten Unterscheidungen
sind der Mittelwert der Signale, die für Genexpressionen indikativ
sind und Messungen der Varianz derartiger Signale. Die am meisten
bevorzugten Unterscheidungen werden unter Verwendung des Mittelwerts von
Signalverhältnissen
zwischen verschiedenen Gruppen (z. B. Mikroarray Intensitätsmessungen)
und den Standardabweichungen der Signalverhältnismessungen durchgeführt. Eine
große
Anzahl derartiger mathematisch/statistischer Größen kann an deren Stelle verwendet
werden, so wie der Ertrag („return”) bei einem
gegebenen Percentil.
-
Eine
Beziehung zwischen diagnostischen Parameterunterscheidungen wird
zur Optimierung der Marker verwendet, die für die diagnostische Applikation
nützlich
sind. Dies erfolgt typischerweise unter Verwendung linearer oder
quadratischer Programmalgorithmen. Es können jedoch auch heuristische
Ansätze
verwendet werden oder diese heuristischen Ansätze können zur Ergänzung der
Input-Datenselektion oder dem Daten-Output verwendet werden. Das
am meisten bevorzugte Verhältnis
ist ein Mittelwert-Varianzverhältnis,
so wie es in „Mean-Variance
Analysis in Portfolio Choice and Capital Markets" by Harry M. Markowitz (Frank J. Fabozzi
Associates, New Hope, PA: 2000, ISBN: 1-883249-75-9) beschrieben
ist, das hierdurch mittels Verweis aufgenommen wird. Das Verhältnis kann
am besten im Kontext der Selektion von Aktien für ein Finanzinvestmentportfolio
verstanden werden. Dies ist der Zusammenhang, für den die Beziehung entwickelt
und beschrieben wurde.
-
Ein
Investor mit dem Ziel, ein Aktienportfolio zu optimieren kann aus
einer großen
Anzahl möglicher Aktien
auswählen,
wobei jede Aktie sich durch eine aus der Vergangenheit bekannte
Ertragsrate und einem aus der Vergangenheit bekannten Risikofaktor
auszeichnet. Die Mittelwert-Varianzmethode verwendet einen kritische-Grenze
(critical line)-Algorithmus der linearen Programmierung oder der
quadratischen Programmierung, um alle möglichen Portfolios zu identifizieren,
die das Risiko (gemessen durch Varianz oder Standardabweichung)
für ein
vorgegebenes Level des erwarteten Ertrages minimieren und um den
erwarteten Ertrag für ein
vorgegebenes Risikolevel zu maximieren. Wenn die Standardabweichung
gegen den erwarteten Ertrag aufgetragen wird, wird eine effiziente
Grenze („efficient
frontier") erzeugt.
Eine Auswahl von Aktien entlang dieser effizienten Grenze führt zu einem
diversifizierten Aktienportfolio, das in Bezug auf Ertrag und Risiko
optimiert ist.
-
Wenn
die Mittelwertvarianzbeziehung im Verfahren der vorliegenden Erfindung
verwendet wird, ersetzen diagnostische Parameter wie die Mikroarraysignalintensität und die
Standardabweichung die Parameter Ertrag und Risiko, die für die Auswahl
eines Finanzportfolios verwendet werden. Wenn die Mittelwertvarianzbeziehung
angewendet wird kommt bevorzugterweise eine kommerzielle Computersoftwareanwendung,
wie die „Wagner Associates
Mean-Variance Optimization Application", im Folgenden als „Wagner Software" bezeichnet, zum
Einsatz. Diese Software verwendet Funktionen aus der „Wagner
Associates Mean-Variance Optimization Library", um eine effiziente Grenze und optimale
Portfolios im Markowitz-Sinn zu bestimmen. Da derartige Anwendungen
für Finanzanwendungen
gedacht sind kann es notwendig werden, die Eingabedaten derart zu
prozessieren, dass sie den von der Software vorausgesetzten Konventionen
entsprechen. Wenn die Wagner-Software zusammen mit Mikroarrayintensitätsmessungen
verwendet wird, wird das folgende Datentransformationsverfahren
angewendet.
-
Zunächst muss
eine Beziehung zwischen der Grundlinien eines jeden Genes und den
experimentellen Werten hergestellt werden. Das bevorzugte Verfahren
wird wie folgt durchgeführt.
Eine Grundlinie wird ausgewählt.
Dieser Schritt umfasst typischerweise Gene von einer Population,
die nicht den interessierenden Zustand zeigt. Wenn man beispielsweise
daran interessiert ist, ein Portfolio von Genen zur Diagnose von
Brustkrebs auszuwählen,
können
Proben von Patienten ohne Brustkrebs zur Erstellung der Grundlinien-Klasse
verwendet werden. Sobald die Grundlinien-Klasse ausgewählt ist,
werden das arithmetische Mittel und die Standardabweichung für den Indikator
der Genexpression jedes Gens für
die Proben der Grundlinien-Klasse berechnet. Dieser Indikator ist
typischerweise die Fluoreszenzintensität einer Mikroarraymessung.
Die berechneten statistischen Daten werden dann für jedes
Gen zur Berechnung eines Grundgenwertes gemäß (X·Standardabweichung + Mittelwert)
verwendet. Dies ist der Grundlinienmesswert für das Gen, mit dem alle anderen Proben
verglichen werden. X ist eine Stringenzvariable, die von der Person
ausgewählt
wird, die das Portfolio formuliert. Höhere Werte von X sind stringenter
als kleinere Werte. Bevorzugterweise liegt X in dem Bereich von
0,5 bis 3, wobei 2 bis 3 bevorzugter und 3 am bevorzugtesten ist.
-
Dann
wird das Verhältnis
zwischen jeder experimentellen Probe (die, die den interessierenden
Zustand zeigen) und dem Grundlinienmesswert berechnet. Die Verhältnisse
werden dann in logarithmische Werte zur Basis 10 umgerechnet, um
durch die Software leichter handhabbar zu sein. Dies ermöglicht es
herunterregulierten Genen negative Werte zuzuweisen, die zur Optimierung
gemäß des Markman
Mittelwert-Varianzalgorithmus unter Verwendung der Wagnersoftware
nötig sind.
-
Die
prä-prozessierten
Daten enthaltend diese transformierten Verhältnisse werden dann anstelle
der Ertragsratenwerte in die normalerweise für Finanzanalysen verwendete
Wagnersoftware als Input-Daten eingegeben.
-
Nachdem
eine effiziente Grenze formuliert ist, wird ein optimiertes Portfolio
für ein
vorgegebenes Input-Level (Ertragsrate) oder für eine vorgegebene Varianz
ausgewählt,
die mit einem Punkt auf der effizienten Grenze korrespondiert. Diese
Input-Daten oder Varianzen sind die vorgegebenen Standards, die
durch die das Portfolio formulierende Person festgelegt werden.
Anders formuliert, bei der Suche nach dem optimalen Portfolio wird
ein akzeptabler Input-Level (Indikativ für Sensitivität) oder
ein vorgegebenes Varianzlevel (Indikativ für Spezifität) bestimmt und es werden die
Gene selektiert, die entlang der effizienten Grenze liegen, welche mit
dem Input-Level oder der Varianz korrespondieren. Die Wagner Software
kann derartige Gene selektieren, wenn ein Input-Level oder eine
Varianz ausgewählt
ist. Sie kann jedem Gen im Portfolio auch ein Gewicht zuordnen,
so wie sie dies für
eine Aktie in einem Aktienportfolio tun würde.
-
Die
Bestimmung, ob eine Probe den Zustand aufweist, für welchen
das Portfolio diagnostisch ist kann durch Vergleich der Expression
von Genen im Portfolio für
die Patientenprobe mit den berechneten Werten der differentiell
exprimierten Gene durchgeführt
werden, die zur Etablierung des Portfolios verwendet werden. Bevorzugterweise
wird ein Portfoliowert zunächst
durch Zusammenfassung der Vielfachen der Intensitätswerte jedes
Gens im Portfolio durch das dem Gen während des Portfolioselektionsprozesses
zugeordneten Gewichtes generiert. Ein Grenzwert wird dann durch
(Y·Standardabweichung
+ Mittelwert des Portfoliowertes für die Grundliniengruppen) berechnet,
wobei Y ein Stringenzwert ist, mit der gleichen Bedeutung wie das
oben beschriebene X. Eine Probe mit einem Portfoliowert größer als
dem Grenzwert der Grundlinienldasse wird dann als den Zustand aufweisend
klassifiziert. Falls gewünscht
kann dieser Prozess gemäß den bekannten
statistischen Verfahren zur Verbesserung des Konfidenzintervalls
iterativ durchgeführt
werden.
-
Optional
kann dieser Prozess solange reiterativ durchgeführt werden, bis die beste Vorhersagegenauigkeit
erreicht ist.
-
Der
Prozess der Portfolioselektion und Charakterisierung einer Unbekannten
wird wie folgt zusammengefasst:
- 1. Auswählen einer
Grundlinienklasse.
- 2. Berechnen des Mittelwertes und der Standardabweichung jedes
Gens für
die Proben der Grundlinienklasse.
- 3. Berechnen von (X·Standardabweichung
+ Mittelwert) für
jedes Gen. Dies ist der Grundlinienmesswert mit dem alle anderen
Proben verglichen werden. X ist eine Stringenzvariable, wobei höhere Werte
von X eine höhere
Stringenz anzeigen als kleinere Werte.
- 4. Berechnen des Verhältnisses
jeder experimentellen Probe gegenüber dem in Schritt 3 berechneten Grundlinienmesswert.
- 5. Transformieren der Verhältnisse
derart, dass die Verhältnisse
kleiner als 1 negativ sind (z. B. unter Verwendung des Logarithmus
zur Basis 10). (Herunter regulierte Gene haben nun die für die MV
Optimierung nötigen
negativen Werte).
- 6. Diese transformierten Verhältnisse werden anstelle der
normalerweise mit der Softwareanwendung verwendeten Erträge als Input-Daten
verwendet.
- 7. Die Software trägt
die effiziente Grenze auf und zeigt ein optimiertes Portfolio in
jedem Punkt entlang der effizienten Grenze.
- 8. Auswählen
eines gewünschten
Ertrages oder einer gewünschten
Varianz auf der effizienten Grenze.
- 9. Berechnen des Wertes des Portfolios für jede Probe durch Summation
der Vielfachen der Intensitätswerte
jedes Gens mit dem Gewicht, dass durch den Portfolioselektionsalgorithmus
generiert wurde.
- 10. Berechnen des Grenzwertes durch Addition des mittleren Portfoliowertes
für Grundliniengruppen
zum Vielfachen von Y und der Standardabweichung der Portfoliowerte der
Grundlinie. Werte größer als
dieser Grenzwert werden als experimentelle Klasse bezeichnet.
- 11. Optional kann dieser Prozess reiteriert werden, bis die
beste Vorhersagegenauigkeit erhalten wird.
-
Ein
zweites Portfolio kann optional durch Umkehr der Grundlinie und
der experimentellen Kalkulation hergestellt werden. Dies führt zu einem
neuen Portfolio von Genen, die in der ursprünglichen Grundlinienklasse
hoch reguliert sind. Der Wert dieses zweiten Portfolios kann vom
Wert des ersten subtrahiert werden, um einen neuen, auf mehreren
Portfolios basierenden Klassifikationswert zu erhalten.
-
Eine
weitere nützliche
Methode zur Präselektion
von Genen aus Genexpressionsdaten, so dass sie als Ausgangspunkt
für ein
Verfahren zur Selektion eines Portfolios dienen können, basiert
auf einem Schwellenwert, der gegeben ist durch
wobei μ
t der
Mittelwert der Untermenge ist, der die Erkrankung oder den Zustand
umfasst, wobei μ
n der Mittelwert der Untermenge normaler
Proben ist, und wobei σ
t + σ
n die vereinigten Standardabweichungen darstellt. Es
kann auch ein Signal-Rausch-Ausschlusswert durch Präselektion
der Daten gemäß einer
Beziehung wie
verwendet werden. Dies stellt
sicher, dass die auf der Basis ihrer differentiellen Modulation
preselektierten Gene in einer klinisch signifikanten Weise differenziert
werden, d. h. oberhalb des Rauschens der zur Messung der diagnostischen
Parameter geeigneten Messinstrumente. Für jeden gemäß dieser Kriterien preselektierten Marker
wird eine Matrix erstellt, in der die Spalten die Proben repräsentieren
und die Zeilen die Marker repräsentieren
und jedes Element eine für
die Expression dieses Markers normalisierte Intensitätsmessung
gemäß der Beziehung
ist, wobei I der Intensitätsmesswert
ist.
-
Die
Verwendung dieses Prozesses zur Bereitstellung von Input-Daten für Finanzportfoliosoftware
ermöglicht
es auch, weitere Randbedingungen zur Definition des optimalen Portfolios
zu erstellen. Die Größe des Portfolios
kann beispielsweise auf einen festgelegten Bereich oder eine festgelegte
Anzahl von Markern beschränkt
werden. Dies kann entweder durch Erhöhung der Stringenz der Kriterien
für die
Datenpräselektion erfolgen
(z. B.
anstelle von
oder durch Anwendung von
Programmfunktionen wie der Verkleinerung der Portfoliogröße. So kann
beispielsweise die Randbedingung derart bestimmt werden, dass die
effiziente Grenze ausgewählt
wird aus nur den optimalen 10 Genen. Es ist auch möglich, alle
der zur Bestimmung der effizienten Grenze preselektierten Gene zu
verwenden und nachfolgend die Anzahl der selektierten Gene zu verringern
(z. B. auf nicht mehr als 10).
-
Der
Selektionsprozess eines Portfolios kann auch die Verwendung heuristischer
Regeln einschließen. Derartige
Regeln werden bevorzugterweise auf der Basis der Biologie und einem
Verständnis
für die
zur Gewinnung klinischer Ergebnisse verwendete Technologie erstellt.
Am meisten bevorzugterweise werden diese Regeln auf die Output-Daten
des Optimisierungsverfahrens angewendet. Das Mittelwertvarianzverfahren
der Portfolioselektion kann beispielsweise auf Mikroarraydaten für eine Anzahl
von in Subjekten mit Brustkrebs differentiell exprimierten Genen
angewendet werden. Der Output dieses Verfahrens wäre ein optimierter
Satz von Genen, der sowohl solche Gene enthalten könnte, die
in peripheren Blut exprimiert werden, als auch solche Gene, die
im erkrankten Brustgewebe exprimiert werden. Wenn die im Testverfahren
verwendeten Proben aus peripherem Blut gewonnen werden und bestimmte
in Fällen
von Brustkrebs differentiell exprimierte Gene auch im peripherem
Blut differentiell exprimiert werden, kann eine heuristische Regel
angewendet werden, nach der ein Portfolio aus der effizienten Grenze
ausgewählt
wird, wobei die im peripheren Blut differentiell exprimierten Gene
ausgeschlossen werden. Diese Regel kann selbstverständlich vor
der Bildung der effizienten Grenze angewendet werden, beispielsweise
durch Anwendung der Regel während
der Preselektion der Daten.
-
Es
können
auch andere heuristische Regeln angewendet werden, die nicht notwendigerweise
im Zusammenhang mit dem fraglichen biologischen Sachverhalt stehen.
Beispielsweise kann die Regel angewendet werden, dass nur ein vorgegebener
Prozentsatz des Portfolios durch ein bestimmtes Gen repräsentiert
wird oder durch bestimmte Gene repräsentiert werden. Die kommerziell
erhältliche
Software wie die Wagner Software ermöglicht bereits die Anwendung
derartiger heuristischer Regeln. Dies kann z. B. dann nützlich sein, wenn
andere Faktoren als Genauigkeit und Präzision (z. B. erwartete Lizenzgebühren) einen
Einfluss auf die Erwünschtheit
des Einschließens
eines oder mehrerer Gene hat.
-
Neben
der Mittelwertvarianzbeziehung können
andere Beziehungen in dem Verfahren gemäß der vorliegenden Erfindung
verwendet werden, sofern sie das Portfolio gemäß predeterminierter Attribute
wie Testgenauigkeit und -präzision
optimieren. Zwei Beispiele sind der Martin simultane-Ausgleichs-Ansatz
(„simultaneous
equation approach")
(Elton, Edwin J. und Martin J. Gruber (1987), Modern Portfolio Theory
Investment Analysis, Third Edition, John Wiley, New York, 1987)
und genetische Algorithmen (Davis, L., (1989), Adapting Operator
Probabilities in Genetic Algorithms, in Proceedings of the Third
International Conference an Genetic Algorithms, Morgan Kaufmann:
San Mateo, Seiten 61–69).
Weiterhin existieren viele Wege, um die Mittelwertvarianzbeziehung
derart anzupassen, dass sie verzerrte Daten prozessieren kann, wie
solche Daten, die von einer Detektionstechnologie mit einer bekannten
Abweichung stammen. Derartige Technologien schließen z. B.
die Semi-Deviationsmethode ein, in der die Quadratwurzel der durchschnittlichen
(negativen) quadrierten Abweichung eines Referenzsignals nur solche
Signalwerte einschließt,
die unter das Referenzsignal fallen.
-
Aspekte
der vorliegenden Erfindung schließen Darstellungen der Genexpressionsprofile
ein, die solche Portfolios bilden, die zur Behandlung, Diagnose,
Prognose und anderweitiger Beurteilung von Krankheiten nützlich sind.
Diese Darstellungen sind auf ein Medium reduziert, das automatisch
von einer Maschine gelesen werden kann, beispielsweise ein computerlesbares
Medium (magnetisch, optisch, u. a.). Diese Artikel können auch
Anleitungen zur Beurteilung von Genexpressionsprofilen in derartigen
Medien enthalten. Die Artikel können
beispielsweise eine CD-ROM mit Computerinstruktionen zum Vergleich
von Genexpressionsprofilen des oben beschriebenen Genportfolios
enthalten. Die Artikel können
auch darauf digital gespeicherte Genexpressionsprofile enthalten,
so dass diese mit Genexpressionsdaten von Patientenproben verglichen
werden können.
Alternativ können
die Profile in verschiedenen Darstellungsformaten gespeichert werden.
Eine grafische Speicherung ist ein derartiges Format.
-
Verschiedene
Typen von Fertigungsartikeln gemäß der Erfindung
sind Medien oder formatierte Assays, die zur Entdeckung von Genexpressionsprofilen
verwendet werden. Diese können
beispielsweise Mikroarrays enthalten, in denen Sequenzkomplemente
oder Sonden auf einer Matrix befestigt sind, mit denen für das interessierende
Gen indikative Sequenzen sich vereinigen, und dabei eine lesbare
Determinante ihres Vorhandenseins erzeugen. Wenn ein derartiger
Mikroarray ein optimiertes Portfolio enthält, werden große Ersparnisse
im Bezug auf Zeit, Prozessschritte und Ressourcen durch Minimierung
der Anzahl von cDNA oder Oligonukleotiden erreicht, die zum Substrat
hinzu gegeben werden, mit der Probe reagieren, von einem Analyseapparat
gelesen werden, für
Ergebnisse prozessiert werden und (manchmal) verifiziert werden
müssen.
-
Andere
Artikel gemäß der Erfindung
können
als Reagenzien-Kits zur Durchführung
einer Hybridisierung, Amplifikation und Signalerzeugung bereitgestellt
werden, die für
das Expressionslevel der im Portfolio enthaltenen Gene indikativ
sind und durch das Verfahren gemäß der Erfindung
etabliert wurden. Gemäß der Erfindung
hergestellte Kits schließen
formatierte Tests zur Bestimmung der Genexpressionsprofile ein.
Diese können
alle oder einige der zur Durchführung
der Assays benötigten
Materialien, wie Reagenzien und Anleitungen enthalten.
-
BEISPIELE
-
Beispiel 1: Bereitstellung eines optimierten
Portfolios
-
Kürzlich wurden
Genexpressionsdaten aus für
elf verschiedene Krebstypen repräsentativen
Gewebeproben hergestellt. Die Daten wurden in Cancer Research 61:
7388–7393,
2001 und http://carrier.gnf.org/welsh/epican/ veröffentlicht.
Siehe Andrew I. Su et al., „Molecular
Classification of Human Carcinomas by Use of Gene Expression Signatures." Diese Daten schlossen
Identitätsmessungen
ein, die unter Verwendung eines „U95" Oligonukleotid Mikroarrays erhalten
worden waren, der von Affymetrix, Inc. kommerziell erhältlich ist.
-
Messungen
aus den Genexpressionen der publizierten Daten (Fluoreszenzintensitätsmessungen) wurden
zur Auswahl optimaler Genexpressionsportfolios für eine Auswahl von Markern
verwendet um zu bestimmen, ob eine zirkulierende Zelle für die Anwesenheit
von Brustkrebs, Prostatakrebs, Ovarialkrebs, colorectalem Krebs
oder Lungenkrebs indikativ ist. Derartige zirkulierende Zellen sind
bevorzugterweise Epithelzellen.
-
Die
in der Studie enthaltenen Daten wurden von den folgenden Proben
gewonnen: 24 Adenkarzinome, 12 infiltrierte ductale Brustadenokarzinome,
21 colorectale Adenkarzinome, 23 ovariale Adenkarzinome, 25 Lungenkarzinome
und Daten von den folgenden weiteren Proben: 19 Prostataadenokarzinome,
12 Brustkarzinome, 13 Colonkarzinome, 13 Ovarialkarzinome und 89
Lungenkarzinome.
-
Unter
Verwendung von Intensitätsmessungen
einer Zusammenstellung normaler Proben als Grundlinienklasse wurden
für jedes
Gen das arithmetische Mittel und die Standardabweichung berechnet,
gefolgt von einer Berechnung des Wertes (X·Standardabweichung + Mittelwert)
für jedes
Gen. Der Stringenzvariablen X wurde dabei ein Wert von 3 zugewiesen.
Aus den Werten jeder in der Studie beschriebenen experimentellen Probe
und den Berechnungen der Grundlinienwerte wurden Verhältnisse
berechnet. Diese Verhältnisse
wurden dann in gebräuchliche
Logarithmen transformiert. Diese Werte wurden dann als Input-Werte
für die
Wagner Software verwendet.
-
Dieses
Verfahren führte
zur Auswahl einer effizienten Grenze entlang derer sich ein minimaler
Satz von Markern jedes Tumortyps befindet, der die geringste Variation
für ein
ausgewähltes
Differentiallevel aufweist (ausgewählt an einem Punkt mit bestem
Signal zu Rauschen Verhältnis).
Die Optimierung durch die Software führte zur Selektion eines Portfolios
von 24 Genen, einschließlich
zweier Gene für
Prostatakrebs-, fünf für Brustkrebs-,
sechs für
Colonkrebs-, zwei für
Ovarialkrebs- und neun für
Lungenkrebs-Marker (Tabelle 1). Tabelle 1
| Krebstyp | Zugang | Name | Beschreibung | Seq.
ID. Nr. |
| PR | NM_001648 | KLK3 | Kallikrein
3,
(prostataspezifisches Antigen) | Seq.
ID Nr. 1 |
| PR | NM_005551 | KLK2 | Kallikrein
2,
prostatisch | Seq.
ID Nr. 2 |
| BR | NM_004064 | CDKN1B | Cyclin-abhängiger Kinaseinhibitor 1B
(p27, Kipl) | Seq.
ID Nr. 34 |
| BR | NM_002411 | MGB1 | Mammaglobin
1 | Seq.
ID Nr. 3 |
| BR | NM_005264 | GFRA1 | GDNF
Familie
Rezeptor alpha 1 | Seq.
ID Nr. 4 |
| BR | none | C18ORF1 | Chromosom
18
Offener Leserahmen 1 | Seq.
ID Nr. 98 |
| BR | NM_000095 | COMP | Knorpeloligomeres
Matrixprotein | Seq.
ID Nr. 6 |
| CO | NM_001804 | CDX1 | Kaudaler
Typ
Homeobox Transkriptionsfaktor 1 | Seq.
ID Nr. 8 |
| CO | NM_001046 | SLC12A2 | Solutträgerfamilie
12 (Natrium-(Kalium-/Chlorid-Transporter),
Mitglied 2 | Seq.
ID Nr. 9 |
| CO | NM_001285 | CLCA1 | Chloridkanal,
Calcium-aktiviert, Familienmitglied 1 | Seq.
ID Nr. 11 |
| CO | NM_007052 | NOX1 | NADPH
Oxidase 1 | Seq.
ID Nr. 13 |
| CO | NM_002457 | MUC2 | Mucin
2,
intestinal/tracheal | Seq.
ID Nr. 14 |
| CO | NM_004063 | CDH17 | Cadherin
17,
LI Cadherin | Seq.
ID Nr. 15 |
| LU_A | NM_021950 | MS4A2 | membrandurchspannende
4-Domänen, Unterfamilie
A, Mitglied 2 | Seq.
ID Nr. 17 |
| LU_A | NM_000964 | ASAHL | N-acylsphingosin-Amdiohydrolase(saure
Ceramidase)-ähnlich | Seq.
ID Nr. 18 |
| LU_A | NM_006495 | EVI2B | Ecotrophe
virale Integrationsstelle 2 B | Seq.
ID Nr. 20 |
| LU_A | NM_006864 | LILRB3 | Leucozyten
Immunoglobinähnlicher
Rezeptor, Unterfamilie B | Seq.
ID Nr. 21 |
| LU_A | X67301 | none | H.
sapiens mRNA für
IgM schwere Kette konstante Region (Ab63) | Seq.
ID Nr. 22 |
| LU_A | NM_002123 | HLA-DQB1 | Haupthistokompatibilitätskomplex,
Klasse II, DQ beta 1 | Seq.
ID Nr. 23 |
| LU_S | NM_000673 | ADH7 | Alkoholdehydrogenase
7 (Klasse IV), mu oder sigma Polypeptid | Seq.
ID Nr. 24 |
| LU_S | NM_003722 | TP63 | Tumorprotein
63 kDa mit starker Homologie zu p53 | Seq.
ID Nr. 26 |
| LU_S | none | SOX2 | SRY
(Geschlechtsbestimmende Region Y)-Box 2 | Seq.
ID Nr. 32 |
| OV | NM_000906 | NPR1 | natriuretisches
Peptid-Rezeptor A/Guanylat Cyclase A | Seq.
ID Nr. 28 |
| OV | NM_000378 | WT1 | Wilms
Tumor 1 | Seq.
ID Nr. 30 |
-
Beispiel 2: heuristischer Schritt
-
Weiterhin
wurde eine heuristische Regel auf das in Beispiel 1 erhaltene Portfolio
angewendet. Gemäß dieser
Regel wurden Gene/Marker aus dem Portfolio entfernt, wenn das identifizierte
Gen/der identifizierte Marker wahrscheinlich in peripherem Blut
exprimiert werden würde
oder es sich um einen guten charakterisierten Gewebemarker handelte,
wie beispielsweise PSA, Mammaglobin, etc. Die Anwendung dieser Regel
ermöglichte
die Erstellung eines Portfolios von Genen/Markern, die zur Verwendung
in einem Screen optimiert sind, bei dem die Patientenproben dadurch
erhalten werden, dass im peripheren Blut enthaltene Komponenten getestet
werden, wie beispielsweise Epithelzellen. Das Ergebnis des selektierten
Portfolios enthält
31 Gene, die in Tabelle 2 gezeigt sind. Tabelle 2
| Krebstyp | Zugang | Name | Beschreibung | Seq.
ID Nr. |
| PR | Hs.
12784 | KIAA0293 | KIAA0293
Protein | Seq.
ID Nr. 67 |
| PR | NM_006562 | LBX1 | Transskriptionsfaktor ähnlich zu D.
Melanogaster Homeodomainen Protein Marienkäfer spät | Seq.
ID Nr. 33 |
| PR | NM_016026 | LOC51109 | CGI-82
Protein | Seq.
ID Nr. 34 |
| PR | HG2261–HT2352 | none | Antigen | Seq.
ID Nr. 99 |
| PR | NM_012449 | STEAP | Sechs-Transmembran
ephitheliales Antigen der Prostata | Seq.
ID Nr. 35 |
| PR | NM_001634 | AMD1 | S-Adenosylmethionin-Decarboxylase 1 | Seq.
ID Nr. 36 |
| PR | HG2261–HT2351 | None | Antigen
1 | Seq.
ID Nr. 100 |
| PR | NM_006457 | LIM | LIM
Protein (ähnlich
zum Rattenprotein Kinase C-bindendes
Enigma) | Seq.
ID Nr. 37 |
| BR | NM_005853 | IRX5 | Iroquois
Homeobox Protein 5 | Seq.
ID Nr. 38 |
| BR | NM_005264 | GFRA1 | GDNF
Familienrezeptor alpha 1 | Seq.
ID Nr. 39 |
| BR | none | C18ORF1 | Chromosom
18
offener Leserahmen 1 | Seq.
ID Nr. 98 |
| BR | NM_000095 | COMP | Knorpel
oligometrisches Matrixprotein
(Pseudoachondroplasie, epiphyseale
Dysplasie 1, multiple) | Seq.
ID Nr. 41 |
| CO | NM_001265 | CDX2 | Kaudaler
Typ Homeobox Transskriptionsfaktor 2 | Seq.
ID Nr. 43 |
| CO | NM_001046 | SLC12A2 | Solutträgerfamilie
12
(Natrium-/Kalium-/Chlorid-Transporter),
Mitglied 2 | Seq.
ID Nr. 44 |
| CO | NM_001285 | CLCA1 | Chloridkanal,
Calcium-aktiviert,
Familienmitglied
1 | Seq.
ID Nr. 46 |
| CO | NM_004063 | CDH17 | Cadherin
17, LD Cadherin (Leber-Darm) | Seq.
ID Nr. 48 |
| OV | NM_000906 | NPR1 | Natriuritischer
Peptidrezeptor A/Guanylat Cyclase A
(Atrionatriuritische Peptidrezeptor A) | Seq.
ID Nr. 50 |
| OV | NM_005504 | BCAT1 | Verzweigte
Kette Aminotransferase I, Cytosolisch | Seq.
ID Nr. 52 |
| OV | NM_002398 | MEIS1 | Meis
1 (Maus) homolog | Seq.
ID Nr. 53 |
| OV | none | SPON1 | Spondin
1, (f-Spondin) extra zelluläres
Matrixprotein | Seq.
ID Nr. 69 |
| OV | NM_001692 | none | M25809:
Humane endomembran Protonpumpe Untereinheit mRNA, GenBank = M25809 | Seq.
ID Nr. 54 |
| OV | NM_002774 | KLK6 | Kallikrein
6 (Neurosin, Zyme) | Seq.
ID Nr. 55 |
| LU_A | NM_000964 | ASAHL | N-Acylsphingosin
Amidohydrolase (saure Ceramidase)-ähnlich | Seq.
ID Nr. 56 |
| LU_A | NM_002838 | PTPRC | Protein
Tyrosinphosphatase, Rezeptor Typ C | Seq.
ID Nr. 58 |
| LU_Av | NM_015364 | MD-2 | MD-2-Protein | Seq.
ID Nr. 59 |
| LU_A | NM_006875 | PIM2 | Pim-2
Oncogen | Seq.
ID Nr. 60 |
| LU_S | NM_005554 | KRT6A | Keratin
6A | Seq.
ID Nr. 61 |
| LU_S | NM_000673 | ADH7 | Dehydrogenase
7 (Klasse IV), mu oder sigma Polypeptid | Seq.
ID Nr. 62 |
| LU_S | NM_003722 | TP63 | Tumorprotein
63 kDa mit starker Homologie zu p53 | Seq.
ID Nr. 64 |
| LU_S | none | SOX2 | SRY
(Geschlechtsbestimmende
Region n-Box 2 | Seq.
ID Nr. 32 |
| LU_S | NM_005688 | ABCC5 | ATP-bindende
Kassette, Unterfamilie C (CFTR/MRP), Mitglied 5 | Seq.
ID Nr. 66 |
-
Beispiel 3: Prognostische Portfolios
-
Zur
Testung des erfindungsgemäßen Portfolioselektionsverfahrens
wurde ein Satz von Patientenproben mit bekanntem klinischen Befund
verwendet. Der Probensatz wird beschrieben in van't Veer, L. J et al. Gene
Expression Profiling Predicts Clinical Outcome of Breast Cancer,
Nature, 415, 530–536,
(2002), worauf hier Bezug genommen wird. In dieser Studie wurden
Gewebeproben von 78 Patienten mit sporadischen Brusttumoren entnommen.
Alle Patienten waren jünger
als 55 Jahre und ihr Tumor hatte eine Größe von weniger als 5 cm. Alle
Patienten waren Lymphknoten-negativ. 34 der Patienten wiesen in
einem Zeitraum von weniger als fünf
Jahren entfernte Metastasen auf, während 44 Patienten innerhalb
des gleichen Zeitraums keine entfernten Metastasen aufwiesen.
-
Die
Probenpräparation
und die Gewinnung der Expressionsprofile werden in dem oben genannten
Artikel beschrieben. Ausgehend von ungefähr 5000 Genen, die in Patienten
mit verschiedenen Prognosen (Metastasen gegenüber keine Metastasen) differentiell
exprimiert wurden, wurde ein prognostisches Markerportfolio von
70 Genen ausgewählt.
Die Auswahl basierte auf unüberwachtem
Clustering, gefolgt von einer Korrelations-Koeffizienten-Analyse. Dies erfolgte
durch Berechnung des Korrelationskoeffizienten für die Expression jedes Gens,
das mit der Erkrankung in Verbindung gebracht wurde. Die Gene, die
nach dieser Analyse signifikant mit der Erkrankung assoziiert waren,
wurden dann mit nachfolgenden Gruppen von 5 Genen in Rängen angeordnet,
und unter Verwendung der „leave-one-out"-Method wurde eine „optimierte" Auswahl von 70 Genen
selektiert.
-
Die
aus der Studie erhaltenen Daten wurden dann gemäß dem Verfahren der vorliegenden
Erfindung prozessiert. Probe Nummer 54 wurde aufgrund eines hohen
Prozentsatzes fehlender Werte von der weiteren Analyse ausgenommen.
Der Mittelwert und die Standardabweichung der Intensitätsmessungen
wurden für
jedes Gen unter Verwendung der nicht-metastatischen Proben als Grundlinie
berechnet. Dann wurde ein diskriminierender Wert von X·(Standardabweichung
+ Mittelwert) für
jedes Gen der Grundlinie berechnet (X wurde der Wert 3 zugewiesen).
Dieser Wert wurde dazu verwendet sicher zu stellen, dass das entstehende
Portfolio stringent sein würde.
Für jede
metastatische Probe wurde dann ein Verhältnis des diskriminierenden
Wertes zum Wert der Grundlinie berechnet. Dieses Verhältnis wurde
dann in einen gebräuchlichen
Logarithmus umgewandet. Die erhaltenen Daten wurden in eine Wagner
Software importiert, die eine effiziente Grenze produzierte, von
der ein Portfolio von 16 Genen selektiert wurde. Die Grundlinie
und die experimentellen Werte wurden dann umgekehrt und es wurde
ein zweites Portfolio von 12 Markern erstellt, die die in den nicht-metastatischen
Fällen
hoch regulierten Gene repräsentieren.
Der Wert des zweiten Portfolios wird vom Wert des ersten Portfolios
subtrahiert, um von allen 28 Genen einen kombinierten Portfoliowert
zu erhalten. Dieses finale Portfolio umfasst die Gene der Seq. ID
Nr. 70–97.
17 der Gene dieses Portfolios sind auch in dem 70 Gene umfassenden
Portfolio der oben angegebenen Referenz beschrieben. Die im Portfolio
enthaltenen Gene sind unten angegeben. (Seq. ID Nr. 70, Seq. ID
Nr. 72, Seq. ID Nr. 73–77,
Seq. ID Nr. 79, Seq. ID Nr. 80, Seq. ID Nr. 85, Seq. ID Nr. 87,
Seq. ID Nr. 91–93,
Seq. ID Nr. 95 und Seq. ID Nr. 97.) Liste von 28 Genen (2 Portfolios) Hochreguliert in metastatischen Patienten
(Portfolio 1)
| Contig53226_RC | Seq.
ID Nr. 89 |
| NM_012214 | Seq.
ID Nr. 82 |
| NM_020386 | Seq.
ID Nr. 86 |
| NM_004504 | Seq.
ID Nr. 81 |
| AA555029_RC | Seq.
ID Nr. 70 |
| AL080059 | Seq.
ID Nr. 74 |
| AF055033 | Seq.
ID Nr. 73 |
| NM_016448 | Seq.
ID Nr. 85 |
| Contig40831_RC | Seq.
ID Nr. 95 |
| Contig63649_RC | Seq.
ID Nr. 91 |
| Contig24252_RC | Seq.
ID Nr. 93 |
| NM_000436 | Seq.
ID Nr. 75 |
| NM_002019 | Seq.
ID Nr. 77 |
| Contig55313_RC | Seq.
ID Nr. 90 |
| Contig25991 | Seq.
ID Nr. 97 |
| NM_000788 | Seq.
ID Nr. 76 |
| Hochreguliert
in nicht-metastatischen Patienten (Portfolio 2)
AB033007 | Seq.
ID Nr. 71 |
| Contig42421_RC | Seq.
ID Nr. 96 |
| NM_003748 | Seq.
ID Nr. 78 |
| NM_013262 | Seq.
ID Nr. 83 |
| NM_003862 | Seq.
ID Nr. 79 |
| NM_003882 | Seq.
ID Nr. 80 |
| Contig48328_RC | Seq.
ID Nr. 87 |
| NM_015416 | Seq.
ID Nr. 84 |
| AB037863 | Seq.
ID Nr. 72 |
| Contig27312_RC | Seq.
ID Nr. 88 |
| Contig32125_RC | Seq.
ID Nr. 92 |
| Contig49670_RC | Seq.
ID Nr. 94 |
17 Überlappungen
| Systematischer
Name | |
| NM_003862 | Seq.
ID Nr. 79 |
| NM_003882 | Seq.
ID Nr. 80 |
| Contig48328_RC | Seq.
ID Nr. 87 |
| AA555029_RC | Seq.
ID Nr. 70 |
| AL080059 | Seq.
ID Nr. 74 |
| AF055033 | Seq.
ID Nr. 73 |
| AF055033 | Seq.
ID Nr. 73 |
| NM_016448 | Seq.
ID Nr. 85 |
| AB037863 | Seq.
ID Nr. 72 |
| Contig40831_RC | Seq.
ID Nr. 95 |
| Contig63649_RC | Seq.
ID Nr. 91 |
| Contig24252_RC | Seq.
ID Nr. 93 |
| NM_000436 | Seq.
ID Nr. 75 |
| NM_002019 | Seq.
ID Nr. 77 |
| Contig32125_RC | Seq.
ID Nr. 92 |
| Contig25991 | Seq.
ID Nr. 97 |
| NM_000788 | Seq.
ID Nr. 76 |
-
Die
zwei Portfolios werden dann zur Bestimmung der Prognose der 78 ursprünglichen
Proben verwendet. Dazu wurden die aus den Mikroarraydaten gewonnenen
Genexpressionssignaturen gemäß dem in
der oben genannten Referenz beschriebenen Verfahren zur Testung
der Klassifikationsgenauigkeit durchgeführt. Im Fall des aus 70 Genen
bestehenden Portfolios wurden 81% der Proben gemäß einem optimierten Schwellenwert,
der so eingestellt worden war, dass zweideutige Signaturen als Indikativ
für eine
schlechte Prognose gelten (85% für
einen absoluten Schwellenwert) zutreffend charakterisiert. Dieses
Portfolio charakterisierte drei Patienten mit einer schlechten Prognose
fälschlicherweise
als eine gute Prognose aufweisend, wobei der optimierte Schwellenwert
(fünf für den absoluten
Schwellenwert) verwendet wurde. Zwölf Patienten mit einer guten
Prognose wurden fälschlicherweise
als eine gute Prognose aufweisend klassifiziert, wohingegen sie
unter Verwendung des optimierten Schwellenwertes (acht für den absoluten
Schwellenwert) eine schlechte Prognose aufwiesen.
-
Im
Fall des Portfolios, das 28 Gene aufwies, wurden 94% der Proben
gemäß einem
optimierten Schwellenwert, der derart eingestellt war, dass zweideutige
Signaturen als für
eine schlechte Prognose indikativ gewertet wurden (93% für einen
absoluten Schwellenwert) zutreffend charakterisiert. Dieses Portfolio
klassifizierte Patienten mit einer schlechten Prognose fälschlicherweise
als eine gute Prognose aufweisend, wobei der optimierte Schwellenwert
(fünf für den absoluten
Schwellenwert) verwendet wurde. Drei Patienten mit einer guten Prognose
wurden fälschlicherweise
als eine schlechte Prognose aufweisend klassifiziert, wohingegen diese
Patienten unter Verwendung des optimierten Schwellenwertes (zwei
für den
absoluten Schwellenwert) eine schlechte Prognose aufwiesen.
-
Wenn
man die zwei Profile miteinander vergleicht wird offensichtlich,
dass die gemäß der vorliegenden Erfindung
selektierten Profile ökonomischer
sind und Ergebnisse produzieren, die sich durch eine höhere Genauigkeit
und Zuverlässigkeit
auszeichnen als die des vergleichbaren Portfolios.
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-