-
Die
Erfindung betrifft ein Verfahren zum Identifizieren und/oder Charakterisieren
eines (Poly)peptids umfassend: (a) Analysieren eines Peptidmaps
des genannten (Poly)peptids, wobei der Peptidmap mindestens 1 Peptid
enthält,
und seine Peptid primäre
Fingerprintstruktur durch Massenspektrometrie; und (b) Vergleichen der
erhaltenen Daten aus Schritt (a) mit einer Referenz-(Poly)peptid-Datenbank, besagte
Datenbank enthält massenspektrometrische
Daten von Peptidmaps, wobei ein Peptidmap mindestens 1 Peptid enthält und Peptid primäre Fingerprintstrukturdaten
von dem/den Peptid(en) aus der Peptidmap, eines (Poly)peptids oder
einer Vielzahl von (Poly)peptiden.
-
Mit
dem humanen Genomprojekt laufend auf dem guten Weg zu seiner nähernden
Vollendung, sind die Probleme des Verstehens der Funktion neuer
entdeckten Gene adressiert. Anfängliche
Versuche der Sequenzierung des großen und komplexen humanen Genoms
wurden absichtlich fokussiert auf die exprimierten Regionen, wie
sie durch cDNA Banken repräsentiert
werden. Schätzungen
der gesamten Genzahlen variieren von 60.000 bis über 140.000 (Nature, 401:311
news section 1999) im Humangenom. Während die Mehrheit der Gesamtzahl
an Humangenen nunmehr als „expressed
sequence tags" (ESTs)
in dbEST Datenbanken repräsentiert
ist, ist jedoch nur einer winzigen Minderheit eine Funktion zugeordnet.
-
Zum
Beispiel ist in der Ausgabe des 22. Oktober 1999 die Zahl der Einträge für den Menschen 1.617.045
(http://www.ncbi.nim.nih.gov/dbEST/index.html) (Wolfsberg und Landsman,
1997), korrespondierend zu 85.713 Cluster in der UniGene set (www.ncbi.nlm.gov/UninGene/Hs.stats.shtml)
von denen nur 9.274 bekannte Gene aufweisen. Die meist voranbringende
Lösung
zu dieser Struktur-Funktion Diskrepanz scheint die direkte Korrelation
zwischen dem funktionellen Status eines Gewebes und der Expression
bestimmter Gensets zu sein.
-
Jedoch,
obwohl die primären
Aminosäuresequenzen
von Proteinen durch die Gene kodiert sind, ist die Beziehung zwischen
Genen und Proteinen hochgradig nicht linear. Die Kontroll- und Signalwege
zur Ausübung der
Zellfunktionen sind robust und ungeregelt. Zelluläre Aktivität wird umgesetzt
durch eine riesige Anordnung von Signal-, Regel-, und Stoffwechselwegen,
jede verkörpert
die funktionelle und strukturelle Beziehung von vielen spezifischen
Molekülen.
Dies macht es schwierig die Protein-Dynamik oder Struktur mittels
Genetik vorherzusagen. Ebenfalls sind die Gen-Protein Dynamiken
nicht linear, da es keine zuverlässige
Korrelation zwischen Genaktivität
und Protein Abundanz (Anderson und Seilhammer, 1997) gibt. Die Existenz
von alternativen Splicevarianten der mRNA verkompliziert strukturell
die Beziehung zwischen Genen und Protein. Viele Proteine erhalten
postranslationale Modifikationen, die entscheidend für ihre Funktion
sind, jedoch nicht in der für
das Protein korrespondierenden DNA kodiert sind. Darüber hinaus
kann ein Protein in unterschiedlichen Wegen und unter verschiedenen
Bedingungen prozessiert werden, dies scheint von entscheidender
Bedeutung zu sein, zum Beispiel für die Alzheimer-Krankheit (Masters
und Beyreuther, 1998). Ein anderes Beispiel kann aus den Erfahrungen
mit den „cystic
fibrosis transmembrane receptor" (CTFR)
Funktionen, die in zystischer Fibrose involviert sind, aufgefunden
werden. Diese Krankheit ist durch eine Mutation in einem Einzelgen verursacht,
jedoch mit einer komplexen Pathogenese, wobei CTFR als ein Chlorid-Kanal
fungiert, aber zusätzlich
mögliche
pathologische Funktionen in der Regulation der äußeren Membranströme aufweist.
Zusätzlich
ist die CFTR Expression hoch variabel innerhalb der Lungen abhängig vom
Zelltyp und anatomischen Ort. Solche komplexe Funktionen eines Einzelgendefekts
verkomplizieren die Bestimmung von CFTR in zystischer Fibrose und
der Identifikation eines geeigneten zellulären Targets zur Therapie (Jiang
und Engelhardt, 1998). Die überwiegende
Mehrheit menschlicher Krankheiten ist enorm komplexer als CFTR unter
Beteiligung einer großen Anzahl
von Genen und Umweltfaktoren.
-
Nishizawa
(Nishizawa Yuji et al., Initiating ocular proteomics for cataloging
bovine retinal proteins: Microanalytical techniques permit the identification
of proteins derived from a novel photoreceptor preparation), EXPERIMENTAL
EYE RESEARCH, vol. 69, n° 2,
August 1999 (1999-08), Seiten 195 bis 212)) beschreibt die Isolierung
von Protein aus Photorezeptor-Zellschichten und anderen Komponenten
aus der Retina und der nachfolgenden Auftrennung durch zwei-dimensionale
Gelelektrophorese und ihre Sequenzierung.
-
Quadroni
(Quadroni Manfredo et al., Proteome mapping, mass spectrometric
sequencing and reverse transcription-PCR for characterization of
the sulfate starvation-induced response in Pseudomonas aeruginosa PA01).,
EUROPEAN JOURNAL OF BIOCHEMISTRY, vol. 266, n°. 3, Dezember 1999 (1999-12),
Seiten 986 bis 996) offenbart die Identifikation von Proteinen mittels
zwei-dimensionaler Gelchromatographie und nachfolgend analysiert
durch N-terminalen Edman Sequenzierung und MS Sequenzierung von
innerlichen Proteinfragmenten. Wie auch immer, beide Dokumente beziehen
sich auf theoretische Proteindaten unter Auslassung von experimentell
bestimmten massenspektrometrischen Daten.
-
Daher
erfordert ein volles Verständnis
des Expressionsprofils eines Gewebes oder Organismus auf den genomischen
oder proteomischen Ebenen das so schnell wie mögliche Screening von vielen
parallelen Proben.
-
Dementsprechend
war das technische Problem, dass der vorliegenden Erfindung unterliegt,
ein Verfahren zum Identifizieren und/oder Charakterisieren von Proteinen
im großen
Maßstab,
kurzer Zeit und im Hochdurchsatz bei niedrigen Kosten bereit zu
stellen.
-
Die
Lösung
des technischen Problems wird erreicht durch die Bereitstellung
von Ausführungsformen wie
in den Ansprüchen
gekennzeichnet.
-
Dementsprechend
betrifft die vorliegende Erfindung ein Verfahren zum Identifizieren
und/oder Charakterisieren eines (Poly)peptids umfassend:
- (a) Analysieren eines Peptidmaps des genannten
(Poly)peptids, wobei der Peptidmap mindestens 1 Peptid enthält, und
seine Peptid primäre
Fingerprintstruktur durch Massenspektrometrie; und
- (b) Vergleichen der erhaltenen Daten aus Schritt (a) mit einer
Referenz(Poly)peptid-Datenbank, besagte Datenbank enthält massenspektrometrische
Daten von Peptidmaps, wobei ein Peptidmap mindestens 1 Peptid enthält und Peptid
primäre
Fingerprintstrukturdaten von dem/den Peptid(en) aus der Peptidmap,
eines (Poly)peptids oder einer Vielzahl von (Poly)peptiden.
-
Der
Begriff "(Poly)Peptid" gemäß der vorliegenden
Erfindung verwendet bezieht sich gleichermaßen auf Peptide und (Poly)peptide,
natürlich
erhalten oder rekombinant, chemisch oder durch andere Mittel hergestellt
oder modifiziert, wobei die dreidimensionale Struktur der Proteine
unterstellt werden kann, das post-translational prozessiert sein kann,
optional im Wesentlichen in gleicher Weise wie native Proteine.
Darüber
hinaus umfasst dieser Begriff (Poly)peptide oder Proteine mit einer
Länge von
ungefähr
50 bis zu mehreren Hunderten von Aminosäuren sowie Peptide mit einer
Länge von
ungefähr
1, 2, 3, 4 und vorzugsweise 5 bis 50 Aminosäuren. In einer weiteren bevorzugten
Ausführungsform
hat das besagte Peptid eine Länge
von 6 Aminosäuren.
Die besagten (Poly)peptide und entsprechend ihre Maps in anderen
Ausführungsformen
enthalten 2, 3, 4, 5, 6 bis zu 10, oder mehr Peptide.
-
Der
Begriff "Peptidmap
(Peptidkarte)" gemäß der vorliegenden
Erfindung verwendet bezeichnet einen Satz von Peptiden, die durch
Fragmentierung aus einem gegebenen (Poly)peptid erhalten werden
und daher spezifisch für
das besagte (Poly)peptid ist. Die Fragmentierung kann erfolgen,
z.B. durch enzymatische Spaltung des (Poly)Peptids, z. B. mit Trypsin
entsprechend konventioneller Techniken. In spezifischen Ausführungsformen
sind nur Daten von einem Peptid aus einem (Poly)peptid in der besagten
Datenbank enthalten. In weiteren Ausführungsformen enthält die Datenbank
Daten aus einer Vielzahl von Peptiden, wobei jedes Peptid aus einem
verschiedenen (Poly)peptid stammt. Es ist jedoch bevorzugt, dass
die besagte Datenbank massenspektrometrische Daten von Peptidmaps
von mehr als einem Peptid enthält,
wie 2, 3, 4, 5, 6, 7, 8, 9, 10 oder mehr Peptide aus einer Vielzahl
von Peptiden (siehe 1).
-
Der
Begriff " Peptid
primäre
Fingerprintstrukturdaten" gemäß der vorliegenden
Erfindung verwendet bezeichnet das Peptid Fragmentierungsmuster
wie durch die Massenspektrometrie erzeugt.
-
Eine "Vielzahl" von (Poly)peptiden
bezeichnet eine Anzahl von mindestens 2 oder 3, vorzugsweise von mindestens
5 bis 50, bevorzugt von mindestens 50 bis 1.000, jedoch meist bevorzugt
von mindestens 1.000 bis 10.000, und am meisten bevorzugt mehr als
10.000 (Poly)peptide. Das Verfahren der vorliegenden Erfindung kombiniert
vorteilhaft erhaltene Daten aus massenspektrometrischer Analyse
eines Peptidmaps, enthaltend mindestens 1 Peptid, und seine Peptid
primäre
Fingerprintstruktur, wobei "Peptid
primäre
Fingerprintstruktur",
gemäß der vorliegenden
Erfindung verwendet, das Peptidfragmentierungsmuster durch Massenspektrometrie
erzeugt bezeichnet. Verglichen mit Protein-Identifikation durch
massenspektrometrische Peptidmaps verbessern Peptidmaps unter Einbeziehung
von Peptid primäre
Fingerprintstrukturen der Peptide aus dem Peptidmap deutlich die
Protein-Identifikation in Sequenzdatenbanken und erlauben die eindeutige
Identifikation von (Poly)peptiden (siehe 2). Peptid
primäre
Fingerprintstrukturen können
durch Massenspektrometrie-post source decay (MS-PSD) oder „Kollision
induzierten Zerfall" oder „Laser
induzierten Zerfall" erzeugt
werden, wohlbekannt in der Technik. Diese Technik basiert auf einer
weiteren Fragmentierung der Peptide und massenspektrometrischer
Analyse der Peptidfragmente, die der massenspektrometrischen Analyse der
Peptide nachfolgt. Vorzugsweise werden mindestens 2 bis 5 Peptid
primäre
Fingerprintstrukturen von einem (Poly)peptid durch Massenspektrometrie
analysiert, bevorzugt mindestens 6 bis 8, und meist bevorzugt mindestens
10 Peptid primäre
Fingerprintstrukturen. Massenspektrometrische Analyse von Peptiden
ist wohlbekannt in der Technik und kann gemäß konventionellen Techniken
durchgeführt
werden. Zum Beispiel können
Peptide mittels Matrix-gestützter
Laserdesorption Ionisation Massenspektrometrie (MALDI MS) oder durch Elektrospray-MS
analysiert werden, wie für
Human-GAPDH aus
einem 2D Gel (natives Human-GAPDH) und aus GAPDH exprimiert durch
E. coli (rekombinantes Human-GAPDH) durchgeführt wurde (siehe 3).
Der Satz an erhaltener struktureller Information für jedes
(Poly)peptid durch das Verfahren der vorliegenden Erfindung, im
Folgenden auch bezeichnet als "minimaler
Protein Identifizierer" (MPI)
(siehe 1), beinhaltet die exakten molekularen Massen
der enzymatischen Spaltprodukte in Verbindung mit Fragmentiondaten.
Falls MPIs von zwei verschiedenen (Poly)peptiden verglichen werden,
führt dies
vorteilhaft zu einer verlässlicheren Protein-Identifikation,
da gemessene MPIs jeweils einander verglichen werden anstelle von
DNA und/oder Aminosäuresequenzprognostizierten
strukturellen Merkmalen (solche wie identifizierte Spots aus 2D
Gelen, wie in 2 dargestellt).
-
Überdies
können
die MPIs elektronisch gespeichert werden und erlauben dann den Computerbasierten
Vergleich von verschiedenen MPIs. Dies verbessert weiterhin Geschwindigkeit
und Exaktheit, reduziert Kosten, und erlaubt folglich die Hochdurchsatz-Identifikation
und/oder Charakterisierung von (Poly)peptiden (siehe 4).
-
Ein
weiterer Vorteil des Verfahrens der vorliegenden Erfindung ist,
dass es die Identifikation und/oder Charakterisierung von einem
(Poly)peptid ohne Kenntnis seiner Aminosäuresequenz und/oder weiterer
struktureller Merkmale erlaubt (solche wie identifizierte Spots
aus 2D Gelen, wie in 5 dargestellt).
-
Es
ist gemäß der vorliegenden
Erfindung vorgesehen, dass die Identifizierung und/oder Charakterisierung
eines (Poly)peptids nicht notwendigerweise alle erhaltenen Daten
in Schritt (a) mit der Referenz(Poly)peptid-Datenbank verglichen
werden. Demgemäß kann zur
eindeutigen Identifikation und/oder Charakterisierung ein Vergleich
der erhaltenen Daten durch die Analyse des Peptidmaps und/oder einer
Peptid primären Fingerprintstruktur
mit der Referenz (Poly)peptid-Datenbank ausreichend sein. Anderenfalls
kann der Vergleich der erhaltenen Daten durch die Analysen des Peptidmaps
und z. B. in einer meist bevorzugten Ausführungsform mindestens 6-8,
vorzugsweise 10 oder mehr Peptid primäre Fingerprintstrukturen mit
der Referenz(Poly)peptid-Datenbank zu der Feststellung führen, dass
keine identischen massensprektrometrischen Daten in der Referenz(Poly)peptid-Datenbank vorliegen.
Dies würde
das analysierte (Poly)peptid als einen neuen Eintrag in der Datenbank
identifizieren. Entsprechend ist eine solche Situation ebenfalls
durch den Begriff „Identifizieren", gemäß der vorliegenden
Erfindung verwendet, umfasst (siehe 1).
-
In
einer bevorzugten Ausführungsform
der vorliegenden Erfindung werden die erhaltenen Daten in Schritt
(a) auf Ziffer-Listen erfasst, entsprechend den gemessenen Molekular-
oder Fragmention-Massen oder Masse/Ladung (m/z) Verhältnissen
(siehe 6 und 7).
-
In
einer weiteren bevorzugten Ausführungsform
wird die besagte Referenz (Poly)peptid-Datenbank in Schritt (b)
hergestellt durch die Schritte:
- (ba) Präparieren
einer (Poly)peptid-Probe charakteristisch für eine Spezies, ein Gewebe,
ein Entwicklungsstadium, ein spezifisches Alter, ein spezifischer
Zeitpunkt einer Zelle, eine Organelle, ein Geschlecht, ein Krankheitsstadium,
ein Mikroorganismus, eine Gewebekultur einer Zelllinie, ein Virus,
ein Bakteriophage, ein Organismus, eine Pflanze, ein Antikörper, eine
Antikörperbibliothek,
ein Proteinkomplex oder interagierende Proteine;
- (bb) Unterwerfen besagter (Poly)peptid-Probe einer ein- oder
zweidimensionalen Gelelektrophorese,
- (bc) Ausschneiden der (Poly)peptide aus dem Gel,
- (bd) Fragmentieren besagter (Poly)peptide,
- (be) Analysieren der erhaltenen Fragmente aus Schritt (bd) durch
Massenspektrometerie; und
- (bf) Speichern der erhaltenen Daten aus Schritt (be) in Kombination
mit der Quelle der entsprechenden (Poly)peptide in einer Datenbank
(zum Beispiel aus einem Spot in einem 2D Gel, wie in 5,
MPI hergestellt wie in 1).
-
Vorzugsweise
ist der oben genannte Organismus ein Tier, bevorzugt ein Säugetier
und meist bevorzugt ein Mensch.
-
Der
Begriff "spezifischer
Zeitpunkt" bezieht
sich auf Zeitpunkte nachdem ein Gewebe, eine Zelle, ein nicht-humaner
Organismus, einschließlich
einer Pflanze, Mikroorganismus, etc., eine Organelle, eine Gewebekultur
einer Zelllinie, ein Proteinkomplex oder interagierende Proteine,
ein Antikörper,
eine Antikörperbibliothek,
ein Bakteriophage, ein Virus etc. (aus einem spezifischen Entwicklungsstadium,
Krankheitsstadium, Geschlecht, Alter etc.) mit einem Ligand, Arzneimittel,
Stoff etc., solche wie oben beschrieben, kontaktiert, inkubiert
oder behandelt wurde. Vorzugsweise wird das besagte Gewebe etc.
mit einer zweiten Probe des besagten Gewebe etc. – nicht
so kontaktiert oder behandelt – verglichen.
-
Diese
Ausführungsform
der vorliegenden Erfindung erlaubt nicht nur vorteilhaft die gleichzeitige
Identifikation und/oder Charakterisierung einer großen Zahl
verschiedener (Poly)peptide aufgrund der hohen Auflösung der
verwendeten zwei-dimensionalen Gelelektrophorese (2-DE) sondern
auch die Zuordnung von funktionalen Parametern zu dem analysierten
(Poly)peptid. Entsprechend ist es gemäß der vorliegenden Erfindung vorgesehen,
dass erhaltene 2-DE Muster aus, z. B. verschiedenen Spezies (Gattungen),
Geweben, Entwicklungsstadien, Zellen oder Organellen, Geschlechter
und Krankheitssstadien im Hinblick auf die Anwesenheit/Abwesenheit
von Protein-Spots auf den verschiedenen 2-DE Muster und im Hinblick
auf verschiedene quantitativen Grad eines (Poly)peptids verglichen
und abgezogen werden.
-
Die
Auswertung von 2-DE Mustern kann mittels Laserscannen gefolgt von
Software assistierter Spot-Erkennung und Charakterisierung durchgeführt werden.
Für die
Anwesenheits-/Abwesenheitsanalyse von Proteinmustern können hochsensitive
silbertärbende
Verfahren verwendet werden. Für
Zwecke der Quantifizierung können
Commassie Blau oder Fluoreszenzfärbungen,
wohlbekannt in der Technik, verwendet werden. Diese Ausführungsform
der vorliegenden Erfindung erlaubt zudem den Nachweis von post-translationalen
Modifikationen, und der Fachmann ist wohlunterrichtet, z. B. in
Glycostaining- oder Phosphostaining-Verfahren.
-
Daher
erlaubt das Verfahren der vorliegenden Erfindung das Identifizieren
und/oder Charakterisieren eines (Poly)peptids, falls das korrespondierende
MPI einem vorliegenden MPI in der Datenbank entspricht und, z. B.
weitere Information im Hinblick auf die Quelle des korrespondierenden
(Poly)peptids enthält
(siehe 4). Zusätzlich
können
aufgrund der MPIs sowohl bekannte als auch unbekannte individuelle
(Poly)peptide in einer bestimmten Population von (Poly)peptiden
charakterisiert und des Weiteren eindeutig identifiziert werden,
innerhalb und kreuzweise in zwei oder mehr Populationen von (Poly)peptiden
(siehe 4). Mit anderen Worten, einmal erfasst und gespeichert,
erlauben MPIs die Verfolgung von Genprodukten, z. B. in zwei-dimensional
gelaufenen Gelen mit verschiedenen biologischen Proben durch einfachen
Vergleich der neuen und vorher gemessenen MPIs (siehe 6).
Dies erlaubt die Festlegung weiterer Information hinsichtlich, z.
B. Veränderungen
des quantitativen Grad oder post-translationalen Modifikationen
der korrespondierenden (Poly)peptide, die mit der Expression der
besagten (Poly)peptiden korrelieren, z. B. einer bestimmten Spezies,
Gewebe, Entwicklungsstadium, Zelle, Organelle, Geschlecht oder Krankheitssstadium.
Ein weiterer Vorteil des Verfahrens der vorliegenden Erfindung ist,
dass aufgrund der MPIs ein zwei-dimensionaler (2-D) Referenzstandardmuster
bereitgestellt werden kann, dass den einfachen und schnellen Vergleich
der 2-D Gele aus verschiedenen Laboratorien, unterschiedlicher Gelformate,
unabhängig
von der Gelauflösung
und/oder angewendeter Auftrennungstechnik, von verschiedenen Patienten,
Geweben, etc. (siehe oben) erlaubt. Da ein 2-D Referenzstandardmuster
durch massenspektrometrische Analyse einer repräsentativen Anzahl von Spots
etabliert wurde, vorzugsweise mindestens 100 Spots, bevorzugt mindestens
5.000 Spots, meist bevorzugt alle erkennbaren Spots auf den Gel,
und Speicherung der entsprechenden MPIs in einer Datenbank in Verbindung mit
ihren Koordinaten des Molekularen Gewichts und pH im Spotmuster,
erlaubt die Analyse von nur ein kleiner Anzahl von Referenzspots
(z. B. 20 Spots) von z. B. zwei Gelen, die zu vergleichen sind und
Zuordnung der korrespondierenden Spots auf dem Referenzstandardmuster
eine Standardisierung und daher ein Vergleich der beiden Gele. Dies
verbessert deutlich die Geschwindigkeit der Identifikation und/oder
Charakterisierung von vielfachen Proteinspots durch Vergleich von
zwei verschiedenen 2-D Gelen (siehe 1 und das
Flussdiagamm des Verfahrens (9)).
-
Die
Vorteile dieses Verfahrens sind, dass der MPI verwendet werden kann
um zwei verschiedene 2D Gele zu vergleichen, als auch die Spots,
welche unterschiedlich in verschiedenen 2D Gelen vorhanden sind (siehe 1, 2 und 4).
-
In
einer zusätzlich
bevorzugten Ausführungsform
des Verfahrens der vorliegenden Erfindung wird die besagte Referenz-(Poly)peptid-Datenbank
in Schritt (b) hergestellt durch die Schritte:
- (ba)
Präparieren
einer (Poly)peptid-Probe charakteristisch für eine Spezies, ein Gewebe,
ein Entwicklungsstadium, ein spezifisches Alter, ein spezifischer
Zeitpunkt einer Zelle, eine Organelle, ein Geschlecht, ein Krankheitsstadium,
ein Mikroorganismus, eine Gewebekultur einer Zelllinie, ein Virus,
ein Bakteriophage, ein Organismus, eine Pflanze, ein Antikörper, eine
Antikörperbibliothek,
ein Proteinkomplex oder interagierende Proteine;
- (bb) Unterwerfen besagter (Poly)peptid-Probe einer ein- oder
multidimensionalen chromatographischen Trennung,
- (bc) Fragmentieren der besagten getrennten (Poly)peptide,
- (bd) Analysieren der erhaltenen Fragmente aus Schritt (bc) durch
Massenspektrometerie; und
- (be) Speichern der erhaltenen Daten aus Schritt (be) in Kombination
mit der Quelle der entsprechenden (Poly)peptide in einer Datenbank.
-
In
einer weiteren bevorzugten Ausführungsform
des Verfahrens der vorliegenden Erfindung wird die besagte Referenz-(Poly)peptid-Datenbank
in Schritt (b) hergestellt durch die Schritte:
- (ba)
Präparieren
einer cDNA oder genomischen DNA-Bibliothek charakteristisch für eine Spezies,
ein Gewebe, ein Entwicklungsstadium, eine Zelle, eine Organelle,
ein Geschlecht, ein Krankheitsstadium, ein Mikroorganismus, eine
Gewebekultur einer Zelllinie, ein Virus, ein Bakteriophage, ein
Organismus, eine Pflanze, ein Antikörper, eine Antikörperbibliothek,
ein Proteinkomplex oder interagierende Proteine;
- (bb) Exprimieren der erhaltenen cDNA oder genomischen DNA-Bibliothek
aus Schritt (ba),
- (bc) Isolieren der erhaltenen (Poly)peptide aus Schritt (bb),
- (bd) Fragmentieren besagter (Poly)peptide,
- (be) Analysieren der erhaltenen Fragmente aus Schritt (bd) durch
Massenspektrometerie; und
- (bf) Speichern der erhaltenen Daten aus Schritt (be) in Kombination
mit der Quelle der entsprechenden (Poly)peptide in einer Datenbank.
-
Der
Begriff "cDNA oder
genomische Bibliothek" bezieht
sich auf Bibliotheken bestehend aus komplementärer DNA oder genomischen DNA
Molekülen.
Diese cDNA oder genomischen DNA Moleküle, auf die in der Beschreibung
durchweg Bezug genommen wird, können
Volllänge
oder nicht-Volllänge
sein. Es ist bevorzugt, dass sie Volllänge sind. Falls sie nicht Volllänge sind,
kodieren die besagten Fragmente vorzugsweise für eine Proteindomäne oder
ein Epitop.
-
Diese
Ausführungsform
ist besonders nützlich
für Anwendungen,
wobei es gewünscht
oder notwendig ist, dass ein direkter Zugang zu der genetischen
Information kodierend für
das (Poly)peptid erfolgt für
den MPI, welches in der Datenbank gefunden werden konnte. Zum Beispiel,
falls das MPI von einem unbekannten (Poly)peptid mit einem MPI der
Datenbank verglichen wird, stellt die Identifikation von einem MPI
im Datenbankabgleich mit dem zu analysierenden MPI des (Poly)pepetids
auf diese Weise nicht nur die Information in Hinsicht auf bestimmte
Funktionen des (Poly)peptids bereit, sondern macht ebenfalls sogleich
die korrespondierende genetische Information zugänglich. Daher brauchen nur
Clone von Interesse sequenziert werden (siehe 2).
-
Diese
Ausführungsform
trägt ebenfalls
zu der Geschwindigkeit und Zweckmäßigkeit des Verfahrens in einem
weiteren Aspekt der vorliegenden Erfindung bei. Zwecks Identifizieren
und/oder Erhalten der Nukleinsäure,
die für
ein (Poly)peptid kodiert, dass durch Massenspektrometrie analysiert
wurde, wurden im Stand der Technik DNA Sequenzen in der Datenbank
in Aminosäuresequenzen
in allen möglichen
Leseraster computer-übersetzt
und z. B. Trypsin-Verdauungsprodukte dieser Aminosäuresequenzen
computer-erzeugt. Die molekularen Massen dieser Verdauungsprodukte
wurden dann theoretisch berechnet und mit den experimentell erhaltenen
massenspektrometrischen Daten verglichen. Daher war die Identifikation
eines gewünschten
Nukleinsäuremoleküls nicht
nur zeitraubend und beschwerlich, sondern ebenfalls fehleranfällig für die Identifikation von
falsch-positiven Sequenzen, weil theoretische und experimentell
erhaltene Daten einander verglichen wurden. Anderenfalls oder zusätzlich könnten aus
dem gleichen Grund korrekte Sequenzen fehlen.
-
In
sogar einer weiteren bevorzugten Ausführungsform des Verfahrens der
vorliegenden Erfindung ist die besagte Referenz (Poly)peptid-Datenbank
erzeugt aus (Poly)peptiden, die aus ihrem natürlichen Kontext isoliert werden.
-
Dies
erlaubt vorteilhaft die Erzeugung von MPIs inter alia unter Berücksichtigung,
z. B. post-translationaler Modifikationen oder spezifisch prozessierten
Formen eines (Poly)peptids, dass sich nicht ereignen kann, wenn
z.B. ein eukaryontisches (Poly)peptid rekombinant in einem prokaryontischen
Wirt hergestellt wird.
-
Es
ist jedoch ebenfalls gemäß der vorliegenden
Erfindung vorgesehen, dass die Datenbank auch Einträge enthält mit struktureller
und funktionaler Information von rekombinant hergestellten (Poly)peptiden,
wobei ihre korrespondierende DNA Sequenzen bekannt sein können oder
nicht bekannt sein können.
-
Die
(Poly)eptide können
nativ oder denaturiert sein.
-
In
einer noch weiteren bevorzugten Ausführungsform ist das besagte
zu identifizierende und/oder zu charakterisierende (Poly)peptid
ein rekombinant hergestelltes (Poly)peptid.
-
Verfahren
für die
rekombinante Herstellung von (Poly)peptiden sind in der Technik
wohlbekannt und umfassen, z. B. Herstellung des (Poly)peptids in
prokaryontischen oder eukaryontischen Wirten. Jedoch kann das (Poly)peptid
ebenfalls durch wohlbekannte in vitro Transkription oder Translationsverfahren
hergestellt werden.
-
In
einer bevorzugten Ausführungsform
ist das erwähnte
rekombinant hergestellte (Poly)peptid in einer (Poly)peptidbibliothek
enthalten, die besagte Bibliothek wird hergestellt durch Expression
einer Bibliothek von Nukleinsäuremolekülen enthaltend
eine Nukleinsäuremolekül kodierend
für das
besagte (Poly)peptid.
-
Vektoren,
die gemäß der vorliegenden
Erfindung verwendet werden können
umfassen, z. B. Plasmide, Cosmide, Viren und Bakteriophagen, die
konventionell in der Gentechnik verwendet werden. Expressionsvektoren
erhältlich
aus Viren solche wie Retroviren, Vaccinia Virus, adeno-assoziierten
Virus, Herpes Viren, oder Bovine Papilloma Virus können für die Übertragung
des Nukleinsäuremoleküls der Erfindung
in die abgezielte Zellpopulation verwendet werden. Die Verfahren
sind für
den Fachmann wohlbekannt und können
für die
Konstruktion rekombinanter viraler Vektoren verwendet werden; siehe,
zum Beispiel, die beschriebenen Techniken in Sambrook et al., Molecular
Cloning A Laboratory Manual, Cold Spring Harbor Laboratory (1989)
N. Y. und Ausubel et al., Current Protocols in Molecular Biology,
Green Publishing Associates und Wiley Interscience, N. Y. (1989).
Der Vektor enthält
das Nukleinsäuremolekül der Erfindung
kann in die Wirtszelle nach wohlbekannten Verfahren übertragen
werden, die abhängig
vom Typ des zellulären
Wirtes variieren. Zum Beispiel wird die Kalziumchlorid-Transfektion üblicher
Weise für
prokaryontischen Zellen verwendet, wohingegen z. B. Kalziumphosphat
oder DEAE-Dextran
mediierte Transfektion oder Elektroporation für andere zelluläre Wirte
verwendet werden können;
siehe Sambrook, supra.
-
Solche
Vektoren können
weitere Gene aufweisen, solche wie Markergene, die eine Selektion
des besagten Vektors in einer geeigneten Wirtszelle und unter geeigneten
Bedingungen erlauben.
-
Expressionsvektoren
enthalten weitere Expressionskontrollsequenzen, die eine Expression
in prokaryontischen oder eukaryontischen Zellen erlauben. Expression
des besagten Nukleinsäuremoleküls umfasst die
Transkription des Nukleinsäuremoleküls in eine
translatierbare mRNA. Regulatorische Elemente zur Sicherung der
Expression in eukaryotischen Zellen, vorzugsweise Säugetierzellen,
sind dem Fachmann wohlbekannt. Sie enthalten üblicher Weise regulatorische
Sequenzen zur Sicherung der Initiation der Transkription und, optional,
ein poly-A Signal zur Sicherung der Termination der Transkription
und Stabilisierung des Transkripts und/oder ein Intron zur weiteren
Erhöhung
der Expression der besagten Polynucleotide. Zusätzliche regulatorische Elemente
können
sowohl transkriptionale als auch translationale Enhancer und/oder
natürlich-assoziierte
oder heterologe Promotorregionen umfassen. Mögliche regulatorische Elemente
erlauben die Expression in prokaryontischen Wirtszellen umfassend,
z. B. den PL, lac, trp oder tac Promotor in E. coli, und Beispiele
für regulatorische
Elemente, die die Expression in eukaryontischen Wirtszellen ermöglichen,
sind der AOX1 oder GAL1 Promotor in Hefe oder der CMV-, SV40-, RSV-Promotor
(Rous sarcoma virus), CMV-Enhancer, SV40-Enhancer oder ein Globin-Intron
in Säugetier-
und anderen tierischen Zellen. Neben Elementen, die für die Initiation
der Transkription verantwortlich sind, können solche regulatorische
Elemente ebenfalls Transkription-Termination-Signale nachgeschaltet
in der Nukleinsäure
enthalten, solche wie der SV40-poly-A site oder der tk-poly-A site.
Darüber
hinaus, abhängig
von dem verwendeten Expressionssystem können Leader-Sequenzen an die
zu kodierende Sequenz der Nukleinsäure der Erfindung hinzugefügt werden
und sind wohlbekannt in der Technik, die imstande sind das Polypeptid
in ein zelluläres
Kompartiment zu richten oder es in das Medium zu sekretieren. Die
Leader-Sequenz(en) is (sind) in geeigneter Folge mit Translations-,
Initiations- und Terminationssequenzen assembliiert, und vorzugsweise,
ist eine Leader-Sequenz imstande zur gerichteten Translation des
translatierten Proteins, oder ein Teil davon, in den periplasmatischen
Raum oder extrazellulärem
Medium. Wahlweise kann die heterologe Sequenz für ein Fusionsprotein kodieren,
einschließlich
einer C- oder N-terminalen Peptididentifizierung, die gewünschte Charakteristika
verleiht, z. B. Stabilisierung oder vereinfachte Aufreinigung des
exprimierten rekombinanten Produkts. In diesem Zusammenhang sind
geeignete Expressionsvektoren in der Technik wohlbekannt, solche
wie Okayama-Berg cDNA Expressionsvektor pcDV1 (Pharmacia), pCDM8,
pRc/CMV, pcDNA1, pcDNA3(In-vitrogene), pSPORT1 (GIBCO BRL), pCi
(Promega), oder pQE30 (Qiagen).
-
In
einer zusätzlichen
bevorzugten Ausführungsform
des Verfahrens der vorliegenden Erfindung ist das besagte zu identifizierende
und/oder zu charakterisierende (Poly)peptid Teil eines Proteinkomplexes.
Wobei ein Protein isoliert wird und das Protein oder die Proteine,
die den Komplex bilden unter Verwendung ihrer MPIs identisch sind.
Solche Komplexe können
auch auf 1D oder 2D Gelen laufen, und die Spots isoliert und identifiziert
werden.
-
In
einer noch weiteren bevorzugten Ausführungsform des Verfahrens der
vorliegenden Erfindung ist das besagte zu identifizierende und/oder
zu charakterisierende (Poly)peptid in Interaktion mit einem anderen (Poly)peptid.
Der Begriff "ein
anderes (Poly)peptid " umfasst
Antikörper,
die spezifisch das besagte (Poly)peptid oder Fragmente oder Derivate
davon mit der gleichen Spezifität
erkennen. Der Begriff "Fragment" eines Antikörper ist
wohlverstanden in der Technik (siehe z.B. Harlow und Lane "Antibodies, A Laboratory
Manual", CSH Press,
Cold Spring Harbor, USA, 1988) und beinhaltet Fab und F(ab')2 Fragmente.
Der Begriff "Derivat" ist gleichermaßen wohlverstanden
und umfasst scFv Fragmente. Phage Display präsentierende Antikörper können ebenfalls
verwendet werden und sind wohlbekannt in der Technik.
-
In
einer weiteren bevorzugten Ausführungsform
liegt das besagte zu identifizierende und/oder zu charkterisierende
(Poly)peptid in einem Lysat oder in einem gesamten Zellextrakt vor.
Hier können
(Poly)peptide isoliert werden, die schwierig in der Auftrennung
auf 2D Gelen sein können
oder schwierig sein können rekombinant
zu exprimieren. Beispiele solcher (Poly)peptide können sowohl
membrangebundene Proteine, trans-membrane Proteinen und Rezeptoren
als auch Proteine umfassen, die toxische Proteine für den Expressionswirt
sind, falls ein rekombinantes Expressionssystem verwendet wird.
-
In
einer noch weiteren bevorzugten Ausführungsform ist die besagte
massenspektrometrische Methode MALDI-MS, MALDI-MS/MS, Elektrosprayionisation
(ESI), Q-TOF oder post-source decay (PSD).
-
In
einer besonders bevorzugten Ausführungsform
ist die besagte Bibliothek von Nukleinsäurenmolekülen kodierend für die (Poly)peptide
als Fusionsproteine.
-
In
einer noch weiteren meist bevorzugten Ausführungsform enthalten die besagten
Fusionsproteine einen tag.
-
Tags
erlauben vorteilhaft die zweckgemäße Isolation, Reinigung, Detektion
und Lokalisation für „Re-arraying" (neu-anordnende)
Zwecke der hergestellten (Poly)peptide.
-
In
einer meist bevorzugten Ausführungsform
ist das besagte tag ein His-tag.
-
Jedoch
können
andere tags wie, z.B. c-myc, FLAG, alkaline phosphatase, EpiTagTM, V5 tag, T7 tag, XpressTM tag,
Strep-tag, ein Fusionsprotein, vorzugsweise GST, Cellulose binding
domain, Green fluorescent protein (GFP), Maltose binding Protein
oder lacZ ebenfalls zur Durchführung
des Verfahrens der vorliegenden Erfindung geeignet sein.
-
In
einer weiteren besonders bevorzugten Ausführungsform des Verfahrens der
vorliegenden Erfindung ist die Expression induzierbar.
-
In
noch einer bevorzugten Ausführungsform
des Verfahrens der vorliegenden Erfindung ist das besagte Nukleinsäuremolekül cDNA.
Diese Ausführungsform
umfasst ebenfalls Nukleinsäuremoleküle, die
ein Fragment oder ein Volllänge
cDNA Molekül
bilden.
-
Jedoch
ist es ebenfalls vorgesehen, dass das besagte Nukleinsäuremolekül eine genomische
DNA ist. Diese Ausführungsform
umfasst ebhenfalls Nukleinsäuremoleküle, die
ein Fragment oder Volllänge
genomisches DNA Molekül
bilden.
-
In
einer weiteren bevorzugten Ausführungsform
des Verfahrens der vorliegenden Erfindung erfolgt die besagte Analyse
in Schritt (a) durch Oberflächen-Plasmonresonanz im
Zusatz zur oder alternativ zur Massenspektrometrie, wie wohlbekannt
in der Technik. Solche Verfahren können mittels des BIA core Systems
durchgeführt
werden, wie wohlbekannt in der Technik. Dies hat sowohl Vorteile
zur Bestimmung der Interaktionen, Affinitätsmessungen, Dissoziations-
und Assoziationmessungen, als auch zum Identifizieren und Charakterisieren
der Interaktionspartner.
-
In
einer noch weiteren besonders bevorzugten Ausführungsform, vor der Expression
der besagten Bibliothek von Nukleinsäuremolekülen, werden die folgenden Schritte
ausgeführt:
- (aa) Anreicherung besagter Nukleinsäuremoleküle,
- (ab) reguläres
Anordnen besagter angereicherter Nukleinsäuremoleküle; und, gegebenenfalls (ac)
Hybridisieren der regulär
angeordneten Nukleinsäuremoleküle mit einer
Vielzahl von Oligonukleotiden;
- (ad) Identifizieren von Nukleinsäuremolekülen, die mit dem gleichen Satz
von Oligonukleotiden hybridisieren; und
- (ae) reguläres
Neuanordnen pro Satz von Oligonukleotiden einer Gattung von Nukleinsäuremolekülen.
-
Es
ist besonders bevorzugt, dass die Nukleinsäuremoleküle Volllänge aufweisen.
-
In
dieser Ausführungsform
werden Anordnungen, vorzugsweise Mikroanordnungen bereit gestellt, enthaltend
optional eine nicht-redundanten Satz von genomischer DNA oder cDNA
Clonen (im Folgenden ebenfalls bezeichnet als das "UNIgene set" oder "UNIclone set") repräsentierend
einen Satz von mRNAs exprimiert in einer spezifischen Spezies, Gewebe,
Entwicklungsstadium, Zelle, Organelle, Geschlecht, Krankheitsstadium,
Mikroorganismus, Gewebekultur einer Zelllinie, Virus, Bakteriophage,
Organismus, oder Pflanze etc. (siehe oben). Die Oligonukleotide
können
der Reihe nach oder als eine Mischung von Oligonukleotiden mit der
Anordnung von Nukleinsäuremolekülen hybridisieren.
Im letzteren Fall ist jede Spezies von Oligonukleotiden mit einem
spezifischen Label markiert. Diese Verfahren auch genannt Oligonucleotid-Fingerprinting ist
in der Technik bekannt (Meier-Ewert et al., 1998; Radelof et al.,
1998; Poustka et al., 1999; Herwig et al., 1999). Darüber hinaus
ist der Fachmann wohlwissend über
verscheidene Nukleinsäuremarkierungen
(-labels) (siehe, z. B., WO 99/29897 und WO 99/29898).
-
Reguläres Anordnen
besagter amplifizierter Nukleinsäuremoleküle kann
z. B. durch Nadel oder Pin-Spotting erfolgen, wobei Flüssigkeit
enthaltend die Nukleinsäuremoleküle durch
Adhäsion
an Edelstahlstiften (Pin) abgegeben wird. Beziehungsgweise kann
die Piezo-Tintenstrahltechnologie verwendet werden, wo cDNAs zum
Beispiel ohne Berührung
der Oberfläche übertragen
wird. Vorteilhaft ist ein Mehrfach-Kopf Piezo-Strahl Mikroarraysystem
zu verwenden, das einen Aufbau von großen Mikroarrays auf einer Vielzahl
von Oberflächen
mit einer Spotdichte von mehr als 2.000 Clonen/cm2 ermöglicht.
Diese Methodik ist kombiniert mit einem Hochauflösungsnachweissystem, basierend
auf Laserscannen, als eine weitere Alternative zum konventionellen
Nadel-Spotting; eine Tintenstrahltechnik („drop ondemand") kann verwendet
werden. Diese Technologie reduziert die Dimensionen der Hybridisierungsanordnungen
um ein oder zwei Größenordnungen,
die genetischen Proben werden mit einem Multipipetten (Dispenser)
mikro-abgebenden Roboter pipettiert, der nach dem gleichen Prinzip
eines Tintenstrahldruckers arbeitet. Integrierte Bildanalyse-Routinen
entscheiden, ob ein geeigneter Tropfen erzeugt wird. Falls der Tropfen
schlecht gebildet wird, wird die Düsenspitze automatisch gereinigt.
Eine zweite integrierte Kamera definiert Positionen für die automatische
Abgabe, z. B. Füllen von
Kavitäten
in Siliziumwafer. Jeder Kopf ist in der Lage zur Abgabe einfacher
oder mehrfacher Tropfen mit einem Volumen von 100 pI. Die Dispenser
können
innen ein magnetisches bead-basiertes Reinigungssystem aufweisen.
Dieses erlaubt Konzentration und Reinigung der Spotting-Proben vor
der Abgabe. Die erzeugte Spotgröße ist abhängig von
der Oberfläche
auf welche die Flüssigkeit
abgegeben wird und variiert zwischen 100 μm und 120 μm im Durchmesser. Die Dichte
der Anordnungen kann auf 3.000 spots/cm2 erhöht werden. Das
Mikro-Dispenser System hat die Fähigkeit
fliegend zu dispensieren und benötigt
weniger als drei Minuten um 100 × 100 Spots zu dispensieren,
in einem Quadrat mit 100 μm
Durchmesser und mit 230 μm
Entfernung zwischen dem Zentrum eines jeden Spots. In dieser Dichte
ist es möglich
eine kleine cDNA Bibliothek bestehend aus 14.000 Clonen auf einer
Objektträgeroberfläche zu immobilisieren.
Dies ermöglicht
vorteilhaft eine höheren
Grad an Automation, da Glasträger
steif und leichter zu Händeln
sind als Membrane.
-
Die
derart hergestellte Anordnung wird dann unter stringenten Bedingungen
mit einem 9-mer Oligonukleotid bei einer Temperatur zwischen 37
Grad Celsius und 42 Grad Celsius hybridisiert, abhängig von
dem GC Gehalt, vorzugsweise 39 Grad Celsius, und die positiven Signale
werden detektiert, quantifiziert und gespeichert mittels Bild-Analyse
Software.
-
Dieser
Schritt wird wiederholt bis Daten von mehreren Hybridisierungen
gesammelt wurden. Durch Kombinieren aller dieser Daten kann für jeden
Clon ein Oligofingerprint bestehend aus einer Liste von Proben, die
mit dem Nukleinsäuremolekül hybridisieren,
erstellt werden. Da die Hybridisierungen unter stringenten Bedingungen
durchgeführt
werden, sind diese Fingerprints eine Eigenschaft der Clone und deren
DNA Sequenzen und daher – wann
immer – zwei
Clone gleiche oder identische Fingerprints aufweisen, müssen sie
die gleiche oder identische Sequenz aufweisen und können auf
dieser Basis zusammen geclustert werden. Jedes Cluster repräsentiert
ein verschiedenes Gen und hat einen Durchschnitt oder Consensus
Fingerprint charakteristisch für
das Gen.
-
Schließlich können die
Nukleinsäuremoleküle, die
die gleiche Sequenz zeigen, identifiziert werden und ein Satz von
nicht-redundanten Nukleinsäuremolekülen kann
durch die gleichen Verfahren wie vorstehend beschrieben regulär neuangeordnet
werden.
-
Diese
Anordnungen erlauben die gleichzeitigen Messungen der Genexpressionsniveaus
und bilden daher einen Hinweis auf den Aktivitätsgrad von allen Genen repräsentiert
in der Anordnung in jeder untersuchten Probe. Wenn komplexe Mischungen
von RNA oder cDNA oder genomischer DNA aus verschiedenen, z. B.
Geweben oder Entwicklungsstadien mit diesen DNA chips hybridisiert
werden, ermöglicht
dies die Bestimmung von Unterschieden in Genexpressionsprofilen.
-
Es
ist weiterhin vorgesehen, dass (Poly)peptid-Anordnungen, in welche
die Positionen der (Poly)peptide mit den Positionen ihrer korrespondierenden
cDNA Clonen auf der DNA-Anordnung, hergestellt werden, und die (Poly)peptide
analysiert werden, wie vorstehend beschrieben. Proteinanordnungen
können
z. B. durch automatisches Spotting von Proteinen aus flüssigen Expressionskulturen
mittels eines Übertragungsstempels montiert
auf einem Flachbett-Spotting Roboter hergestellt werden. Falls die
zu verwendenden Expressionsprofile komplementär zu den MPIs der korrespondierenden
(Poly)peptide sind, stellt dies eine direkte Verbindung der mRNA
und extrahierten Proteinpopulationen aus z. B. Zellen oder Geweben
her (Bussow et al., 1998; ebenfalls gezeigt in 10,
wo eine hochdichte Proteinanordnung von über 2.500 Proteinen auf einem
festen Träger
angeordnet sind und mit einem anti-Tubulin Antikörper gescreent werden. Positive
Clone wurden als Tubulin identifiziert).
-
In
einer bevorzugten Ausführungsform
erfolgt die Amplifikation in Schritt (aa) durch PCR.
-
PCR
Amplifikation ist eine wohlbekannte Technik in der Technik (siehe
z. B. Sambrook et al., loc. cit.) und der Fachmann weiß kurzerhand
wie die Reaktionsparameter bestimmter Amplifikationsschritte anzupassen
sind. Beispielhafte Bedingungen für 12mer Oligonukleotide sind,
wobei vorzugsweise sich kein Mismatch ereignet, Temperaturen zwischen
37 Grad Celsius und 42 Grad Celsius, abhängig vom GC Gehalt, vorzugsweise
39 Grad Celsius.
-
In
einer bevorzugten Ausführungsform
des Verfahrens der vorliegenden Erfindung wird nach Expression der
besagten Bibliothek der Nukleinsäuremoleküle, die
folgenden Schritte in Verbindung mit Schritt (b) ausgeführt:
- (bi) identifizieren von (Poly)peptiden, die
auf der Basis der vergleichenden Analyse einen einheitlichen minimalen
Protein Identifizierer aufweisen und (bii) Neuanordnen der Clone,
die die im Schritt (bi) identifizierten (Poly)peptide exprimieren,
regulär
in einem im Wesentlichen nicht-redundanten Satz.
-
Mit
dieser Ausführungsform
werden die gleichen Vorteile auf der Proteinebene erhalten, wie
erörtert für die vorstehende
Ausführungsform
auf der Nukleinsäureebenen.
Es wird nämlich
eine Bibliothek oder Sammlung von im Wesentlichen nicht-redundanten
(Poly)peptiden erhalten, welche dann weiter analysiert wird. Diese
Bibliothek, auch bekannt als UNIclone-, oder UNIprotein- oder UNIgene
set, kann zum Herstellen der Proteinanordnungen und/oder DNA Anordnungen,
wie in Cahill (2000) beschrieben, verwendet werden.
-
In
einer noch weiteren bevorzugten Ausführungsform erfolgt das besagte
reguläre
Anordnen und/oder besagte reguläre
Neuanordnen auf einem festen Träger.
-
In
einer noch weiteren bevorzugten Ausführungsform ist der besagte
feste Träger
ein Chip, ein Glasträger,
ein Filter, eine Membran, ein magnetisches Bead, eine Silica Wafer,
Metall, ein massenspektrometrisches Target oder eine Matrix. Jeder
der obigen festen Träger
kann beschichtet oder unbeschichtet sein. Die Beschichtung kann
sowohl mit einem Gel wie Hydrogel sein als auch mit Teflon. Die
chemische Beschichtung ist ebenfalls vorgesehen. Die Oberfläche des
festen Trägers
kann auch mit Anker-Targets überzogen
sein.
-
In
einer meist bevorzugten Ausführungsform
des Verfahrens dieser Erfindung wird das erwähnte reguläre Anordnen und/oder das erwähnte reguläre Neu-Anordnen auf einer
porösen
Oberfläche
durchgeführt.
-
Die
poröse
Oberfläche
kann aus einem festen oder nicht -festen Träger bestehen. Die erwähnte poröse Oberfläche kann,
zum Beispiel, ein Schwamm, eine Membran, ein Filter; zum Beispiel
eine PVDF-Membran oder Nylon-Membran sein.
-
In
einer weiteren meist bevorzugten Ausführungsform wird die erwähnte reguläre Anordnung
und/oder Neu-Anordnung auf einer nicht-porösen Oberfläche durchgeführt.
-
Die
nicht-poröse
Oberfläche
kann auch ein(e) feste(r) oder nicht-feste(r) Oberfläche/Träger sein.
-
In
einer weiteren meist bevorzugten Ausführungsform des Verfahrens dieser
Erfindung wird das erwähnte
Anordnen und/oder Neu-Anordnen durch eine automatische Vorrichtung
erreicht.
-
Diese
besagte automatische Vorrichtung, vorzugsweise in der Gestalt eines
automatisierten Geräts, kann
Spotting, Anordnung in Gitterformat, Pipettieren oder piezo-elektrisches
Besprühen
biologischen Materials beinhalten.
-
Die
Expression einer Bibliothek von Nukleinsäuremolekülen kann durch die Auswahl
von willkürlich verteilten
Clonen aus Agar-Platten und Anordnen dieser Clone in Mikrotiter-Platten
erfolgen. Vorteilhafterweise wird dies durch Greifroboter erreicht.
Die Kolonien werden durch ein Bild-Analyse-System geprüft, um die
Position für
die Auswahl zu bestimmen. Ausserdem identifiziert die Software Clon-Positionen und überträgt die Position
in die Bewegung des automatisierten Geräts. Der nächste Schritt ist die Erstellung
von Profilen von Proteinprodukten, die durch differentiell exprimierte
genomische DNA oder cDNA Clone kodiert werden, einschließlich der
gleichzeitigen Expression einer großen Zahl von cDNA Clonen in
einem geeigneten Vektorsystem und der Hochgeschwindigkeits-Anordnung
von Proteinprodukten. Zum Beispiel kann durch Verwendung von automatisierter Technologie
eine menschliche Stammhirnzellen cDNA Expressionsbibliothek auf
Mikrotiter-Platten angeordnet werden, und Bakterienkolonien können auf
PVDF Filter in Gitterformat angeordnet werden. In situ Expression
von rekombinanten Fusions-Proteinen
kann induziert und detektiert werden, indem ein Antikörper gegen
ein 6 × His-tag
enthaltendes Epitop verwendet wird. Verwendet man einen solchen
Ansatz, können
die Gene in diesen Bibliotheken gleichzeitig auf der DNA- und Protein-Ebenen
analysiert werden, und sie können
Ursprung für
rekombinante Gene und Proteine sein, um DNA und Protein-Chips zu
erzeugen. Dieser Ansatz könnte
ebenso den groß-technischen
systematischen Rahmen von rekombinanten Proteinen für die funktionellen
Studien hervorbringen, um cDNA Expressionsbibliotheken herzustellen
und anzuorden und um die direkte Verbindung zwischen DNA Sequenzinformation
auf individuellen Clonen und Proteinprodukten und zurück auf der
Genom-Ebene zu etablieren. Dies macht transformierte Genprodukte
zugänglich
für Experimente
in großer
Stückzahl
und schließt
die Lücke
zwischen Proteinexpression und DNA-Sequenzdaten (Cahill et al.,
2000).
-
In
einer weiteren bevorzugten Ausführungsform
des Verfahrens dieser vorliegenden Erfindung umfaßt die erwähnte Auswahl
von Oligonukleotiden mindestens 2, vorzugsweise mindestens 10, und
vorzugsweise mindestens 150 verschiedene Oligonukleotide.
-
In
einer weiteren bevorzugten Ausführungsform
des Verfahrens dieser vorliegenden Erfindung werden vor Stufe (aa)
folgende Schritte durchgeführt:
- (aa')
optional reverse Transkription von mRNA von einer Spezies, einem
Gewebe, einem Entwicklungsstadium, einer Zelle, einer Organelle,
einem Geschlecht, einem Krankheitsstadium, einem Mikroorganismus, einer
Gewebekultur, einer Zelllinie, einem Virus, einem Bakteriophage,
einem Organismus, einer Pflanze in cDNA;
- (aa'') Klonieren der erhaltenen
cDNA aus Schritt (aa'') oder genomischer
DNA in einen Expressionsvektor.
-
Die
Isolation von mRNA und die Rück-Transkription
in cDNA sind wohlbekannte Methoden in der Technik (siehe, z.B. Sambrook,
a.a.O.).
-
Dementsprechend
kann RNA präpariert
werden und mRNA isoliert werden durch, zum Beispiel, oligo-dT Cellulose.
Darauf folgend kann zum Beispiel oligo-dT primer hybridisiert werden
in poly-A tails der mRNA, und mRNA kann beispielsweise durch AMV-Rück-Transkriptase
rück-transkribiert
werden. Nach einer zweiten Strangsynthese kann die so erzeugte cDNA
durch wohlbekannte Methoden in einen Expressionsvektor geklont werden.
Geeignete Expressionsvektoren sind oben beschrieben worden.
-
Wenn
die extrahierten mRNA Populationen über Rück-Transkription und Klonen
wie rekombinante Fusionsproteine exprimiert werden, können ihre
kodierten MPIs einfach durch Massenspektrometrie bestimmt werden
(siehe 4 und ebenso 3B, 6B, 7). Durch
den Vergleich der von nativen Proteinen ermittelten MPIs, isoliert
durch 2-DE, mit ihren rekombinanten Gegenstücken können die entsprechende Transkription
und die Übertragungsprodukte
identifiziert werden. Insofern können
eine hohe Zahl von biologisch aktiven Genprodukten bestimmt werden
und mit ihren jeweiligen Genen verbunden werden, ohne daß die Sequenz
bekannt ist. (siehe 3, 4 und 5).
-
In
einer weiteren bevorzugten Ausführungsform,
werden die folgenden Schritte ausgeführt:
- (ai)
nach der Expression des erwähnten
(Poly)peptids, das Isolieren der ausgedrückten Fusionsproteine durch
das tag;
- (aii) Fragmentieren der Fusionsproteine;
- (aiii) Analyse der in Schritt (aii) erzielten Fragmente durch
Massenspektrometrie; und
- (aiv) Speichern der in Schritt (aiii) erzielten Daten in einer
Datenbank.
-
In
dieser Ausführungsform
können
Clone herangezogen werden, zum Beispiel auf Mikrotiter-Platten, es
kann die Protein-Expression induziert werden, und die produzierten
Fusionsproteine können
mit Hilfe ihrer tags oder zum Beispiel magnetischen Beads gereinigt
werden. Außerdem
ist vorgesehen, die gebundenen Fusionsproteine auf Partikel zu digerieren
z. B. durch Trypsin, und das entstandene Peptid wird der MALDI-MS und
MS-PSD unterzogen. Als Ergebnis wird ein MPI-Profil für jedes (Poly)peptid erstellt – hergestellt
durch die wahlweise nicht- redundanten
Clone. Das Profil gibt jede Eintragung eindeutig an und erlaubt
die schnelle Identifikation (siehe 6).
-
In
einer weiteren bevorzugten Ausführungsform
wird die erwähnte
Isolierung durch Metall-Chelat-Affinitäts-Aufreinigung herbeigeführt.
-
In
einer weiteren meist bevorzugten Ausführungsform verwendet die erwähnte Metall-Chelat-Aftinitäts-Aufreinigung
Ni2+-NTA Ligande, die auf Magnet-Partikel
festgehalten werden. Alternativ können sie auch auf Agarose festgehalten
werden; siehe 3.
-
Jedoch
können
Ni2+-NTA Liganden ebenfalls immobilisiert
werden auf Ni2+-NTA Agarose oder einer Matrix einer
Säule.
Dieses Verfahren der Aufreinigung ist meist bevorzugt, weil die
Ausbeute und Reinheit des Produktes hoch ist, das Verfahren billig
und schnell ist, und weil es sich für die Verwendung von automatisierten
Geräten
und den Einsatz einer großen
Anzahl von Proteinen eignet.
-
Eine
weitere bevorzugte Ausführungsform
des Verfahrens der vorliegenden Erfindung enthält weiterhin:
- (af) Hybridisieren von genomischer DNA, PNA, cDNA oder RNA Molekülen zu den
wahlweise neu-angeordneten Nukleinäuremolekülen von Schritt (ae); und
- (ag) Identifikation von genomischer DNA, PNA, cDNA oder RNA
Molekülen
welche hybridiziert werden zu den wahlweise neu-angeordneten Nukleinsäure-Molekülen auf
der Anordnung.
-
Jedes
der oben genannten hybridisierten Moleküle kann die Form synthetischer
Oligonucleotide aufweisen. Andere Quellen wie natürlich erhaltene
oder rekombinant hergestellte sind ebenfalls eingeschlossen.
-
Diese
Ausführungsform
der vorliegenden Erfindung erlaubt die Verbindung der Gene zu ihren
Expressionsprodukten und umgekehrt (siehe 2 und 4).
-
In
einer bevorzugten Ausführungsform
des Verfahrens der vorliegenden Erfindung erfolgt die Expression
in Prokaryonten.
-
In
einer bevorzugten Ausführungsform
sind die besagten Prokaryonten Bakterien.
-
In
einer bevorzugten Ausführungsform
sind die besagten Bakterien E. coli (siehe 6B und 7B).
-
In
einer bevorzugten Ausführungsform
des Verfahrens der vorliegenden Erfindung erfolgt die Expression
in nicht-humanen Eukaryonten oder eukaryontischen Zellen.
-
In
einer noch bevorzugten Ausführungsform
sind die erwähnten
nicht-humanen Eukaryonten
Hefe, zum Beispiel S. cerevisiae.
-
In
einer bevorzugten Ausführungsform
gehört
die erwähnte
Hefe zur Spezies Pichia pastoris (siehe 7A).
-
In
einer weiteren bevorzugten Ausführungsform
sind die erwähnten
Eukaryonten Säugetier-
oder Insektenzellen.
-
In
einer bevorzugten Ausführungsform
der Methode der vorliegenden Erfindung haben die erwähnten Peptide
ein Molekulargewicht von zwischen 600 bis 4.500 Daltons. Dieser
Bereich von Peptiden hat spezifische Vorteile, insbesondere falls
die zu analysierenden Peptide von heterologer Natur sind, verglichen
mit den in der Datenbank gespeicherten Peptiden, wie aus dem beiliegenden
Beispiel hervorgeht. (siehe 8: Peptid-Bereich
von rekombinanten Proteinen).
-
Die
Verteilung von m/z Werten ist wichtig für die Bestimmung der MPIs.
Die MPIs wurden für
die Zahl der Peaks in einem Spektrum innerhalb des Bereichs zwischen
800 Da bis 2.000 Da berechnet. Dieser Bereich wurde gewählt, weil
die Mindest- und Höchstnachweisrate
im Durchschnitt zwischen 600-2.750 Da für homologe und zwischen 600-4.500
Da für
heterologe Proteine liegt (8: Peptid- Bereich für homologe
Proteine). Vergleicht man beide Spektren systematisch, fallen bestimmte
Peptide heraus. Daher wurde der obige Schwellenbereich ausgewählt, um
die MPI zu berechnen, was die Datenmenge verringert und die Suchgeschwindigkeit
erhöht.
-
In
einer bevorzugten Ausführungsform,
haben die erwähnten
Peptide ein Molekulargewicht von 600 bis 2750 Daltons. Diese Ausführungsform
ist besonders vorteilhaft, wenn es sich um homologe Peptide handelt.
-
In
einer bevorzugten Ausführungsform
der Methode der vorliegenden Erfindung umfaßt der erwähnte Vergleich in Schritt (b)
die Normalisierung für
chemische oder post-translationale Modifikationen. Die Normalisierung
kann zum Beispiel auf der Basis der Lehren des beigefügten Beispiels
erfolgen.
-
In
einer meist bevorzugten Ausführungsform
ist die erwähnte
chemische Veränderung
Oxidation.
-
Post-translationale
Modifikationen schließen
Glykolisierung und Phosphorylierung, Acetylierung, Sulfatierung
und Myristolierung ein.
-
Wie
oben beschrieben, können
(Poly)peptide durch das Verfahren der vorliegenden Erfindung identifiziert
und bestimmt werden. In anderen Worten, das Verfahren der vorliegenden
Eindung erlaubt die Aufstellung von strukturellen und funktionellen
Charakteristika von (Poly)peptiden, unabhängig davon, ob sie bekannt oder
unbekannt sind.
-
Wie
ebenfalls oben beschrieben, erlaubt die Methode des vorliegenden
Verfahrens die Kombination von biologischen und biochemischen Parametern
von verschiedenen (Poly)peptiden mit ihren Gen-Expression-Profilen.
(siehe 2 und 4).
-
Schließlich, wenn
genomische DNA Moleküle
hybridisiert werden zu den Anordnungen der Nukleinsäure-Molekülen, hergestellt
nach dem hier vorgestellten Verfahren, erlaubt dies nicht nur die
funktionale und strukturelle Identifikation und Charakterisierung
von (Poly)peptiden, sondern auch die Identifikation und Isolierung
von Genen, welche die (Poly)peptide kodieren. Damit trägt die Erfindung
zur Erhellung der Beziehung zwischen Genom und Proteom, zum Beispiel
in einer bestimmten Zelle oder einem Gewebe bei, wobei dies unter
Normalbedingungen, Krankheitsbedigungen und in aktiviertem Zustand
(beispielsweise medikamentös behandeltem)
erforscht werden kann.
-
Das
Verfahren der vorliegenden Erfindung kann ebenso sehr nützlich für die Entwicklung
von Pharmazieprodukten und Diagnostik-Methoden sein. So kann das
Verfahren fokussiert angewandt werden für die Identifizierung und/oder
Charakterisierung von (Poly)peptiden mit veränderten Expressions-Niveaus
und/oder strukturellen Modifikationen wie beispielsweise posttranslationalen
Modifikationen oder Aminosäure-Substitutionen,
Additionen und/oder Deletionen in verschiedenen Krankheitsstadien
oder beim Vergleich von Normalbedingungen und Krankheitszuständen.
-
Diese
Identifizierungen können,
im Gegenzug, zur Identifizierung von entsprechenden Schäden auf der
DNA führen
und wertvolle Informationen für
pharmazeutische oder diagnostische Zwecke liefern sowie die Identifikation
von Verbindungen ermöglichen,
die anormalen Expressions-Niveaus und/oder strukturellen Modifikationen
entgegenwirken können
und daher als potentielle Medikamente eingesetzt werden können.
-
Der
Inhalt der hierin zitierten Dokumente wird durch Zitat in vollem
Umfang eingefügt.
-
Die
Figuren zeigen:
-
1:
(a) Erfassung von Minimal-Protein-Identifikatoren (MPI) durch MALDI-MS.
Die Proteine sind mit einer bestimmten Protease digeriert, etwa
Trypsin, und die Molekularmasse der Spaltungsprodukte werden bestimmt.
-
Daran
anschließend
werden für
jedes Proteinfragment-Ion die Spektren für eine Auswahl der prominenten
Spaltungspeptide aufgenommen. Die Peptid-Massen-Karte aus dem ersten Spektrum erlaubt
den Fingerprint der Primärstruktur
des Proteins, während
das Peak des Fragment-Ion den Fingerprint der Aminosäure-Sequenzen des Spaltungs-Peptids
anzeigt. Diese Daten werden als MPI für jedes Protein kombiniert
und gespeichert.
- (b) Strategie zur Identifikation
von Proteinen in Sequenz-Datenbanken. Eine Datenbank-Suche nach
einer bestimmten Peptid-Massen-Karte ergibt eine Liste von möglichen
Protein-Sequenzen (z. B. 100 Sequenzen). Diese Liste wird nun nach
Spaltungspeptiden durchsucht, welche dem registrierten Fragment-Ion-Fingerprint
entsprechen und sortiert. Der Vorteil der vorgeschlagenen Sequenz-Strategie
liegt in der hohen Suchgenauigkeit und der kurzen Zeitdauer der
Suche, da die zweite Auswahlrunde nur auf einen kleinen Teil der
gesamten Datenmenge beschränkt
bleibt.
- (c) Strategie zum Vergleich von 2-DE Protein-Gels. Um Protein-Punkte
zu bestimmen, werden die registrierten MPI anstelle ihrer Muster
in silico verglichen (d.h. auf Computerbasis). Diese Auswahl verläuft unabhängig von
den verwendeten Gelformaten, der angewandten Trennungstechnik und
folgt dem 2-DE Protokoll. Korrelation von 2-DE Protein spot-Mustern
und sortierte Protein Micro-arrays. Für alle rekombinanten Proteine,
die auf der Anordnung gesichtet werden, sind zuvor MPI aufgenommen
worden, die in einer Datenbank gespeichert wurden. Native Proteine,
getrennt durch 2-DE, können
nun ihren rekombinanten Derivativen zugeordnet werden, indem man
ihre MPI mit den obigen Datenbank-Einträgen abgleicht.
-
2:
Das vorgeschlagene Konzept: „Die
Brücke".
-
Native
Proteine korrelieren zu ihren Genen und RNA Expression-Niveaus durch
die Verwendung von minimalen Protein-Identifizierer (MPIs, siehe 1)
bestimmt durch Massenspektrometrie.
-
Ein
Satz von UNIgene-UNIprotein (auch bekannt als Uniclone-Satz), extrahiert
aus den cDNA Bibliotheken liefert sowohl die einzelnen Gen-Repräsentanten über PCR,
die sofort zur Genexpressionsanalyse auf cDNA-Microarrays zugänglich sind,
als auch die entsprechenden Expressionsprodukte wie (His) 6-Fusion-Proteine,
die für
Affinitäts-Aufreinigung
zur Verfügung
stehen. Die gereinigten Proteine werden proteolysiert und analysiert
durch MALDI. Native Protein-Populationen, aus den Zellkulturen oder
Gewebe extrahiert, werden getrennt und charakterisiert durch 2-D
Elektrophorese, gefolgt von in situ Proteolyse und MALDI-MS. Die
gesammelten MPIs werden mit den MPI aus der rekombinanten Protein-Bibliothek
verglichen, und umgekehrt. Dadurch werden tausende von biologisch
aktiven Genprodukten mit ihren Genen verbunden. Diese Verbindung
ist unabhängig
von jeglicher Sequenz-Information.
-
3:
MALDI-TOF-MS tryptische Peptidmaps von nativer und rekombinanter
Human-GAPDH. Native GAPDH wurde aus menschlichem Stammhirnprotein
Extrakt isoliert mittels großformatiger
2-D Elektrophorese und in situ digeriert. Das Spektrum (obere Hälfte) wurde
aus 5 μl
Aliquots von gereinigtem Übernacht-Verdauungsüberständen erhalten.
Rekombinantes menschliches GAPDH ausgestattet mit einem RGSHis6-tag
am N-terminus wurde in E. coli exprimiert. Markierte Proteine wurden
aus dem rohen Zellextrakt einer Metall-Chelat-Affinitäts-Aufreinigung unterzogen,
indem NTA-Liganden verwendet wurden, immobilisiert auf Agarose (Qiagen,
Germany) unter denaturierten Bedingungen. Die gereinigten Proteine
wurden in situ digeriert.
-
Das
Spektrum (untere Hälfte)
wurde aus 0,5 μl
einer Gesamtheit von 150 μl
Verdauungsüberstand
erhalten. Markierte Signale :* Tryptische Spaltpeptide detektiert
im Verdauungsüberstand
von nativer GAPDH gemäß der NCBI
Datenbank (Zugangsnummer: 12,0649, Ausgabe 05.05.1999). Alle diese
Peptide wurden ebenfalls detektiert im Verdauungsüberstand
von rekombinanter GAPDH. #; Zusätzliche
tryptische Spaltpeptide detektiert im Verdauungsüberstand von rekombinanter
GAPDH. Detektierte Peptide in beiden Verdauungsüberständen, die nicht GAPDH und nicht
irgendwelchen Trypsin Autolyseprodukte zugeordnet werden konnten.
-
4:
Das neue Konzept 'Die
Brücke'. Homologe Proteine
aus 2D-Gelen werden mit ihren Genen korreliert und RNA Expressions-Niveaus
durch die Verwendung von Minimal-Protein-Identifizierer (MPI) durch Massenspektrometrie
bestimmt.
-
Ein
UNIgene-UNIprotein-Satz (auch bekannt als UNIclone-Satz), hergestellt
durch die cDNA Expressionsbibliothek, liefert sowohl Gene als auch
Proteine, und Sequenz-Information für jeden Clone des Satzes kann
ebenfalls erhalten werden. Der UNIgene-Satz kann durch PCR von allen
Clonen ermittelt werden, und sie können zur Genexpressionsanalyse
auf cDNA Microarrays verwendet werden [Eickhoff, 2000]. Die entsprechenden
Proteine können
verwendet werden, um eine UNIprotein-Anordnung herzustellen, oder,
nach der Proteolyse, mit Hilfe der Analyse durch MALDI-MS, um bestimmte
MPIs für
jedes Protein zu erstellen und sie in einer Datenbank zu speichern.
Durch Vergleich dieser MPIs mit MPI, die durch homologe Proteine
erzielt wurden, deren Daten aus Gewebe extrahiert wurden und mit
2D Gelen getrennt wurden, ist eine Charakterisierung und Identifikation
von durch 2D-Gelen
getrennten Proteinen möglich.
-
5:
2D-Gel enthält
elektrophoryetisch aufgetrennte Proteine aus menschlichem Stammhirngewebe.
Die Proteine wurden zunächst
getrennt durch ihren isoelektrischen Punkt(pI), gefolgt von Trennung
in der zweiten Dimension je nach Molekulargewicht. Die Pfeile in
der vergrößerten Sektion
deuten auf identifizierte Punkte von Tubulin α-1 Kette und seiner Isoformen
an.
-
6:
Vergleich der Spektren von homologen und rekombinanten Pyruvatkinase.
A : Spektrum der homologen Pyruvatkinase, infolge Extraktion aus
2D Gelen und tryptischer Spaltung. B : Spektrum der rekombinant
exprimierten Pyruvatkinase, ebenfalls infolge Reinigung und tryptischer
Spaltung. Die identischen Peaks von sowohl des homologen und des
rekombinanten Proteins sind durch ihre Größe dargestellt.
-
7:
Vergleich der Spektren von rekombinanten humanen GAPDH, exprimiert
in zwei verschiedenen Expressionswirten. A : Spektrum von GAPDH
exprimiert in P. pastoris. B : Spektrum von GAPDH exprimiert in
E. coli.
-
8:
Die Verteilung der m/z Werte der homologen Proteine und der analysierten
rekombinant exprimierten Proteine.
-
9:
Flußdiagramm
zur Veranschaulichung der Prozesse zum Identifizieren der Proteine
mittels der Technologie der vorliegenden Erfindung.
-
10:
Eine hochdichte Proteinanordnung mit mehr als 2.500 im Wesentlichen
nicht redundanter Proteine angeordnet auf einem festen Träger. Durch
Screening eines Proteinchips umfassend ungefähr 2500 verschiedene Proteine
aus dem UNIprotein set gespottet auf eine PVDF Membran mit anti-Tubulin
(human) Antikörper, α-Tubulin
Clone wurden identifiziert. Die exprimierten Proteine aus diesen
Clonen können
ebenfalls für die
Generierung von MPIs verwendet werden.
-
Die
Beispiele beschreiben die Erfindung.
-
Beispiel: Identifikation von Proteinen
unter Gebrauch von 2D Gelelektrophorese und MPI aus einer Auswahl von
rekombinant hergestellten Proteinen (siehe 3, 6 und
Tabellen 1 und 2)
-
Material und Methoden:
-
Stämme, Transformation
und Medium, Escherichia coli Stämme
XL-1 Blue, BL21 (D3) pLysS(Invitrogen) und SCS1 (Stratagene) wurden
zum Klonen und Expression verwendet, wie beschrieben in [Bussow
et al., 1998, Lueking et al., 2000].
-
Pichia
pastoris: Stamm GS115 (his4, Mut+; Invitrogen) wurde für die eukaryotische
Proteinexpression verwendet, wie beschrieben in [Lueking et al.,
2000].
-
Protein
Expression und Reinigung. Die bakterielle Proteinexpression wurde
im Stamm SCS1 durchgeführt,
wie beschrieben in [Bussow et al., 1998], und die Expression im
Stamm BL21 (D3) pLysS, wie beschrieben in [Lueking et al., 2000].
Die Proteine wurden gereinigt, wie kürzlich beschrieben in [Bussow
et al., 2000].
-
Massenspektrometrie
-
Tryptische Spaltung von 2-D Gel getrennten
Proteinen aus humanen Hirn
-
Coomassie
G250-gefärbte
großformatige
2D Gele von menschlichem Hirn des Gesamtprotein-Extraktes wurden
präpariert,
gemäß dem Protokoll
von Klose (1975), Humangenetik 26, 231-243, wobei zylindrische Gelproben
von 1 mm Durchmesser ausgeschnitten wurden und dann durch Inkubation
mit 400 μl
25% Isopropanol in 30 min entfärbt
wurden. Die entfärbten
Gelproben wurden in einer Vakuum-Zentrifuge 10 min getrocknet, gefolgt
von der Zugabe von 5 μl
Digierierungspuffer (5 mM DTT, 5 mM n-octylglucopyranoside (n-OGP), 20
mM Tris, pH 7,8) darin enthalten 12 ng/μL modifiziertes Schweinetrypsin
(Sequenzierungsgrad, Promega). Nach Übernacht-Inkubation bei 37°C wurden
5 μL 0,4%
TFA, 5 mM n-OGP hinzugefügt
und inkubiert für
1 h, bei Zimmertemperatur. Proben wurden bei -20°C gelagert, bevor die MALDI-MS
Probenvorbereitung stattfand.
-
Tryptische Spaltung von heterolog exprimierten
Proteinen
-
Die
Proteine wurden elektrophoretisch getrennt durch SDS-PAGE (12,5%
Polyacrylamid, Bisacrylamide 30 : 0,8). Die Gele wurden mit Commassie
Blau markiert und entfärbt
und Proteinpunkte wurden identifiziert. Die Punkte wurden aus den
2D Gelen herausgeschnitten und extrahiert und tryptisch digeriert
wie oben beschrieben, eine wohlbekannte Methode.
-
MALDI Probenpräparation
-
Entsalzte
und angereicherte Proben wurde mittels „micro-scale reversedphase
purification tipps" (ZipTip-C18,
Millipore) erzielt, gemäß dem Protokoll
des Herstellers.
-
CHCA "surface
affinity preparation"
-
Proben
wurden präpariert
in vorgegebenen MALDI Probenbehältern
(Schuerenberg et al., 2000), mittels alpha-cyano-4-hydroxyzimtsäure (CHCA)
als Matrix gemäß einem
kürzlich
beschriebenen Protokoll (Gobom et al., 2001).
-
MALDI-TOF-MS
-
Massenspektren
von positiv geladenen Ionen wurden aufgenommen auf einem Bruker
Scout 384 Reflextit Instrument (Bruker Daltonik, Bremen, Germany)
operierend im Reflektormodus.
-
100
einzeln aufgenommenen Spektren wurden von jeder Probe gesammelt.
Die Gesamtbeschleunigungsspannung betrug 25 kV. Die XMASS 5.0 und
MSBiotools Software Pakete der Hersteller wurden zur Datenverarbeitung
verwendet. Für
die Kalibrierung der tryptisch gespaltenen Proteinproben, bekannten
autoproteolytischen Produkte von Trypsin wurde die interne Kalibrierung
verwendet.
-
Datenbank
-
Zur
Proteinidentifizierung humaner Proteinsequenzen wurden in der SwissProt
Datenbank (www.expasy.ch/) und PROWL (Rockefeller University) Datenbanken
(www.prowl.rockefeller.edu/) gesucht mittels der Mascot Software
(Matrix Science Ltd., U. K.). Der Wahrscheinlichkeitswert kalkuliert
durch die Software wurde als Kriterium zur korrekten Identifizierung
verwendet. Ein weiteres Kriterium wurde angewandt, nämlich, dass ein
Minimum von drei Peptiden benötigt
wurde, um der höchsten
eingetragenen Sequenz zu entsprechen, im Vergleich zum nächsten nicht-verwandten
Kandidaten. Eine Massenabweichung von 30 ppm wurde toleriert in der
Suche, und für
Proteine isoliert aus 2-DE, wurde die Oxidation von Methioninresten
als mögliche
Modifikation berücksichtigt.
-
Generierung von MPI
-
Für die Generierung
von MPIs, wurden alle möglichen
Suchergebnisse von m/z-Werten in den Datenbanken umgewandelt mit
Hilfe der Software "m/z-freeware
edition" (Proteometrics,
LLC) (www.canada.proteometrics.com/). Die theoretische enzymatische
Spaltung der Datenbank-Proteine wurde mit Hilfe der GPMAW software
version 3.15 (Lighthouse data) (www.welcome.to/gpmaw) vorgenommen.
-
Ergebnisse
-
Vergleich
der MALDI-TOF-MS von rekombinanten Proteinen und ihre entsprechenden
nativen Proteine von 2D Gelen.
-
Für den Vergleich
durch Massenspektrometrie wurden 5 Proteine (Aconitat hydrogenase,
Pyruvat kinase, GTP binding protein, Tubulin α-1 chain und Tubulin β-3 chain) welche vorher
auf 2-DE Gelen identifiziert und analysiert wurden (3, 6)
durch MS aus dem (oligofingerprinted) UNIgene/UNIprotein-Satz [Cahill et
al., 2000] ausgewählt
und in E. coli exprimiert. Die rekombinanten Proteine wurden exprimiert,
gereinigt und durch MS analysiert.
-
Die
Spektren der rekombinant exprimierten Proteine und der homologen
Proteine aus 2-DE Gelen (wie gezeigt in 3 (human
GAPDH) und 6 (Human-Pyruvat-Kinase)) wurden verglichen.
-
Um
den Nutzen dieses Ansatzes zu überprüfen, wurden Übereinstimmung
und MPI-Wert berechnet, beides
in Prozent. Der Prozentsatz und die Übereinstimmung wurden bestimmt
durch den Vergleich der tatsächlich
identifizierten Peaks mit der Anzahl aller theoretisch möglichen
Peaks, nach in silico Digerierung. Der MPI-Wert ist die Zahl der
identischen Peaks, von den homologen und heterologen Proteinen,
basierend auf der absoluten Zahl der Peaks, die durch das heterologe
Protein erzielt wurden, ausgedrückt
als ein Prozentsatz.
-
In
den 6A (native, homologe 2-D Gel)
und 6B (rekombinant exprimiert, heterologe)
sind die Peaks durch ihre Größe gekennzeichnet,
welche in den Spektren durch die rekombinanten Proteine repräsentiert werden
(z.B.. Pyruvatkinase) und von den nativen Proteinen aus dem 2-D.
Beide Spektren wurden aus der PROWL Datenbank erstellt. Die Datenbanktreffer
und die in beiden enthaltenen Peaks, die rekombinanten und 2-D Gel-Proteine
sind in Tabelle 1 enthalten. 11 Peaks wurden aus dem rekombinanten
Pyruvatkinase-Protein erzielt, was mit den Peaks aus der homologen
Form der Pyruvatkinase (MPI) übereinstimmte.
10 Peaks stammten aus dem rekombinanten Protein, alle 10 wurden
in den 54 theoretisch möglichen
Peaks aus der PROWL Datenbank für
Pyruvatkinase gefunden (Tabelle 1). Daher war die Übereinstimmung
18.5%. Für
das homologe Pyruvatkinase-Protein wurden 12 von 54 möglichen
Ergebnissen gefunden, resultierend in einer Übereinntimmung von 22.5% wie
gezeigt in Tabelle 2. Der MPI Wert von Pyruvatkinase war 42.0%.
Die Durchschnittsübereinstimmung
von rekombinanten Proteinen lag bei 26.6%, und die Durchschnittsübereinstimmung von
homologen Proteinen lag bei 31.9% (Tabelle 2). Der Durchschnitts-MPI-Wert
von allen 5 Proteinen lag bei 30.62%.
-
Basierend
auf diesen Ergebnissen kann ein MPI-Wert von ungefähr 30% als
ausreichend für
die Identifikation von Proteinen von 2D Gelen oder anderen Quellen
angenommen werden. Tabelle
1: Monoisotopische Molekularmassen von Peptidionen gefunden in den
Peptid-maps der rekombinanten und nativen Pyruvatkinase (dargestellt
in Tabelle 6) die die berechneten Massen für das Protein entsprechen.
Tabelle
2: Zahl der entsprechenden Peptidmassen von rekombinanten und nativen
Proteinen im Verhältnis zum
theoretischen Digerieren (complete digest). Zusätzlich werden die Zahl der
entsprechenden Gewichte der nativen und rekombinanten Proteinen
dargestellt.
-
Der Effekt der Oxidation von homologen
Proteinen von 2DE Gelen und die Folge für die MPI.
-
Aufgrund
der langen Markierungsdauer von 2D Gelen mit Coomassie G250 können homologe
Proteine oxidiert werden, insbesonders Methionin. Allgemein sind
reckmbinant exprimierte Proteine konzentrierter und benötigen kürzere Markierungszeiten.
Diese Proteine sind weniger oxidiert. Als Folge sollte ein Peptid,
das eine oxidierte Aminosäure
enthält,
ein höheres
Gewicht aufweisen. Zum Beispiel, wenn Methionin oxidiert, erhält man einen
Zuwachs von 16.00 m/z Einheiten im monoisotopischen Zustand. Dies
entspricht der Hinzufügung
eines Sauerstoff-Moleküls.
Zum Beispiel enthält
jedes der Peptide 6, 19 und 35 von tryptisch digerierter Tubulin β-3 Kette
ein Methionin. Vergleicht man das Spektrum des homologen Protein
mit dem des rekombinant exprimierten Tubulin β-3 Kette, weisen die Peaks 6,
19, 35 des homologen Protein eine präzise Zunahme von 16 Da auf
(siehe Tabelle 3). Diese Differenz von 16 Da könnte das Ergebnis von Problemen
bei der Identifikation unbekannter Proteine von 2D Gelen sein, wenn
man sie mit einer Datenbank vergleicht, die auf Spektren heterolog
exprimierter Proteine beruht.
-
Modifiziert
man die MPI-Datenbank durch die Hinzufügung solcher Werte von oxidierten
Peptiden, wird die Zahl der identischen Peaks verbessert, und dies
verbessert zudem die Wahrscheinlichkeit korrekter Bestimmung. Für Tubulin β-3 Kette
wird solch eine Datenbankmodifikation in der Lage sein, die Zahl
der Peaks, die zur Bestimmung des MPI-Werts erforderlich sind, von
2 auf 5 zu erhöhen;
im Ergebnis eine deutliche Verbesserung der Verläßlichkeit der MPI-Werte. Tabelle
3: Tryptisches Peptid aus nativen Tubulin β-3 Kette, detektiert mit m/z
Werten korrespondierend zur Oxidation eines Methioninrestes (+16
Da)
-
Die Verteilung der m/z Werte.
-
Die
Verteilung der m/z Werte ist wichtig für die Bestimmung der MPIs.
Im Allgemeinen wird der Wert der MPIs (%) berechnet nach der Anzahl
von Peaks in einem Spektrum innerhalb des Bereiches 800 Da bis 2.000
Da. Dieser Bereich wurde ausgewählt,
weil der minimale und maximale Detektionsbereich im Mittel 600-2.750 Da ist (siehe 8:
oberes Panel), hinsichtlich den homologen und 600-4500 Da für die heterologen Proteine
(siehe 8: unteres Panel). Beim systematischen Vergleich
beider Spektren, fallen bestimmte Peptide heraus. Daher wurde der
erwähnte
Schwellenwert zur Berechnung des MPI-Werts ausgewählt, da
dies eine geringere Datenmenge zur Folge hat und ein schnelleres
Suchverfahren ermöglicht
(siehe 1 und den Überblick, 9).
-
Einfluss der Expression der verschiedenen
Wirte auf die MPIs
-
Die
Erzeugung einer Datenbank von MPIs kann heterolog exprimierte Proteine
von verschiedenen Wirten enthalten. Daher ist es notwendig zu analysieren,
inwieweit die Expression von unterschiedlichen Wirten Folgen für das Peptid-Spektrum
hat. cDNA Expressionsbibliotheken werden hauptsächlich in E. coli generiert
(Bussow, 1998) und, lediglich kürzlich,
in Hefe-Expressionsbibliotheken, wie beschrieben (Lueking, 2000). Hier
wurden E. coli und die Hefe Pichia pastoris als Referenz-Expressions-Wirte
verwendet. Humanes GAPDH wurde in beiden Wirten mit dem Dual Expressionsvektor
exprimiert, (Lueking et al., 2000) geeignet für P. pastoris (siehe Tabelle
7A) und E. coli (siehe Tabelle 7B). 22 identische Peaks wurden aus
einer Gesamtzahl von 50 Peaks aus GAPDH (exprimiert in E. coli)
gefunden, und 56 Peaks bei Expression in P. pastoris. Beim Vergleich
dieser zu den 33 theoretisch möglichen
Peaks, waren 12 und 14 Peaks jeweils identisch. Dies entspricht einer Übereinstimmung
von 36% und 42%. Diese erlaubt die Feststellung, daß MPI-Werte
unabhängig
vom Expressions-Wirt ermittelt werden können. Damit wird die Möglichkeit
eröffnet,
verschiedene Expressionssysteme und Bibliotheken zu nutzen.
-
Diese
Daten liefern den Beweis für
den Nutzen der vorliegenden Erfindung zur Verbesserung der Identifikation
von Proteinen, z.B. von 2D Gelen, mit Hilfe der Verwendung von MPI
von rekombinant exprimierten Proteinen. Die obigen Daten qualifizieren
die vorliegende Erfindung für
eine hohe Versuchszahl, und möglicherweise,
für eine
vollautomatisierte Methode zur Proteinidentifizierung mittels Massenspektrometrie.
-
Mit
den bisherigen Verfahren war es lediglich möglich, durch MALDI-MS ungefähr 50% Übereinstimmung
bei der Proteinindentifikation zu erzielen. Es gibt eine Reihe von
Gründen
dafür,
insbesondere weil durch die Redundanz des genetischen Codes inkorrekte
Aminosäuresequenzen
ermittelt werden. Andere Gründe können darin
liegen, daß das
Protein in den durchsuchten Datenbanken fehlt, oder daß Sequenzfehler
auftauchen oder kontaminierte Sequenzen in den Datenbanken existieren.
-
Deshalb
wird ein Verfahren beschrieben, mit dem eine Verbesserung durch
die Erstellung von Massenspektrometrie-Fingerprints von Proteinen
wie rekombinanten Proteinen erreicht wird. Es wurde ebenfalls demonstriert,
daß eine
hohe Versuchszahl und eine hohe Verläßlichkeit bei der Identifikation
von Proteinen durch Massenspektrometrie möglich ist. Das Verfahren der
Erfindung ermöglicht
eine hohe Versuchszahl oder automatische Produktion von MPI-Werten,
einschließlich
der Standardisierung der Verfahren zur Probenvorbereitung (für eine allgemeine Übersicht
des Verfahrens siehe 1, 2, 4 und 9).
-
Nichtsdestotrotz
sind für
die Erstellung einer solchen MPI Datenbank folgende Punkte zu beachten. Für die Identifikation
eines bekannten oder bisher unbekannten Protein wurde ein MPI-Mindestwert
von 15% als ausreichend bestimmt. Dies entspricht ungefähr 5 Peaks,
die mit den Peaks des homologen Proteins übereinstimmen. Basierend auf
den Ergebnissen, die in Tabelle 8 dargestellt werden, wurde festgestellt,
daß diese ausgewählten Peptide
im Größenbereich
von 800 Da bis zu einem Maximum von 4.500, vorzugsweise 2.750, wiederum
vorzugsweise 2.000 Da liegen sollten. Falls die Peaks kleiner als
800 Da sind, ergeben sich die Peaks zumeist aufgrund einzelner Aminosäuren und
kleinerer Peptide und werden nicht zur Generierung des MPI verwendet.
Zusätzlich,
wie aus 8 ersichtlich, tendieren erhaltene
Peptide aus rekombinanten Proteinen in den höheren m/z Bereich, verglichen
mit den gleichen Proteinen aus 2-D Gelen. Es wird vermutet, dass solche
Peaks das Ergebnis aus unvollständiger
Trypsin-Spaltung aufgrund der hohen Proteinkonzentration der rekombinanten
Proteine sind. Daher sollten Peaks in dem m/z Bereich über 2.750
Da, insbesondere vorzugsweise über
2.000 Da, aus der Erstellung von MPI in dieser Datenbank ausgeschlossen
werden.
-
Vorzugsweise
sollten die relativen Intensitätseinheiten
korrekt ausgewählt
werden, indem nur klar definierte Peaks oberhalb des Hintergrundes
ausgesucht werden. Es wird ebenfalls bevorzugt, einen internen Maßstab anzulegen,
etwa die Autoverdauungs-Peaks von Trypsin, um ihn für die automatische
Kalibrierung der Software zu verwenden, und um festzustellen, ob
das Spektrum zur Messung geeignet ist.
-
Die
MPI Datenbank wird ebenfalls Informationen zu den erwarteten Peptidmassenveränderungen
enthalten, die aus den Proteinmodifikationen etwa durch Oxidation
oder durch unvollständige
Trypsin-Digerierung entstehen. Ebenso berücksichtigt werden bekannte
Wechselfaktoren wie die unvollständige
Oxidation von in Peptiden vorhandenem Methionin. Die Aufnahme derartiger
Informationen in die MPI-Datenbank erleichtert die verbesserte Peptididentifikation.
-
Wie
aus der Tabelle 1 ersichtlich ist, wurden Peptide ermittelt, die
nicht in den theoretischen Peak-Listen enthalten waren. Dennoch
hat dies nicht die Erstellung von nützlichen MPI-Werten verhindert.
-
Diese
zusätzlichen
Peaks können
durch die Präsenz
von vorzeitig terminierten Proteinen erklärt werden, die durch Unterschiede
bei der codon usage hervorgerufen worden sein könnte, als das Protein durch verschiedene
Expressionssysteme exprimiert wurde. Andere Möglichkeiten schließen die
Degradierung der Proteine während
der Lagerung oder ihre proteolytische Spaltung durch kontaminierte
Wirtsproteasen ein.
-
Ebenfalls,
wie gezeigt, waren nicht alle verwendeten rekombinanten Proteine
in voller Länge
vorhanden, dennoch wurden verwendbare MPI ermittelt. Dies impliziert,
dass MPI aus Genprodukten hergestellt werden kann, die nicht in
voller Länge
vorhanden sind, wie öfters
in cDNA Expressionsbibliotheken. Die Bestimmungskriterien sollten
also keine Auswirkung auf die Erstellung der MPI-Werte aus den meisten rekombinanten
Systemen haben, weil Gene, die entweder random-primed oder oroligo-dT-primedcDNA
libraries Proteine enthalten sollten, die bei Spaltung Peaks in
diesem Bereich liefern sollten.
-
Schlußfolgerung:
Die Herstellung der MPI-Datenbank kann eine breite Anwendung finden
in der verbesserten Proteinidentifizierung aus vielen Quellen, beispielsweise
aus 2D Gelen, rekombinanten Proteinen, interagierenden Proteinen
und sämtlichen
Proteinkomplexen.
-
Zitierte Literatur:
-
- Anderson L, Seilhamer J. (1997), Electrophoresis
18 : 533-537.
- Ausubel et al., (1989), Current Protocols in Molecular Biology,
Green Publishing Associates und Wiley Interscience, N. Y.
- Bussow, K.; Cahill, D. J.; Nietfeld, W.; Bancroft, D.; Scherzinger,
E.; Lehrach, H.; Walter; G. (1998) Nucl. Acids. Res., 26, 5007-5008.
- Cahill et al. (2000), "Proteomes
: From Protein Sequence to Function" in "Bridging
Genomics to Proteomics", 1-17,
Bios Publishing Com.
- Cahill (2000), Proteomics : A Trends Guide, 47-51.
- Eickhoff et al. (2000), Genome Research 10 : 1230-1240.
- Gobom et al. (2001), Anal. Chem. 73 : 434-438.
- Harlow und Lane (1988), "Antibodies,
A Laboratory Manual",
CSH Press, Cold Spring Harbor, USA,.
- Herwig, R., Poustka, A., Mutter, C., Bull, C., Lehrach, H. und
O'Brien, J (1999),
Large-scale clustering of cDNA-Fingerprinting data. Genome Research
1093-1105.
- Lueking, A.; Holz, C.; Gotthold, C.; Lehrach, H.; Cahill, D.
J. (2000), Protein Expr. Purif., 20, 372-378.
- Meier-Ewert, S., Lange, J., Gerst, H., Herwig, R., Schmitt,
A., Freund, J., Elge, T., Mott, R., Hermann, B. und Lehrach, H.
(1998) Nucl. Acids Res. 26 : 2216-2223.
- Poustka, AJ., Herwig, R., Krause, A., Hennig, S., Meier-Ewert,
S. und Lehrach, H. (1999), Genomics 59 : 122-133.
- Radelof, U., Hennig, S., Seranski, P., Steinfath, M., Ramser,
J., Reinhardt, R., Poustka, A., Francis, F. und Lehrach, H. (1998),
Nucl. Acids Res. 26 : 5358-5364.
- Sambrook et al. (1989), Molecular Cloning A Laboratory Manual,
Cold Spring Harbor Laboratory N. Y.
- Schuerenberg, S., C. Luebbert, H. Eickhoff, M. Kalkum, H. Lehrach,
und E. Nordhoff (2000), Prestructured MALDI-MS Sample Supports,
Anal. Chem. A 72 3436-3442.