UniProt
L'article o secció necessita millores de format. |
URL | https://www.uniprot.org/ |
---|---|
Tipus | Base de dades de seqüències de proteïnes |
Tema | biologia, ésser humà, ratolí comú, growth hormone releasing hormone (en) , Polipèptid vasoactiu intestinal, calcitonina, ghrelina, tuberin (en) , neurotensina i Urotensin 2 (en) |
Llengua | anglès |
Llicència | Domini públic |
Part de | web semàntic, diagrama de dades obertes enllaçades, SIB Swiss Institute of Bioinformatics (en) i ELIXIR EMBL-EBI Node (en) |
Creador | Consorci UniProt: EIB, SIB i PIR |
Mantenidor | Alex Bateman, Sandra Orchard (en) i Alan J Bridge (en) |
Llançament | 2002 |
Estat | Regne Unit, Suïssa i Estats Units d'Amèrica |
Estat | Actiu |
UniProt (Universal Protein Resource) és una base de dades de seqüències de proteïnes i la seva corresponent informació funcional. És de lliure accés i conté moltes entrades derivades de projectes de seqüenciació de genomes. Conté al voltant de 60 milions de seqüències de proteïnes, derivada de la literatura científica, sobre la funció biològica de les proteïnes, la qual s’actualitza a mesura que es genera més coneixement.[1][2]
Uniprot neix del consorci UniProt que està format per EBI (European Bioinformatic Institute), SIB (Swiss Institute of Bioinformatics), organitzacions bioinformàtiques europees i PIR (Protein Information Resource) organització americana de dades de proteïnes. UniProt ofereix accés a quatre bases de dades de proteïnes: The UniProt Knowledgebase (UniProtKB), The UniProt Reference Clusters (UniRef), The UniProt Metagenomics and Environmental Sequences database (UniMES) i The UniProt Archive (UniParc).[1][2]
Consorci UniProt
[modifica]El consorci UniProt comprèn l'Institut Europeu de Bioinformàtica (EBI), l'Institut Suís de Bioinformàtica (SIB) i el Recurs d'Informació de Proteïnes (PIR).
- L'EBI està ubicat al Wellcome Trust Genome Campus a Hinxton, Regne Unit i comprèn un gran recurs de bases de dades i serveis de bioinformàtica.
- El SIB està ubicat a Ginebra, Suïssa i manté els servidors ExPASy (Expert Protein Analysis System) que són un recurs central per a eines i bases de dades de proteòmica.
- El PIR està organitzat per la Fundació Nacional de Recerca Biomèdica (NBRF) al centre mèdic universitari de Georgetown a Washington, DC, Estats Units. És l’hereu de la base de dades de seqüències de proteïnes més antiga: l’Atlas de seqüència i estructura de proteïnes, de Margaret Dayhoff, publicada per primer cop el 1965.[3]
L’any 2002, EBI, SIB i PIR es van unir formant el consorci UniProt.[4]
Les arrels de les bases de dades UniProt
[modifica]Cadascun dels membres del consorci està molt implicat en el manteniment i l’anotació de bases de dades de proteïnes. Fins fa poc, EBI i SIB produïen de manera conjunta les bases de dades Swiss-Prot i TrEMBL, mentre que PIR produïa la base de dades de seqüències de proteïnes (PIR-PSD). Aquestes bases de dades coexistien amb diferents prioritats de cobertura i anotació de seqüències de proteïnes.[5][6][7]
Swiss-Prot va ser creat inicialment l’any 1986 per Amos Bairoch durant el seu doctorat i desenvolupat per l'Institut Suís de Bioinformàtica, posteriorment va ser desenvolupat per Rolf Apweiler a l'Institut Europeu de Bioinformàtica.[8][9] L’objectiu que pretenia complir Swiss-Prot era el de proporcionar seqüències proteiques fiables associades a un alt nivell d’anotació, com per exemple la descripció de la funció d’una proteïna, la seva estructura de domini, modificacions post-traduccionals, variants, etc., un nivell mínim de redundància i un nivell d’integració amb altres bases de dades. Les dades de seqüències s’estaven creant a un ritme superior a la capacitat de Swiss-Prot, per mantenir-se al dia, aleshores es va crear TrEMBL (Translated EMBL Nucleotide Sequence Data Library), per tal de proporcionar anotacions automàtiques a les proteïnes que no apareixien a Swiss-Prot. Al mateix temps, PIR mantenia el PIR-PSD i bases de dades relacionades, inclosa iProClass, una base de dades de seqüències de proteïnes i famílies seleccionades.
Els membres del consorci van agrupar els seus recursos i coneixements superposats i van llançar UniProt el desembre de 2003.[10]
Organització de bases de dades UniProt
[modifica]Sota el domini UniProt trobem tres bases de dades bàsiques: UniProtKB (amb els sub-parts Swiss-Prot i TrEMBL), UniParc i UniRef.
UniProtKB/Swiss-Prot | UniProtKB/TrEMBL | UniParc | UniRef | |
---|---|---|---|---|
Revisió | Manual | Automàtica | Automàtica | Automàtica |
Informació [11] | 550.000 seqüències | 60 milions de seqüències | Seqüènices que UniProtKB no considera prou importants: descatalogades, pseudogens, etc (desenvolupat a continuació). | Seqüències agrupades en clústers, amaga la redundància |
UniProtKB
[modifica]UniProt Knowledgebase (UniProtKB) és una base de dades de proteïnes revisada per experts, que consta de dues seccions. La primera és Swiss-Prot i conté entrades revisades i anotades manualment per revisors. En segon lloc, hi ha TrEMBL, que conté entrades no revisades per revisors però automàticament anotades. Així doncs, la diferència principal entre els dos webs és si el mètode de revisió de les seqüències és manual o automàtic.[12]
Origen de les dades d'UniprotKB
[modifica]Les seqüències de proteïnes d'UniprotKB provenen de la transcripció de les seqüències de nucleòtids codificants que proporciona EMBL-Bank/GeneBank/DDBJ. Al seu torn, aquestes seqüències són obtingudes a través de treball experimental o per programes de predicció de gens. A totes les seqüències traduïdes se’ls hi assigna un identificador que és el mateix en el web original d'EMBL-Bank/GeneBank/DDBJ i a UniProtKB.[13]
La necessitat de crear TrEMBL prové de la rapidesa en què es generen noves seqüències que impossibilita la revisió exhaustiva de cadascuna d’elles. Com a solució, es va crear TrEMBL que emmagatzema seqüències revisades per mètodes computacionals d’alta qualitat. Aquests mètodes fins i tot permeten dur a terme classificacions i anotacions automàtiques. Presenten l’avantatge que poden fer-se públiques les noves seqüències amb més rapidesa i el desavantatge que no estan revisades manualment i per tant la qualitat de les dades és inferior. Convé mantenir una separació entre els dos tipus de dades perquè no es dilueixin les dades d’alta qualitat.[13]
UniProtKB/Swiss-Prot
[modifica]UniProtKB/Swiss-Prot és una base de dades de seqüències de proteïnes no redundants anotades manualment. Combina informació extreta de literatura científica i anàlisi computacional revisada per revisors. L'objectiu d'UniProtKB/Swiss-Prot és proporcionar tota la informació rellevant coneguda sobre una proteïna en particular. L'anotació es revisa regularment per mantenir-se al dia amb els descobriments científics actuals. L'anotació manual d'una entrada implica una anàlisi detallada de la seqüència de proteïnes i de la literatura científica.[14]
Les seqüències del mateix gen i de la mateixa espècie es combinen en la mateixa entrada de base de dades. S’identifiquen les diferències entre seqüències i es documenta la seva causa que poden ser per exemple: empalmament alternatiu, variació natural, llocs d’iniciació incorrectes, límits d'exons incorrectes, desplaçaments de marcs de lectura, conflictes no identificats. Les prediccions computacionals s’avaluen manualment i es seleccionen els resultats rellevants per incloure'ls a l'entrada. Aquestes prediccions inclouen modificacions post-traduccionals, dominis transmembrana i topologia, pèptids senyal, identificació de dominis i classificació de famílies de proteïnes.[14]
Les publicacions rellevants s’identifiquen cercant en bases de dades com PubMed. Es llegeix el text complet de cada article i s’extreu informació i s’afegeix a l'entrada. L'anotació sorgida de la literatura científica inclou, entre d'altres:
Trets que s'inclouen en l'anotació |
---|
Noms de proteïnes i gens |
Funció |
Informació específica d'enzims: activitat catalítica, cofactors, i residus catalítics |
Localització subcel·lular |
Interacció entre proteïnes |
Patrons d’expressió |
Localització i rols de dominis i llocs importants |
Ions, substrats i llocs d’unió de cofactor |
Formes variants de les proteïnes produïdes per variació genètica natural, modificació de RNA, splicing alternatiu, processos proteolítics i modificacions post-transcripcionals |
Cada seqüència és revisada abans de ser inclosa en UniProtKB/Swiss-Prot i s’actualitza cada entrada quan hi ha informació nova.[14]
UniProtKB/TrEMBL
[modifica]UniProtKB/TrEMBL conté les seqüències transcrites a partir de seqüències d EMBL-Bank/GeneBank/DDBJ que són processades automàticament i dirigides a UniProtKB/TrEMBL. A més també inclou seqüències de PDB i de predicció de gens com Ensembl, RefSeq i CCDS.[13]
Anotació automàtica
[modifica]El sistema computacional que permet l’anotació automàtica de seqüències no revisades manualment, permet augmentar la qualitat de les mateixes. El programa que utilitzen per a la classificació i anotació de dominis automàtica és InterPro, que permet fer una anàlisi funcional de les seqüències que inclou: classificar-les en famílies, predir dominis i nucleòtids importants. InterPro es basa en models predictius que provenen de diverses bases de dades que conformen el consorci InterPro.[15] Per altra banda, l'anotació automàtica es du a terme per dos sistemes: UniRule i ARBA (Association-Rule-Based Annotator). UniRule permet anotar:[16]
UniRule |
---|
Nom de la proteïna |
Funció |
Activitat catalítica |
Localització subcel·lular |
Posicions on es duen a terme modificacions post-transcripcionals |
Llocs catalítics |
ARBA utilitza aprenentatge automàtic per crear les anotacions més precises basant-se en llargada de la seqüènecia, InterPro group membership i taxonomia. Això permet anotar propietats de la proteïna excloent el nom de la proteïna i caràcters que requereixen de predicció.[17]
Seqüències excloses d'UniprotKB
[modifica]UnProtKB conté la majoria de seqüències proteiques obertes al públic però exclou les següents seqüències:[18]
Seqüències excloses |
---|
Immunoglobulines i receptors de cèlules T |
Seqüències sintètiques |
Seqüències que s’apliquen en patents |
Seqüències inferiors a 8 aminoàcids |
Pseudogens |
Seqüències de proteomes redundants |
Seqüències que RefSeq i NCBI genomes considera de baixa qualitat |
Proteïnes de fusió o truncades |
Proteïnes no reals |
Algunes d’aquestes seqüències a vegades poden no ser reconegudes pels programes automàtics d’anotació i ser accidentalment incolses a UniProtKB. Per aquest motiu cal que, per exemple, el tipus 8 i 9 siguin excloses manualment per revisors. Totes les excloses acaben a la secció UniParc.[18]
UniParc
[modifica]UniProt Archive (UniParc) és una bases de dades integral i no redundant, conté totes les seqüències de proteïnes de les principals bases de dades disponibles públicament. Les proteïnes poden existir en diverses bases de dades de fonts diferents i en diverses còpies a la mateixa base de dades. Per tal d’evitar la redundància, UniParc només emmagatzema una vegada cada seqüència única.[19]
Es combinen seqüències idèntiques independentment de que provinguin de la mateixa espècie o no. A cada seqüència se li proporciona un identificador únic i estable (UPI), que permet identificar la mateixa proteïna a partir de diferents bases de dades d'origen. UniParc només conté seqüències de proteïnes, sense cap anotació. Les referències creuades de bases de dades a les entrades UniParc permeten obtenir més informació sobre la proteïna de les bases de dades d'origen. Quan canvien les seqüències de les bases de dades d'origen, aquests canvis són rastrejats per UniParc i s'arxiva a l'historial de tots els canvis.[20]
Actualment, UniParc conté seqüències de proteïnes de les següents bases de dades disponibles:
Bases de dades d'on s'extreu la informació: |
---|
Bases de dades de nucleòtids: INSDC, EMBL-Bank/DDBJ/GenBank |
Ensembl |
European Patent Office (EPO) |
FlyBase: the primary repository of genetic and molecular data for the insect family Drosophilidae (FlyBase) |
H-Invitational Database (H-Inv) |
International Protein Index (IPI) |
Japan Patent Office (JPO) |
Protein Information Resource (PIR-PSD) |
Protein Data Bank (PDB) |
Protein Research Foundation (PRF) |
RefSeq |
Saccharomyces Genome Database (SGD) |
The Arabidopsis Information Resource (TAIR) |
TROME |
US Patent Office (USPTO) |
UniProtKB/Swiss-Prot, UniProtKB/Swiss-Prot protein isoforms, UniProtKB/TrEMBL |
Vertebrate and Genome Annotation Database (VEGA) |
WormBase |
UniRef
[modifica]UniRef fa referència als clústers de referència d'UniProt que consisteixen en tres bases de dades de conjunts agrupats de seqüències de proteïnes d’UniProtKB (incolent les isoformes) i registres seleccionats d’UniParc. Això amaga les seqüències redundants i obté una cobertura de l'espai de la seqüència a tres dimensions.[21]
- UniRef100: combina seqüències idèntiques i fragments de seqüència amb 11 o més residus de qualsevol organisme en una sola entrada d'UniRef. Es mostren: la seqüència d’una proteïna representativa, els números d’accés de totes les entrades combinades i els enllaços als corresponents registres UniProtKB i UniParc.
Les seqüències UniRef100 s’agrupen mitjançant l'algorisme CD-HIT per construir UniRef90 i UniRef50.
- UniRef90: és construida a partir de l’agrupació de seqüències UniRef100 utilitzant l'algorisme MMseqs2 de manera que cada clúster està compost per seqüències que tenen un 90% d’identitat de seqüència i un 80% de superposició amb la seqüència més llarga del clúster.[22][23]
- Uniref50: és construida a partir de l’agrupació de seqüències de UniRef90 amb un mínim d’identitat del 50% i un 80% de superposició amb la seqüència més llarga del clúster.[23]
Abans del 2013, no hi ha havia cap llindar de superposició, pel que els clústers tenien una longitud més heterogènia. UniRef90 i UniRef 50 van produir una reducció de mida de les bases de dades d'aproximadament un 58% i un 79% respectivament. L’agrupació de seqüències redueix significativament la mida de la base de dades i permet fer cerques de seqüències més ràpides.[23]
Cada clúster es compon de seqüències que tenen entre un 90% o un 50% d’identitat de seqüència, respectivament, fins a la seqüència més llarga. Però la seqüència més llarga no és sempre la més informativa. Sovint hi ha més informació rellevant biològicament en altres membres del clúster. Les proteïnes d'un clúster es classifiquen amb la següent prioritat per tal de facilitar la selecció d'un representat rellevant biològicament pel clúster:[23]
- Qualitat de l'entrada: es prefereixen les entrades revisades manualment (de la secció d'UniProtKB/Swiss-Prot).
- Puntuació d'anotació: es prefereixen les entrades que tinguin puntuacions d'anotació UniProtKB més altes. Això també significa que les entrades d'UniProtKB sempre tindran prioritat sobre les entrades que es troben a UniParc, però no a UniProtKB (la puntuació d'anotació no està definida a UniParc, que no conté cap anotació).
- Organisme: es prefereixen entrades de proteomes de referència i organismes model.
- Llargada de la seqüència: es prefereix la seqüència més llarga.[23]
Eines
[modifica]Uniprot conté tres eines principals: BLAST (Basic Alignment Search Tools), Align i Retrive/ID Mapping.[24]
BLAST
[modifica]Permet comprovar la similitud entre dues seqüències de proteïnes.[24]
Com executar Blast
[modifica]- Seleccionar la proteïna d'interès a UniProtKB, UniRef o UniParc.
- En els resultats de la proteïna trobarem una taula i s'ha de seleccionar en una casella a mà esquerra.
- Un cop seleccionada es fa clic al botó BLAST que es troba sobre la taula de resultats a l'esquerra. Es pot seleccionar el mode predeterminat o l'avançat.[24]
Align
[modifica]Aquesta eina permet dur a terme alineaments múltiples mitjançant l’algoritme Clustal Omega per trobar àrees de semblança entre seqüències.[24]
Com executar Align
[modifica]Hi ha diverses formes d’utilitzar aquesta eina. Una d’elles és la següent:
- En aquest cas s’ha d’entrar directament a l'enlaç d’Align dins el web d'UniProt.
- En segon lloc hem d’entrar les seqüències d’interès que volem comparar en format FASTA o cercant la proteïna pel seu identificador d'UniProt.
- Clicar Run align.[24]
Retrive/ID Mapping
[modifica]Aquesta eina permet penjar una llista d'identificadors d’UniProt i cercar-los en centenars de bases externes. Gràcies a aquesta eina podem obtenir informació com l'estructura 3D, interaccions entre proteïnes, famílies i grups, química i modificacions post-transcripcionals entre d’altres.[24]
Com executar Retrieve/ID Mapping
[modifica]Una de les maneres d'utilitzar aquesta eina és la següent:
- Entrar directament a l'enllaç de Retrieve/ID Mapping des del web d'UniProt.
- Incloure els identificadors a la casella de: Provide your identifiers.
- Seleccionar la base de dades que volem als camps: From i to.
- Obtenir els resultats.[24]
Finançament
[modifica]UniProt està finançat per subvencions de l'Institut Nacional de Recerca del Genoma Humà, els Instituts Nacionals de Salut (NIH), la Comissió Europea, el Govern Federal Suís a través de l’Oficina Federal d’Educació i Ciència, NCI-caBIG i el Departament de Defensa dels Estats Units.[25][26]
Vegeu també
[modifica]Referències
[modifica]- ↑ 1,0 1,1 The UniProt Consortium «UniProt: the universal protein knowledgebase» (en anglès). Nucleic Acids Research, 45, D1, 04-01-2017, pàg. D158–D169. DOI: 10.1093/nar/gkw1099. ISSN: 0305-1048. PMC: PMC5210571. PMID: 27899622.
- ↑ 2,0 2,1 Pundir, Sangya; Magrane, Michele; Martin, Maria J.; O'Donovan, Claire; The UniProt Consortium «Searching and Navigating UniProt Databases» (en anglès). Current Protocols in Bioinformatics, 50, 1, 6-2015. DOI: 10.1002/0471250953.bi0127s50. ISSN: 1934-3396. PMC: PMC4522465. PMID: 26088053.
- ↑ Dayhoff, Margaret O. Atlas of protein sequence and structure.. Silver Spring, Md: National Biomedicat Resarach Foundation, 1965.
- ↑ «2002 NHGRI Funds Global Protein Database - National Human Genome Research Institute (NHGRI)» (en anglès). [Consulta: 19 desembre 2020].
- ↑ O'Donovan, C. «High-quality protein knowledge resource: SWISS-PROT and TrEMBL». Briefings in Bioinformatics, 3, 3, 01-01-2002, pàg. 275–284. DOI: 10.1093/bib/3.3.275. ISSN: 1467-5463.
- ↑ Wu, Cathy H.; Yeh, Lai-Su L.; Huang, Hongzhan; Arminski, Leslie; Castro-Alvear, Jorge «The Protein Information Resource». Nucleic Acids Research, 31, 1, 01-01-2003, pàg. 345–347. ISSN: 0305-1048. PMID: 12520019.
- ↑ Boeckmann, Brigitte; Bairoch, Amos; Apweiler, Rolf; Blatter, Marie-Claude; Estreicher, Anne «The SWISS-PROT protein knowledgebase and its supplement TrEMBL in 2003». Nucleic Acids Research, 31, 1, 01-01-2003, pàg. 365–370. ISSN: 0305-1048. PMID: 12520024.
- ↑ Bairoch, A; Apweiler, R «The SWISS-PROT protein sequence data bank and its new supplement TREMBL.». Nucleic Acids Research, 24, 1, 01-01-1996, pàg. 21–25. ISSN: 0305-1048. PMID: 8594581.
- ↑ Bairoch, A. «Serendipity in bioinformatics, the tribulations of a Swiss bioinformatician through exciting times!». Bioinformatics, 16, 1, 01-01-2000, pàg. 48–64. DOI: 10.1093/bioinformatics/16.1.48. ISSN: 1367-4803.
- ↑ Apweiler, Rolf; Bairoch, Amos; Wu, Cathy H «Protein sequence databases» (en anglès). Current Opinion in Chemical Biology, 8, 1, 01-02-2004, pàg. 76–80. DOI: 10.1016/j.cbpa.2003.12.004. ISSN: 1367-5931.
- ↑ 11,0 11,1 The UniProt Consortium «UniProt: the universal protein knowledgebase» (en anglès). Nucleic Acids Research, 45, D1, 04-01-2017, pàg. D158–D169. DOI: 10.1093/nar/gkw1099. ISSN: 0305-1048. PMC: PMC5210571. PMID: 27899622.
- ↑ «Why is UniProtKB composed of 2 sections, UniProtKB/Swiss-Prot and UniProtKB/TrEMBL?». [Consulta: 19 desembre 2020].
- ↑ 13,0 13,1 13,2 «Where do the UniProtKB protein sequences come from?».
- ↑ 14,0 14,1 14,2 «How do we manually annotate a UniProtKB entry?». [Consulta: 19 desembre 2020].
- ↑ «InterPro». [Consulta: 19 desembre 2020].
- ↑ «UniRule». [Consulta: 19 desembre 2020].
- ↑ «ARBA». [Consulta: 19 desembre 2020].
- ↑ 18,0 18,1 «Does UniProtKB contain all protein sequences?». [Consulta: 19 desembre 2020].
- ↑ Leinonen, Rasko; Diez, Federico Garcia; Binns, David; Fleischmann, Wolfgang; Lopez, Rodrigo «UniProt archive» (en anglès). Bioinformatics, 20, 17, 22-11-2004, pàg. 3236–3237. DOI: 10.1093/bioinformatics/bth191. ISSN: 1367-4803.
- ↑ «UniParc». [Consulta: 20 desembre].
- ↑ Suzek, B. E.; Huang, H.; McGarvey, P.; Mazumder, R.; Wu, C. H. «UniRef: comprehensive and non-redundant UniProt reference clusters» (en anglès). Bioinformatics, 23, 10, 15-05-2007, pàg. 1282–1288. DOI: 10.1093/bioinformatics/btm098. ISSN: 1367-4803.
- ↑ Steinegger, Martin; Söding, Johannes «Clustering huge protein sequence sets in linear time» (en anglès). Nature Communications, 9, 1, 29-06-2018, pàg. 2542. DOI: 10.1038/s41467-018-04964-5. ISSN: 2041-1723.
- ↑ 23,0 23,1 23,2 23,3 23,4 «UniRef». [Consulta: 20 desembre].
- ↑ 24,0 24,1 24,2 24,3 24,4 24,5 24,6 Pundir, Sangya; Martin, Maria J.; O'Donovan, Claire; The UniProt Consortium «UniProt Tools» (en anglès). Current Protocols in Bioinformatics, 53, 1, 3-2016. DOI: 10.1002/0471250953.bi0129s53. ISSN: 1934-3396. PMC: PMC4941944. PMID: 27010333.
- ↑ «The Universal Protein Resource (UniProt) in 2010». Nucleic Acids Research, 38, suppl_1, 20-10-2009, pàg. D142–D148. DOI: 10.1093/nar/gkp846. ISSN: 0305-1048. PMC: PMC2808944. PMID: 19843607.
- ↑ The UniProt Consortium «UniProt: a worldwide hub of protein knowledge» (en anglès). Nucleic Acids Research, 47, D1, 08-01-2019, pàg. D506–D515. DOI: 10.1093/nar/gky1049. ISSN: 0305-1048. PMC: PMC6323992. PMID: 30395287.