PT1650221E

PT1650221E - Novos compostos

Info

Publication number: PT1650221E
Application number: PT06075141T
Authority: PT
Inventors: Teresa Elisa Virginia Cabezon Silva; Jean-Pol Cassart; Thierry Coche; Swann Roman Jean-Thomas Gaulis; Carlota Vinals Y De Bassols
Original assignee: Glaxosmithkline Biolog Sa
Priority date: 2000-02-23
Filing date: 2001-02-16
Publication date: 2012-09-05
Also published as: NO20024002D0; IL151097A; CZ303468B6; US20060171953A1; EP1650221A2; SI1265915T1; US20030157118A1; CN1254541C; KR20090085697A; PT1265915E; NO332141B1; NO20024002L; EP1265915A2; KR20020079887A; NZ520673A; HUP0300054A1; AU5615601A; HUP0300054A3; PL362698A1; DE60143425D1

Description

DESCRIÇÃO "NOVOS COMPOSTOS" São aqui descritas composições farmacêuticas e métodos para a indução de uma resposta imunitária contra antigénios relacionados com tumores. Mais especificamente, são descritos polinucleótidos, aqui referidos como polinucleótidos CASB7439, polipéptidos codificados desse modo (aqui referidos como polipéptidos CASB7439), materiais e métodos recombinantes para a sua produção. Noutro aspecto, são descritos métodos para a utilização desses polipéptidos e polinucleótidos, incluindo o tratamento de cancro, de um modo mais particular cancro colorrectal, e doenças auto-imunes e outros estados relacionados. Noutro aspecto, são descritas composições farmacêuticas contendo polipéptidos e polinucleótidos CASB7439, métodos de preparação de tais composições e a sua utilização em medicina. Num aspecto adicional, são descritos métodos para identificação de agonistas e antagonistas/inibidores, utilizando os materiais aqui descritos e tratamento de estados associados a desequilíbrio do polipéptido CASB7439 com os compostos identificados. A invenção refere-se a ensaios de diagnóstico para detecção de doenças associadas a actividade ou níveis inapropriados de polipéptido CASB7439.

Considera-se que os polipéptidos e polinucleótidos aqui descritos são imunogénios importantes para imunização profiláctica ou terapêutica específica contra tumores, em virtude de serem especificamente expressos ou altamente superexpressos em tumores, em comparação com células normais e 1 podem, deste modo, ser visados por mecanismos imunitários específicos de antigénio, conduzindo à destruição da célula tumoral. Também podem ser utilizados para diagnosticar a ocorrência de células tumorais. Além disso, a sua expressão inapropriada em determinadas circunstâncias pode causar uma indução de respostas imunitárias auto-imunes inapropriadas, que poderiam ser corrigidas através de vacinação apropriada, utilizando os mesmos polipéptidos ou polinucleótidos. A esse respeito, as actividades biológicas mais importantes para o objectivo pretendido são as actividades antigénicas e imunogénicas do polipéptido aqui descrito. Um polipéptido aqui descrito também pode exibir, pelo menos, uma outra actividade biológica de um polipéptido CASB7439, que o poderia qualificar como um alvo para intervenção terapêutica ou profiláctica diferente da ligada à resposta imunitária. São aqui descritos polipéptidos CASB7439. Tais péptidos incluem polipéptidos isolados, compreendendo uma sequência de aminoácidos que tem, pelo menos, 70% de identidade, de um modo preferido, pelo menos, 80% de identidade, de um modo mais preferido, pelo menos, 90% de identidade, de um modo ainda mais preferido, pelo menos, 95% de identidade, de um modo muito preferido, pelo menos, 97- 99% de identidade com a da SEQ ID N°: 2, SEQ ID N°: 3, SEQ ID N°: 7, SEQ ID O \—1 o £ SEQ ID N°: 11, SEQ ID N°: 12 ou SEQ ID N°: 14, ao longo do comprimento integral da SEQ ID N°: 2, SEQ ID N°: 3, SEQ ID N°: 7, SEQ ID N°: 10, SEQ ID N°: 11, SEQ ID N° : 12 ou SEQ ID N°: 14, respectivamente, com a condição de o referido polipéptido isolado não ser SEQ ID N°: 2, SEQ ID N°: 12 ou SEQ ID N°: 14. Tais polipéptidos incluem aqueles compreendendo o aminoácido da SEQ ID N° : 3, SEQ ID N° : 7, SEQ ID N° : 10 e SEQ ID N°: 11. 2 nos Péptidos adicionais incluem polipéptidos isolados, quais a sequência de aminoácidos tem, pelo menos, 70% de identidade, de um modo preferido, pelo menos, 80% de identidade, de um modo mais preferido, pelo menos, 90% de identidade, de um modo ainda mais preferido, pelo menos, 95% de identidade, de um modo muito preferido, pelo menos, 97-99% de identidade com a sequência de aminoácidos da SEQ ID N°: 2, SEQ ID N°: 3, SEQ ID N°: 7, SEQ ID N°: 10, SEQ ID N°: 11, SEQ ID N°: 12 ou SEQ ID N°: 14, ao longo do comprimento integral da SEQ ID N°: 2, SEQ ID N°: 3, SEQ ID N°: 7, SEQ ID N°: 10, SEQ ID N° : 11, SEQ ID N° : 12 ou SEQ ID N° : 14, respectivamente, com a condição de o referido polipéptido isolado não ser SEQ ID N°: 2, SEQ ID N°: 12 ou SEQ ID N°: 14. Tais polipéptidos incluem os polipéptidos da SEQ ID N°: 3, SEQ ID N°: 7, SEQ ID N°: 10 e SEQ ID N°: 11.

De um modo preferido, os polipéptidos acima mencionados são recombinantemente produzidos. De um modo muito preferido, os polipéptidos são purificados e são substancialmente isentos de quaisquer outras proteínas ou material contaminante de origem hospedeira. Péptidos adicionais aqui descritos incluem polipéptidos isolados, codificados por um polinucleótido compreendendo a sequência contida na SEQ ID N°: 1.

Também é aqui descrito um fragmento imunogénico de um polipéptido CASB7439, que é uma porção contígua do polipéptido CASB7439 que tem as mesmas ou semelhantes propriedades imunogénicas do polipéptido compreendendo a sequência de aminoácidos da SEQ ID N°: 2, SEQ ID N°: 3, SEQ ID N°: 7, SEQ ID N°: 10, SEQ ID N°: 11, SEQ ID N°: 12 ou SEQ ID N°: 14. 3

Isto é, o fragmento (se necessário quando ligado a um transportador ou como parte de um proteína de fusão maior) é capaz de deduzir uma resposta imunitária que reconhece o polipéptido CASB7439. Um tal fragmento imunogénico pode incluir, por exemplo, o polipéptido CASB7439 desprovido de uma sequência líder N-terminal, um domínio transmembranar ou um domínio âncora C-terminal. Num aspecto preferido, o fragmento imunogénico de CASB7439 de acordo com a invenção compreende substancialmente a totalidade do domínio extracelular de um polipéptido que tem, pelo menos, 70% de identidade, de um modo preferido, pelo menos, 80% de identidade, de um modo mais preferido, pelo menos, 90% de identidade, de um modo ainda mais preferido, pelo menos, 95% de identidade, de um modo muito preferido, pelo menos, 97-99% de identidade com a da SEQ ID N° : 2, SEQ ID N°: 3, SEQ ID N°: 7, SEQ ID N°: 10, SEQ ID N°: 11, SEQ ID N°: 12 ou SEQ ID N°: 14, ao longo do comprimento integral da SEQ ID N°: 2, SEQ ID N°: 3, SEQ ID N°: 7, SEQ ID N°: 10, SEQ ID N°: 11, SEQ ID N°: 12 ou SEQ ID N° : 14, respectivamente. De um modo preferido, um fragmento imunogénico de acordo com a invenção compreende, pelo menos, um epitopo.

Os fragmentos peptídicos incorporando um epitopo de CASB7439 tipicamente irão compreender, pelo menos, 7, de um modo preferido, 9 ou 10, aminoácidos contíguos da SEQ ID N°: 2. Os epitopos preferidos são mostrados na SEQ ID N°: 16 a SEQ ID N°: 33.

Os péptidos que incorporam estes epitopos formam um aspecto preferido. Os mimotopos que têm as mesmas características que estes epitopos, e imunogénios compreendendo esses mimotopos, que geram uma resposta imunitária, que reagem de modo cruzado com um epitopo no contexto da molécula CASB7439. 4 São aqui descritos péptidos isolados abrangendo estes mesmos epitopos e qualquer seu mimotopo. 0 significado de mimotopo é definido como uma entidade que é suficientemente semelhante ao epitopo CASB7439 nativo, de modo a ser capaz de ser reconhecida por anticorpos que reconhecem a molécula nativa; (Gheysen, H.M., et al., 1986, Synthetic peptides as antigens.

Wiley, Chichester, Ciba foundation symposium 119, pl30-149;

Gheysen, H.M., 1986, Molecular Immunology, 23,7, 709-715); ou são capazes de deduzirem anticorpos, quando ligados a um transportador adequado, cujos anticorpos reagem de modo cruzado com a molécula nativa.

Os mimotopos peptidicos dos epitopos acima identificados podem ser concebidos para uma particular finalidade por adição, deleção ou substituição de aminoácidos eleitos. Deste modo, os péptidos podem ser modificados para efeitos de facilidade de conjugação a um transportador proteico. Por exemplo, pode ser desejável que alguns métodos de conjugação química incluam uma cisteína terminal ao epitopo. Além disso, pode ser desejável que os péptidos conjugados a um transportador proteico incluam uma terminação hidrófoba distai da terminação conjugada do péptido, de modo a que a extremidade não conjugada livre do péptido permaneça associada à superfície da proteína transportadora. Isto reduz os graus de liberdade conformacional do péptido e, deste modo, aumenta a probabilidade de que o péptido seja apresentado numa conformação que se assemelha muito estreitamente à do péptido, como verificado no contexto da molécula intacta. Por exemplo, os péptidos podem ser alterados para terem uma cisteína N-terminal e uma cauda amidada hidrófoba C-terminal. Alternativamente, pode ser realizada a adição ou substituição de uma forma estereoisómero D de um ou mais dos aminoácidos, para criar um derivado benéfico, por exemplo para 5 melhorar a estabilidade do péptido. Os especialistas na técnica compreenderão que tais péptidos modificados, ou mimotopos, poderiam ser um mimotopo total ou parcialmente não peptídico, em que os resíduos constituintes não estão necessariamente confinados aos 20 aminoácidos de ocorrência natural. Além disso, estes podem ser tornados cíclicos por técnicas conhecidas na matéria, para constranger o péptido dentro de uma conformação que se assemelhe estreitamente à sua forma quando a sequência peptídica é no contexto da molécula intacta. Um método preferido de tornar um péptido cíclico compreende a adição de um par de resíduos de cisteína, para permitir a formação de uma ponte dissulfureto.

Além disso, os especialistas na técnica compreenderão que os mimotopos ou imunogénios podem ser maiores do que os epitopos acima identificados e, como tal, podem compreender as sequências aqui divulgadas. Consequentemente, os mimotopos da presente invenção podem consistir na adição de extensões N e/ou C terminais, de um determinado número de outros resíduos naturais em uma ou ambas as extremidades. Os mimotopos peptídicos também podem ser retro-sequências das sequências naturais, em que a orientação de sequência é inversa; ou, alternativamente, as sequências podem ser inteiramente ou, pelo menos em parte, constituídas por aminoácidos estereoisómero D (sequências inversas). Igualmente, as sequências peptídicas podem ser retroinversas em carácter, na medida em que a orientação da sequência é inversa e os aminoácidos são da forma estereoisómero D. Tais péptidos retro ou retroinversos têm a vantagem de serem não próprios e, como tal, podem superar problemas de autotolerância no sistema imunitário. 6

Alternativamente, os mimotopos peptídicos podem ser identificados utilizando anticorpos que são eles mesmos capazes de se ligarem aos epitopos da presente invenção, utilizando técnicas tal como a tecnologia de apresentação fágica (documento EP 0552267 Bl). Esta técnica gera um grande número de sequências peptidicas que mimetizam a estrutura dos péptidos nativos e são, por conseguinte, capazes de se ligarem a anticorpos peptídicos anti-nativos, mas eles mesmos podem não partilhar necessariamente homologia de sequência significativa com o péptido nativo. Esta abordagem pode ter vantagens significativas pelo reconhecimento da possibilidade de identificação de um péptido com propriedades imunogénicas melhoradas, ou pode superar quaisquer potenciais problemas de tolerância de auto-antigénio que possam estar associados à utilização da sequência peptídica nativa. Além disso, esta técnica permite a identificação de um padrão de reconhecimento para cada péptido nativo, em termos das suas propriedades químicas partilhadas de entre sequências de mimotopo reconhecidas. A ligação covalente do péptido ao transportador imunogénico pode ser efectuada num modo bem conhecido na técnica. Deste modo, por exemplo, para ligação covalente directa, é possível utilizar uma carbodiimida, glutaraldeído ou (éster de N-[γ-maleimidobutiriloxi]succinimida, utilizando ligantes heterobifuncionais comuns comercialmente disponíveis, tais como CDAP e SPDP (utilizando as instruções dos fabricantes) . Após a reacção de ligação, o imunogénio pode ser facilmente isolado e purificado por meio de um método de diálise, um método de filtração em gel, um método de destilação fraccionada, etc.

Os tipos de transportadores utilizados nos imunogénios como aqui descritos serão facilmente conhecidos do especialista na 7 técnica. A função do transportador é a de proporcionar auxilio de citocina, para auxiliar a indução de uma resposta imunitária contra o péptido. Uma lista não exaustiva de transportadores que podem ser utilizados na presente invenção inclui: Hemocianina de lapa californiana (KLH), albuminas séricas, tal como albumina de soro bovino (BSA), toxinas bacterianas inactivadas, tais como toxinas de tétano ou difteria (TT e DT) ou os seus fragmentos recombinantes (por exemplo, Dominio 1 de Fragmento C de TT, ou o domínio de translocação de DT), ou o derivado de proteína purificado de tuberculina (PPD). Alternativamente, os mimotopos ou epitopos podem ser directamente conjugados a transportadores lipossomais que podem, além disso, compreender imunogénios capazes de proporcionarem o auxílio de célula T. De um modo preferido, a razão de mimotopos para transportador é na ordem de 1:1 a 20:1 e, de um modo preferido, cada transportador deve transportar entre 3-15 péptidos.

Um transportador preferido é a Proteína D de Haemophilus influenzae (documento EP 0594610 Bl) . A Proteína D é uma proteína de ligação de IgD de Haemophilus influenzae e foi patenteada por Forsgren (documento WO 91/18926, EP 0594610 Bl concedida). Em algumas circunstâncias, por exemplo em sistemas de expressão imunogénicos recombinantes, pode ser desejável utilizar fragmentos de proteína D, por exemplo 1/3 de Proteína D (compreendendo os aminoácidos 100-110 N-terminais de proteína D (documento GB 9717953.5)).

Outro método preferido de apresentação dos péptidos é no contexto de uma molécula de fusão recombinante. Por exemplo, o documento EP 0421635 B descreve a utilização de partículas antigénicas quiméricas nucleares de hepadnavírus para apresentar sequências peptídicas estranhas numa partícula de tipo virai.

Como tal, os imunogénios podem compreender péptidos apresentados em partículas quiméricas consistindo no antigénio nuclear de hepatite B. Além disso, as proteínas de fusão recombinantes podem compreender os mimotopos da presente invenção e uma proteína transportadora, tal como NS1 do vírus influenza.

Os péptidos podem ser facilmente sintetizados por processos de fase sólida bem conhecidos na técnica. Sínteses adequadas podem ser realizadas pela utilização de processos "T-boc" ou "F-moc". Os péptidos cíclicos podem ser sintetizados pelo processo de fase sólida, empregando o bem conhecido processo "F-moc" e resina de poliamida no aparelho totalmente automatizado. Alternativamente, os especialistas na técnica conhecerão os processos laboratoriais necessários para realizar o processo manualmente. As técnicas e processos para síntese de fase sólida são descritos em "Solid Phase Peptide Synthesis: A Practical Approach" por E. Atherton e R. C. Sheppard, publicado por IRL em Oxford University Press (1989) . Alternativamente, os péptidos podem ser produzidos por métodos recombinantes, incluindo expressão de moléculas de ácidos nucleicos codificando os mimotopos numa linha celular bacteriana ou de mamífero, seguida da purificação do mimotopo expresso. As técnicas para expressão recombinante de péptidos e proteínas são conhecidas na técnica e são descritas em Maniatis, T., Fritsch, E. F. e Sambrook et al., Molecular cloning, a laboratory manual, 2a Ed.; Cold Spring Harbor Laboratory Press, Cold Spring Harbor, Nova Iorque (1989) . É aqui descrito um método de produção de um polipéptido. 0 processo pode ser realizado por técnicas de recombinação convencionais, tal como descritas em Maniatis et al., Molecular Cloning - A Laboratory Manual; Cold Spring Harbor, 1982-1989. 9

Consequentemente, é proporcionado um processo para a produção de um polipéptido, compreendendo o cultivo de uma célula hospedeira sob condições suficientes para a produção do referido polipéptido e recuperação do polipéptido do meio de cultura. Em particular, o processo pode, de um modo preferido, compreender as etapas de: i) preparação de um vector de expressão replicável ou de integração capaz, numa célula hospedeira, de expressar um polímero de ADN compreendendo uma sequência nucleotídica que codifica a proteína ou um seu derivado imunogénico; ii) transformação de uma célula hospedeira com o referido vector; iii) cultivo da referida célula hospedeira transformada, sob condições permitindo a expressão do referido polímero de ADN, para produzir a referida proteína; e iv) recuperação da referida proteína.

Os polipéptidos ou fragmento imunogénico podem estar na forma da proteína "madura" ou podem ser uma parte de uma proteína maior, tais como uma proteína precursora ou de fusão. É, frequentemente, vantajoso incluir uma sequência de aminoácidos adicional que contenha sequências secretórias ou líderes, pro-sequências, sequências que auxiliem na purificação, tal como múltiplos resíduos de histidina, ou uma sequência adicional para estabilidade durante produção recombinante. Além disso, também está considerada a adição de polipéptido exógeno ou cauda lipídica ou sequências polinucleotídicas, para aumentar o potencial imunogénico da molécula final. 10

Num aspecto, são descritas proteínas de fusão solúveis geneticamente manipuladas, compreendendo um polipéptido como aqui descrito, ou um seu fragmento, e diversas porções das regiões constantes de cadeias pesada ou leve de imunoglobulinas de diversas subclasses (IgG, IgM, IgA, IgE) . É preferida como uma imunoglobulina a parte constante da cadeia pesada de IgG humana, particularmente IgGl, onde ocorre a fusão na região de articulação. Numa particular forma de realização, a parte Fc pode ser removida simplesmente por incorporação de uma sequência de clivagem que pode ser clivada com o factor de coagulação sanguínea Xa. Além disso, são descritos processos para a preparação destas proteínas de fusão por engenharia genética e sua utilização para pesquisa de fármacos, diagnóstico e terapia. Um aspecto particularmente preferido refere-se à utilização de um polipéptido ou um polinucleótido, na preparação de uma vacina para tratar de modo imunoterapêutico um doente sofrendo ou susceptível a carcinoma, especialmente cancro do cólon ou outros tumores do cólon ou outras doenças associadas ao cólon. Um aspecto adicional também se refere a polinucleótidos codificando tais proteínas de fusão. Exemplos de tecnologia de proteína de fusão podem ser encontrados nos Pedidos de Patente Internacional N° W094/29458 e W094/22914.

As proteínas podem ser quimicamente conjugadas, ou expressas como proteínas de fusão recombinantes, possibilitando que sejam produzidos níveis aumentados num sistema de expressão, em comparação com proteína não fundida. 0 parceiro de fusão pode auxiliar a proporcionar epitopos T auxiliares (parceiro de fusão imunológico) , de um modo preferido epitopos T auxiliares reconhecidos por humanos, ou auxiliar na expressão da proteína (estimulador de expressão) a rendimentos mais elevados do que a proteína recombinante nativa. De um modo preferido, o parceiro 11 de fusão será um parceiro de fusão imunológico e um parceiro estimulador de expressão.

Os parceiros de fusão incluem proteína D de Haemophilus influenza B e a proteína não estrutural do vírus influenzae, NS1 (hemaglutinina). Outro parceiro de fusão imunológico é a proteína conhecida como LYTA. De um modo preferido, é utilizada a porção C terminal da molécula. Lyta é derivada de Streptococcus pneumoniae que sintetiza uma N-acetil-L-alanina amidase, amidase LYTA, (codificada pelo gene lytA {Gene, 43 (1986) página 265-272} uma autolisina que degrada especificamente determinadas ligações na estrutura do peptidoglicano. 0 domínio C-terminal da proteína LYTA é responsável pela afinidade para a colina ou para alguns análogos de colina, tal como DEAE. Esta propriedade foi explorada para o desenvolvimento de plasmídeos expressando C-LYTA de E. coli, úteis para expressão de proteínas de fusão. A purificação de proteínas híbridas contendo o fragmento C-LYTA na sua terminação amino foi descrita {Biotechnology: 10, (1992) página 795-798}. É possível utilizar a porção de repetição da molécula de Lyta verificada na extremidade C terminal, começando no resíduo 178, por exemplo resíduos 188-305.

Também são aqui descritas formas xenógenas (também designadas formas ortólogas) dos polipéptidos acima mencionados, as referidas formas xenógenas referindo-se a um antigénio tendo identidade de sequência substancial com o antigénio humano (também designado antigénio autólogo) que serve como um antigénio de referência mas que é derivado de uma espécie não humana diferente. Neste contexto, a identidade substancial refere-se à concordância de uma sequência de aminoácidos com outra sequência de aminoácidos ou de uma sequência 12 polinucleotídica com outra sequência polinucleotídica, quando tais sequências estão dispostas num alinhamento de melhor ajustamento em qualquer de um determinado número de proteinas de alinhamento de sequência conhecidas na técnica. Por identidade substancial significa-se, pelo menos, 70-95% e, de um modo preferido, pelo menos, 85-95%, de um modo muito preferido, pelo menos, 90%-95% de identidade de sequência entre as sequências comparadas. Por conseguinte, o polipéptido CASB7439 xenógeno será um polipéptido CASB7439 que é xenógeno com respeito a CASB7439 humano, por outras palavras que é isolado de uma espécie que não humana. Numa forma de realização preferida, o polipéptido é isolado de murganho, rato, porco ou macaco rhesus, de um modo muito preferido de murganho ou rato. Consequentemente, também é aqui descrito um método de indução de uma resposta imunitária contra CASB7439 humano, tendo uma sequência de aminoácidos como mostrada em qualquer das sequências SEQ ID N°: 2, SEQ ID N°: 3, SEQ ID N°: 7, SEQ ID N° : 10 ou SEQ ID N°: 11 num humano, compreendendo administrar ao indivíduo uma dosagem eficaz de uma composição compreendendo uma forma xenógena do referido CASB7439 humano como aqui se descreve. Uma forma de realização preferida é um método de indução de uma resposta imunitária contra CASB7439 humano, utilizando o CASB7439 xenógeno isolado de murganho, rato, porco ou macaco rhesus. Outro método preferido de indução de uma resposta imunitária de acordo com a presente invenção é utilizando uma composição antigénica incluindo um sistema de expressão virai vivo que expresse o referido antigénio xenógeno. O polipéptido CASB7439 xenógeno preferido tem a sequência mostrada na SEQ ID N° 12 (murganho) ou na SEQ ID N° 14 (rato). O polipéptido CASB7439 xenógeno isolado irá, em geral, partilhar identidade de sequência substancial e incluir 13 polipéptidos isolados compreendendo uma sequência de aminoácidos que tem, pelo menos, 70% de identidade, de um modo preferido, pelo menos, 80% de identidade, de um modo mais preferido, pelo menos, 90% de identidade, de um modo ainda mais preferido, pelo menos, 95% de identidade, de um modo muito preferido, pelo menos, 97-99% de identidade, com a da SEQ ID N°: 12 ou SEQ ID N° 14 ao lonqo do comprimento inteqral da SEQ ID N° : 12 ou SEQ ID N° 14. Consequentemente, o polipéptido xenóqeno irá compreender um fragmento imunogénico do polipéptido da SEQ ID N°: 12 ou SEQ ID N°: 14, no qual a actividade imunogénica do fragmento imunogénico é substancialmente a mesma que a do polipéptido da SEQ ID N°: 12 ou SEQ ID N°: 14. Além disso, o polipéptido CASB743 9 xenógeno pode ser um fragmento de, pelo menos, cerca de 20 aminoácidos consecutivos, de um modo preferido, cerca de 30, de um modo mais preferido, cerca de 50, de um modo ainda mais preferido, cerca de 100, de um modo muito preferido, cerca de 150 aminoácidos contíguos, seleccionados das sequências de aminoácidos como mostradas na SEQ ID N°: 12 ou na SEQ ID N° 14. De um modo mais particular, os fragmentos CASB7439 xenógenos irão reter alguma propriedade funcional, de um modo preferido uma actividade imunológica, da molécula de maiores dimensões mostrada na SEQ ID N° : 12 ou na SEQ ID N° 14 e são úteis nos métodos aqui descritos (e. g., em composições farmacêuticas e vacinais, em diagnóstico, etc.). Em particular, os fragmentos serão capazes de produzir uma resposta imunitária contra o equivalente humano, tal como a geração de anticorpos de reactividade cruzada que reagem com a forma humana autóloga de CASB7439, como mostrado em qualquer da SEQ ID N°: 2. Numa forma de realização específica, o polipéptido xenógeno pode ser parte de uma fusão maior, compreendendo o polipéptido CASB7439 xenógeno, ou seu fragmento, e uma proteína heteróloga ou parte 14 de uma proteína actuando como um parceiro de fusão, como descrito acima.

Também são aqui descritos variantes dos polipéptidos acima mencionados, isto é, polipéptidos que variam dos referentes por substituições conservativas de aminoácidos, pelo que um resíduo é substituído por outro com características semelhantes. Substituições típicas destas são entre Ala, Vai, Leu e Ile; entre Ser e Thr; entre os resíduos acídicos Asp e Glu; entre Asn e Gin; e entre os resíduos básicos Lys e Arg; ou resíduos aromáticos Phe e Tyr. São particularmente preferidos os variantes nos quais vários, 5-10, 1-5, 1-3, 1-2 ou 1 aminoácidos são substituídos, delecionados ou adicionados em qualquer combinação.

Os polipéptidos podem ser preparados em qualquer modo adequado. Tais polipéptidos incluem polipéptidos de ocorrência natural isolados, polipéptidos produzidos recombinantemente, polipéptidos produzidos sinteticamente ou polipéptidos produzidos por uma combinação destes métodos. Os meios para preparar tais polipéptidos são bem compreendidos na técnica.

Num aspecto adicional, são descritos polinucleótidos CASB7439. Tais polinucleótidos incluem polinucleótidos isolados, compreendendo uma sequência nucleotídica codificando um polipéptido que tem, pelo menos, 70% de identidade, de um modo preferido, pelo menos, 80% de identidade, de um modo mais preferido, pelo menos, 90% de identidade, de um modo ainda mais preferido, pelo menos, 95% de identidade com a sequência de aminoácidos da SEQ ID N°: 2, SEQ ID N°: 3, SEQ ID N°: 7, SEQ ID N°: 10 ou SEQ ID N°: 11, ao longo do comprimento integral da SEQ ID N°: 2, SEQ ID N°: 3, SEQ ID N°: 7, SEQ ID N°: 10 ou 15 SEQ ID N° : 11, respectivamente. A este respeito, polipéptidos codificados que têm, pelo menos, 97% de identidade são altamente preferidos, enquanto aqueles com, pelo menos, 98-99% de identidade são mais altamente preferidos e aqueles com, pelo menos, 99% de identidade são muito altamente preferidos.

Polinucleótidos adicionais incluem polinucleótidos isolados, compreendendo uma sequência nucleotidica que tem, pelo menos, 70% de identidade, de um modo preferido, pelo menos, 80% de identidade, de um modo mais preferido, pelo menos, 90% de identidade, de um modo ainda mais preferido, pelo menos, 95% de identidade com uma sequência nucleotidica codificando um polipéptido da SEQ ID N°: 2, SEQ ID N°: 3, SEQ ID N° : 7, SEQ ID N° : 10 ou SEQ ID N° : 11, ao longo da região codificante integral. A este respeito, polinucleótidos que têm, pelo menos, 97% de identidade são altamente preferidos, enquanto aqueles com, pelo menos, 98-99% de identidade são mais altamente preferidos e aqueles com, pelo menos, 99% de identidade são muito altamente preferidos.

Polinucleótidos adicionais incluem polinucleótidos isolados, compreendendo uma sequência nucleotidica que tem, pelo menos, 70% de identidade, de um modo preferido, pelo menos, 80% de identidade, de um modo mais preferido, pelo menos, 90% de identidade, de um modo ainda mais preferido, pelo menos, 95% de identidade com SEQ ID N°: 1, SEQ ID N°: 4, SEQ ID N°: 5, SEQ ID N° : 6, SEQ ID N°: 8 ou SEQ ID N° : 9, ao longo do comprimento integral das referidas sequências, ou com a sequência codificante da SEQ ID N°: 1, SEQ ID N°: 4, SEQ ID N°: 5, SEQ ID N°: 6, SEQ ID N°: 8 ou SEQ ID N°: 9 ao longo do comprimento integral da referida sequência codificante da SEQ ID N°: 1, SEQ ID N°: 4, SEQ ID N°: 5, SEQ ID N°: 6, 16 SEQ ID N°: 8 ou SEQ ID N°: 9. A este respeito, polinucleótidos que têm, pelo menos, 97% de identidade são altamente preferidos, enquanto aqueles com, pelo menos, 98-99% de identidade são mais altamente preferidos e aqueles com, pelo menos, 99% de identidade são muito altamente preferidos. Tais polinucleótidos incluem um polinucleótido compreendendo o polinucleótido da SEQ ID N° : 1, SEQ ID N° : 4, SEQ ID N°: 5 , SEQ ID N°: 6, SEQ ID N° : 8 ou SEQ ID N° : 9, assim como o polinucleótido da SEQ ID N° : 1, SEQ ID N° : 4, SEQ ID N°: 5 , SEQ ID N°: 6, SEQ ID N° : 8, SEQ ID N 0 : 9 ou a região codificante da SEQ ID N° : 1, SEQ ID N° : 4, SEQ H U !Z! o ΟΊ , SEQ ID N°: 6, SEQ ID N° : 8 OU SEQ ID N 0: 9 e

Também é aqui descrito um ácido nucleico codificando as acima mencionadas proteínas xenógenas e sua utilização em medicina. Numa forma de realização preferida, o polinucleótido CASB7439 xenógeno para utilização em composições farmacêuticas tem a sequência mostrada na SEQ ID N°: 13 (murganho) ou na SEQ ID N°: 15 (rato). Os polinucleótidos CASB7439 xenógenos isolados podem ser de cadeia simples (codificante ou anti-sentido) ou de cadeia dupla e podem ser ADN (genómico, ADNc ou sintético) ou moléculas de ARN. Sequências codificantes ou não codificantes adicionais podem, mas não necessitam, estar presentes dentro de um polinucleótido. Noutras formas de realização relacionadas, são aqui descritos variantes polinucleotídicos tendo identidade substancial com as sequências aqui divulgadas na SEQ ID N° 13 ou na SEQ ID N° 15, por exemplo aqueles compreendendo, pelo menos, 70% de identidade de sequência, de um modo preferido, pelo menos, 75%, 80%, 85%, 90% 95%, 96%, 97%, 98% ou 99%, ou superior, de identidade de sequência, em comparação com uma sequência de polinucleótido CASB7439, utilizando os métodos aqui descritos, (e. g., análise 17 de BLAST utilizando parâmetros padrão). Numa forma de realização relacionada, o polinucleótido xenógeno isolado irá compreender uma sequência nucleotidica codificando um polipéptido que tem, pelo menos, 90%, de um modo preferido, 95% e acima, de identidade com a sequência de aminoácidos da SEQ ID N°: 12 ou da SEQ ID N°: 14, ao longo do comprimento integral da SEQ ID N° : 12 ou da SEQ ID N° : 14; ou uma sequência nucleotidica complementar ao referido polinucleótido isolado.

Também são aqui descritos polinucleótidos que são complementares a todos os polinucleótidos descritos acima.

Os referidos polinucleótidos podem ser inseridos num plasmideo, vector microrganismo recombinante ou um microrganismo vivo recombinante adequado e utilizados para imunização (ver, por exemplo Wolff et al., Science 247:1465-1468 (1990); Corr et al., J. Exp. Med. 184:1555-1560 (1996); Doe et ai., Proc. Natl. Acad. Sei. 93:8578-8583 (1996)). Consequentemente, é proporcionado um vector de expressão ou microrganismo vivo recombinante, compreendendo os referidos polinucleótidos como acima definidos.

Também é aqui descrito um fragmento de um polinucleótido CASB7439 que, quando administrado a um indivíduo, tem as mesmas propriedades imunogénicas que o polinucleótido da SEQ ID N°: 1, SEQ ID N°: 4, SEQ ID N°: 5, SEQ ID N°: 6, SEQ ID N°: 8, SEQ ID N°: 9, SEQ ID N°: 13 OU SEQ ID N°: 15.

Também é aqui descrito um polinucleótido codificando um fragmento imunológico de um polipéptido CASB7439, como aqui acima definido. 18

Os fragmentos têm um nível de actividade imunogénica de, pelo menos, cerca de 50%, de um modo preferido, pelo menos, cerca de 70% e, de um modo mais preferido, pelo menos, cerca de 90% do nível de actividade imunogénica de uma sequência polipeptídica mostrada na SEQ ID N°: 2, SEQ ID N°: 3, SEQ ID N° : 7, SEQ ID N° : 10 ou SEQ ID N° : 11, SEQ ID N° : 12 ou SEQ ID N°: 14 ou uma sequência polipeptídica codificada por uma sequência polinucleotídica mostrada na SEQ ID N°: 1, SEQ ID N°: 4, SEQ ID N°: 5, SEQ ID N°: 6, SEQ ID N°: 8, SEQ ID N°: 9, SEQ ID N°: 13 ou SEQ ID N°: 15.

Os fragmentos polipeptídicos compreendem, de um modo preferido, pelo menos, cerca de 5, 10, 15, 20, 25, 50 ou 100 aminoácidos contíguos, ou mais, incluindo todos os comprimentos intermédios, de uma composição polipeptídica aqui mostrada, tal como aqueles mostrados na SEQ ID N°: 2, SEQ ID N°: 3, SEQ ID N°: 7, SEQ ID N°: 10, SEQ ID N°: 11, SEQ ID N° : 12 ou SEQ ID N° : 14, ou aqueles codificados por uma sequência polinucleotídica mostrada numa sequência da SEQ ID N° : 1, SEQ ID N°: 4, SEQ ID N°: 5, SEQ ID N° : 6, SEQ ID N°: 8, SEQ ID N°: 9, SEQ ID N°: 13 ou SEQ ID N°: 15. A sequência nucleotídica da SEQ ID N°: 1 é uma sequência de ADNc que compreende uma sequência codificando polipéptido (nucleótido 545 a 1126) codificando um polipéptido de 193 aminoácidos, o polipéptido da SEQ ID N°: 2. A sequência nucleotídica codificando o polipéptido da SEQ ID N° : 2 pode ser idêntica à sequência codificando polipéptido contida na SEQ ID N°: 1 ou pode ser uma sequência que não aquela contida na SEQ ID N°: 1 que, como resultado da redundância (degenerescência) do código genético, também codifica o polipéptido da SEQ ID N°: 2. O polipéptido da SEQ ID N°: 2 é 19 estruturalmente relacionado com outras proteínas da família achaete scute e também é denominado "homólogo 2 de Achaete Scute humano" (HASH2) (número de acesso NP_005161 e AAB86993). 0 gene do homólogo 2 humano de Achaete Scute (HASH2), oficialmente designado ASCL2 humano (complexo de tipo 2 de Achaete Scute) é um homólogo dos genes Achaete e Scute de Drosophila. 0 ASCL2 humano é expresso apenas nos trofoblastos extravillus da placenta em desenvolvimento e mapeia no cromossoma llpl5, próximo de IGF2 e H19. 0 gene do homólogo 2 de achaete scute de murganho (MASH2) codifica um factor de transcrição desempenhando um papel no desenvolvimento do trofoblasto. 0 gene Mash2 é paternalmente impresso no murganho e a ausência de expressão de ASCL2 humano em molas hidatiformes (androgenéticas) não malignas indica que o Ascl2 humano também é impresso no homem.

Os genes Ascl2 são membros da família hélice-gancho-hélice básica (BHLH) de factores de transcrição. Activam a transcrição pela ligação à caixa E (5'-CANNTG-3'). A dimerização com outras proteínas BHLH é requerida para ligação de ADN eficiente. Estão envolvidos na determinação dos precursores neuronais no sistema nervoso periférico e no sistema nervoso central em drosophila melanogaster e, provavelmente, também em mamíferos. A cadeia complementar da sequência nucleotídica da SEQ ID N°: 1 é a sequência polinucleotídica da SEQ ID N°: 6. Esta cadeia também compreende duas outras sequências codificando polipéptidos. A primeira sequência codificando polipéptido (nucleótido 1184 a 399 da SEQ ID: 1, nucleótido 608 a 1393 da SEQ ID N°: 6) codifica um polipéptido de 262 aminoácidos, o polipéptido da SEQ ID N°: 3. A segunda sequência codificando 20 polipéptido (nucleótido 840 a 262 da SEQ ID N° : 1, nucleótido 952 a 1530 da SEQ ID N° : 6) codifica um polipéptido de 193 aminoácidos, o polipéptido da SEQ ID N°: 11. A sequência nucleotidica codificando os polipéptidos da SEQ ID N° : 3 e SEQ ID N°: 11 pode ser idêntica à sequência codificando polipéptidos contida na SEQ ID N° : 6 ou a mesma pode ser uma sequência que não aquela contida na SEQ ID N°: 6 que, como resultado da redundância (degenerescência) do código genético, também codifica os polipéptidos da SEQ ID N°: 3 e 11. O polipéptido da SEQ ID N° : 3 é estruturalmente relacionado com outras proteínas da família de proteínas coactivadoras de excisão, tendo homologia e/ou semelhança estrutural com a subunidade coactivadora de excisão de homo sapiens srm300 (acesso genbank AAF21439). O polipéptido da SEQ ID N° : 11 não está relacionado com qualquer proteína conhecida. As sequências polipeptídicas como mostradas na SEQ ID N°: 3 e SEQ ID N° : 11 e as sequências polinucleotídicas como mostradas na SEQ ID N°: 6 são novas.

Prevê-se que os polipéptidos e polinucleótidos preferidos tenham, inter alia, funções/propriedades biológicas semelhantes aos seus polipéptidos e polinucleótidos homólogos. Além disso, os polipéptidos, fragmentos imunológicos e polinucleótidos preferidos têm, pelo menos, uma actividade da SEQ ID N°: 1, SEQ ID N°: 2, SEQ ID N°: 3 ou SEQ ID N°: 11, conforme apropriado.

Também são aqui descritas sequências polinucleotídicas e polipeptídicas parciais ou outras incompletas que foram primeiro identificadas, antes da determinação das correspondentes sequências de comprimento completo da SEQ ID N°: 1, SEQ ID N°: 2, SEQ ID N°: 3 e SEQ ID N° : 11. 21

Consequentemente, num aspecto adicional, é um polinucleótido isolado que: (a) compreende uma sequência nucleotidica que tem, pelo menos, 70% de identidade, de um modo preferido, pelo menos, 80% de identidade, de um modo mais preferido, pelo menos, 90% de identidade, de um modo ainda mais preferido, pelo menos, 95% de identidade, de um modo ainda mais preferido, pelo menos, 97-99% de identidade com a SEQ ID N°: 4 e 5 ao longo do comprimento integral da SEQ ID N°: 4 e 5; (b) tem uma sequência nucleotidica que tem, pelo menos, 70% de identidade, de um modo preferido, pelo menos, 80% de identidade, de um modo mais preferido, pelo menos, 90% de identidade, de um modo ainda mais preferido, pelo menos, 95% de identidade, de um modo ainda mais preferido, pelo menos, 97-99% de identidade, com a SEQ ID N°: 1 ou SEQ ID N°: 6 ao longo do comprimento integral da SEQ ID N°: 4 e SEQ ID N°: 5, respectivamente; (c) o polinucleótido da SEQ ID N°: 4 e SEQ ID N°: 5; ou (d) uma sequência nucleotidica codificando um polipéptido que tem, pelo menos, 70% de identidade, de um modo preferido, pelo menos, 80% de identidade, de um modo mais preferido, pelo menos, 90% de identidade, de um modo ainda mais preferido, pelo menos, 95% de identidade, de um modo ainda mais preferido, pelo menos, 97-99% de identidade, com a sequência de aminoácidos da SEQ ID N°: 2 e SEQ ID N°: 7, respectivamente, ao longo do comprimento integral da SEQ ID N°: 2 e 7, assim como os polinucleótidos da SEQ ID N°: 4 e 5. 22

Também é aqui descrito um polipéptido que: (a) compreende uma sequência de aminoácidos que tem, pelo menos, 70% de identidade, de um modo preferido, pelo menos, 80% de identidade, de um modo mais preferido, pelo menos, 90% de identidade, de um modo ainda mais preferido, pelo menos, 95% de identidade, de um modo muito preferido, pelo menos, 97-99% de identidade, com a da SEQ ID N° : 2 e 7 ao longo do comprimento integral da SEQ ID N°: 2 ou 7; (b) tem uma sequência de aminoácidos que tem, pelo menos, 70% de identidade, de um modo preferido, pelo menos, 80% de identidade, de um modo mais preferido, pelo menos, 90% de identidade, de um modo ainda mais preferido, pelo menos, 95% de identidade, de um modo muito preferido, pelo menos, 97-99% de identidade, com a sequência de aminoácidos da SEQ ID N°: 2 ou 7 ao longo do comprimento integral da SEQ ID N°: 2 ou 7; (c) compreende o aminoácido da SEQ ID N°: 2 ou 7; e (d) é o polipéptido da SEQ ID N°: 7; assim como polipéptidos codificados por um polinucleótido compreendendo a sequência contida na SEQ ID N°: 4 e 5.

Os polinucleótidos podem ser obtidos utilizando técnicas padrão de clonagem e rastreio, a partir de uma biblioteca de ADNc derivada de ARNm em células de cancro do cólon humano, (por exemplo Sambrook et al., Molecular Clonlng: A Laboratory Manual, 2a Ed., Cold Spring harbor Laboratory Press, Cold Spring harbor, N.I. (1989)). Os polinucleótidos também podem ser obtidos de fontes naturais, tal como bibliotecas de ADN genómico ou podem ser sintetizados utilizando técnicas bem conhecidas e comercialmente disponíveis. 23

Quando são utilizados polinucleótidos para a produção recombinante de polipéptidos, o polinucleótido pode incluir a sequência codificante para o polipéptido maduro por si só; ou a sequência codificante para o polipéptido maduro em fase de leitura com outras sequências codificantes, tal como aquelas codificando uma sequência lider ou secretória, uma sequência de pre-proteina, ou pro-, prepro-proteina, ou outras porções de péptido de fusão. Por exemplo, pode ser codificada uma sequência marcadora que facilite a purificação do polipéptido fundido. Em determinadas formas de realização preferidas, a sequência marcadora é um péptido hexa-histidina, como proporcionado no vector pQE (Qiagen, Inc.) e descrito em Gentz et al., Proc Natl Acad Sei USA (1989) 86:821-824, ou é uma cauda HA. 0 polinucleótido também pode conter sequências não codificantes 5' e 3', tais como sequências transcritas, não traduzidas, sinais de excisão e poliadenilação, sítios de ligação de ribossoma e sequências que estabilizam ARNm.

Formas de realização adicionais incluem variantes polinucleotídicos codificando polipéptidos que compreendem a sequência de aminoácidos da SEQ ID N°: 2, SEQ ID N°: 3, SEQ ID N°: 7, SEQ ID N°: 11, SEQ ID N°: 13 ou SEQ ID N°: 15 e nos quais diversos, por exemplo de 5 a 10, 1 a 5, 1 a 3, la 2 ou 1, resíduos de aminoácidos são substituídos, delecionados ou adicionados, em qualquer combinação.

Polinucleótidos que sejam idênticos ou suficientemente idênticos a uma sequência nucleotídica contida na SEQ ID N°: 1 ou na SEQ ID N°: 6, podem ser utilizados como sondas de hibridação para ADNc e ADN genómico ou como iniciadores para uma reacção de amplificação (PCR) de ácido nucleico, para isolar ADNc e clones genómicos de comprimento completo codificando polipéptidos da presente divulgação e para isolar ADNc e clones genómicos de outros genes (incluindo genes codificando parálogos de fontes humanas e ortólogos e parálogos de espécies que não humana) que tenham uma elevada semelhança de sequência com SEQ ID N°: 1 ou com SEQ ID N°: 6. Tipicamente, estas sequências nucleotidicas são 70% idênticas, de um modo preferido 80% idênticas, de um modo mais preferido 90% idênticas, de um modo muito preferido 95% idênticas às do referente. As sondas ou iniciadores irão, em geral, compreender, pelo menos, 15 nucleótidos, de um modo preferido, pelo menos, 30 nucleótidos e podem ter, pelo menos, 50 nucleótidos. Sondas particularmente preferidas terão entre 30 e 50 nucleótidos. Iniciadores particularmente preferidos terão entre 20 e 25 nucleótidos. Em particular, polipéptidos ou polinucleótidos derivados de sequências de origem animal homóloga poderiam ser utilizados como imunogénios, para se obter uma resposta imunitária de reacção cruzada para o gene humano.

Um polinucleótido codificando um polipéptido, incluindo homólogos de espécies que não humana, pode ser obtido por um processo que compreende as etapas de rastreio de uma biblioteca apropriada, sob condições severas de hibridação com uma sonda marcada, tendo a sequência da SEQ ID N°: 1 ou SEQ ID N°: 6 ou um seu fragmento; e isolamento de ADNc e clones genómicos de comprimento completo contendo a referida sequência polinucleotídica. Tais técnicas de hibridação são bem conhecidas do especialista na técnica. Condições severas de hibridação preferidas incluem incubação, de um dia para o outro, a 42 °C, numa solução compreendendo: formamida a 50%, 5xSSC (NaCl a 150 mM, citrato trissódico a 15 mM) , fosfato de sódio a 50 mM (pH 7,6), solução de Denhardt a 5x, sulfato de dextrano a 10% e ADN de esperma de salmão laminado, desnaturado, a 25 20 micrograma/mL, ; seguida de lavagem dos filtros em 0,lx SSC, a cerca de 65 °C. Deste modo, também são aqui descritos polinucleótidos obteníveis por rastreio de uma biblioteca apropriada, sob condições severas de hibridação, com uma sonda marcada tendo a sequência da SEQ ID N°: 1 ou SEQ ID N°: 6 ou um seu fragmento. 0 especialista na técnica entenderá que, em muitos casos, uma sequência de ADNc isolada estará incompleta, na medida em que a região codificando para o polipéptido é curta na extremidade 5' do ADNc.

Existem diversos métodos disponíveis e bem conhecidos para os especialistas na técnica para se obter ADNc de comprimento completo ou curtos ADNc alargados, por exemplo, os baseados no método de Rápida Amplificação de extremidades de ADNc (RACE) (ver, por exemplo, Frohman et ai., PNAS USA 85, 8998-9002, 1988). Modificações recentes da técnica, exemplificadas pela tecnologia Marathon™ (Clontech Laboratories Inc.), por exemplo, simplificaram significativamente a pesquisa de ADNc mais longos. Na tecnologia Marathon™, os ADNc foram preparados a partir de ARNm extraído de um tecido escolhido e uma sequência 'adaptadora' ligada sobre cada extremidade. A amplificação de ácido nucleico (PCR) é, depois, efectuada para amplificar a extremidade 5' "em falta" do ADNc, utilizando uma combinação de iniciadores oligonucleotídicos específicos de gene e específicos de adaptador. A reacção de PCR é, depois, repetida utilizando iniciadores "internos", isto é, iniciadores concebidos para se emparelharem dentro do produto amplificado (tipicamente, um iniciador específico de adaptador que se emparelha mais em 3' na sequência adaptadora e um iniciador específico de gene que se emparelha mais em 5' na sequência génica conhecida). Os produtos 26 desta reacção podem ser, depois, analisados por sequenciação de ADN e um ADNc de comprimento completo construído, pela ligação do produto directamente ao ADNc existente, para proporcionar uma sequência completa ou efectuando um PCR de comprimento completo separado, utilizando a nova informação de sequência para a concepção do iniciador 5'.

Polipéptidos recombinantes podem ser preparados por processos bem conhecidos na técnica, a partir de células hospedeiras geneticamente manipuladas, compreendendo sistemas de expressão. Consequentemente, num aspecto adicional, é descrito um sistema de expressão que compreende um polinucleótido da presente invenção, a células hospedeiras que são geneticamente manipuladas com tais sistemas de expressão e a produção de polipéptidos da invenção por técnicas recombinantes. Também podem ser empregues sistemas de tradução isentos de células para produzir tais proteínas, utilizando ARN derivados de construções de ADN.

Para produção recombinante, as células hospedeiras podem ser geneticamente manipuladas para incorporarem sistemas de expressão ou as suas porções para polinucleótidos. A introdução de polinucleótidos nas células hospedeiras pode ser efectuada por métodos descritos em muitos manuais de laboratório de referência, tais como Davis et al., Basic Methods in Molecular Biology (1986) e Sambrook et ai., Molecular Cloning: A Laboratory Manual, 2a Ed., Cold Spring Harbor Laboratory Press, Cold Spring Harbor, N.I. (1989). Esses métodos preferidos incluem, por exemplo, transfecção com fosfato de cálcio, transfecção mediada por DEAE-dextrano, transvecção, micro-injecção, transfecção mediada por lípido catiónico, 27 electroporação, transdução, carga por raspagem, introdução balística ou infecção.

De um modo preferido, as proteínas são coexpressas com tioredoxina, em trans (TIT). A coexpressão de tioredoxina em trans versus em cis é preferida para manter o antigénio isento de tioredoxina, sem a necessidade de protease. A coexpressão de tioredoxina facilita a solubilização das proteínas. A coexpressão de tioredoxina também tem um impacto significativo no rendimento de purificação de proteína, na solubilidade e qualidade de proteína purificada.

Exemplos representativos de hospedeiros apropriados incluem células bacterianas, tais como células de Streptococci, Staphylococci, E. coli, Streptomyces e Bacillus subtilis; células fúngicas, tais como células de levedura e células de Aspergillus; células de insecto, tais como células de Drosophila S2 e Spodoptera Sf9; células animais, tais como CHO, COS, HeLa, C127, 3T3, BHK, HEK 293 e células de melanoma de Bowes; e células vegetais.

Pode ser utilizada uma grande variedade de sistemas de expressão, por exemplo, sistemas cromossómicos, epissomais e derivados de vírus, e. g. , vectores derivados de plasmídeos bacterianos, de bacteriófago, de transposões, de epissomas de levedura, de elementos de inserção, de elementos cromossómicos de levedura, de vírus, tais como baculovírus, papovavírus, tais como SV40, vírus vaccinia, adenovírus, vírus da varíola das aves de capoeira, vírus da pseudo-raiva e retrovírus, e vectores derivados das suas combinações, tais como os derivados de elementos genéticos plasmídicos e de bacteriófagos, tais como cosmídeos e fagemídeos. Os sistemas de expressão podem conter 28 regiões de controlo que regulam, assim como ajudar a expressão. Em geral, pode ser utilizado qualquer sistema ou vector que seja capaz de manter, propagar ou expressar um polinucleótido, para produzir um polipéptido num hospedeiro. A sequência nucleotidica apropriada pode ser inserida dentro de um sistema de expressão por qualquer de uma variedade de técnicas bem conhecidas e de rotina, tal como, por exemplo, as mostradas em Sambrook et ai., Molecular Cloning, Ά Laboratory Manual (supra). Sinais de secreção apropriados podem ser incorporados no polipéptido desejado, para permitir a secreção da proteina traduzida para o lúmen do retículo endoplasmático, do espaço periplásmico ou do ambiente extracelular. Estes sinais podem ser endógenos ao polipéptido ou podem ser sinais heterólogos. 0 sistema de expressão também pode ser um microrganismo vivo recombinante, tais como um vírus ou bactéria. 0 gene de interesse pode ser inserido no genoma de um vírus ou bactéria recombinante vivo. A inoculação e infecção in vivo com este vector vivo irão conduzir à expressão in vivo do antigénio e indução de respostas imunitárias.

Por conseguinte, em determinadas formas de realização, polinucleótidos codificando polipéptidos imunogénicos são introduzidos em células hospedeiras de mamífero adequadas para expressão, utilizando qualquer de um determinado número de sistemas de base virai conhecidos. Numa forma de realização ilustrativa, os retrovírus proporcionam uma plataforma conveniente e eficaz para sistemas de distribuição de genes. Uma sequência nucleotidica seleccionada codificando um polipéptido pode ser inserida num vector e empacotada em partículas retrovirais, utilizando técnicas conhecidas na técnica. 0 vírus recombinante pode ser, depois, isolado e distribuído a um 29 indivíduo. Foi descrito um determinado número de sistemas retrovirais ilustrativos (e. g., Pat. U.S. N° 5219740; Miller e Rosman (1989) BioTechniques 7:980-990; Miller, A. D. (1990) Human Gene Therapy 1:5-14; Scarpa et ai. (1991) Virology 180:849-852; Bums et ai. (1993) Proc. Natl. Acad. Sei. USA 90:8033-8037; e Boris-Lawrie e Temin (1993) Cur. Opin. Genet. Develop. 3:102-109.

Além disso, também foi descrito um determinado número de sistemas baseados em adenovírus ilustrativos. Ao contrário dos retrovírus que se integram dentro do genoma hospedeiro, os adenovírus persistem extracromossomicamente minimizando, deste modo, os riscos associados à mutagénese de inserção (Haj-Ahmad e Graham (1986) J. Virol. 57:267-274; Bett et al. (1993) J. Virol. 6 7:5911-5921; Mittereder et al. (1994) Human Gene Therapy 5:717-729; Seth et al. (1994) J. Virol. 68:933-940; Barr et al. (1994) Gene Therapy 1:51-58; Berkner, K. L. (1988) BioTechniques 6:616-629; e Rich et al. (1993) Human Gene Therapy 4:461-476).

Também foram desenvolvidos vários sistemas vectores de vírus adeno-associado (AAV) para distribuição polinucleotídica. Os vectores AAV podem ser facilmente construídos utilizando técnicas bem conhecidas na técnica. Ver, e. g., Pat. U.S. N° 5173414 e 5139941; Publicações Internacionais N° WO 92/01070 e WO 93/03769; Lebkowski et al. (1988) Molec. Cell. Biol. 8:3988-3996; Vincent et al. (1990) Vaccines 90 (Cold Spring Harbor Laboratory Press)} Cárter, B. J. (1992) Current Opinion in Biotechnology 3:533-539; Muzyczka, N. (1992) Current Topics in Microbiol. and Immunol. 158:97-129; Kotin, R. M. (1994) Human Gene Therapy 5:793-801; Shelling e Smith (1994) Gene Therapy 1:165-169; e Zhou et al. (1994) J. Exp. Med. 179:1867-1875. 30

Vectores virais adicionais, úteis para distribuição das moléculas de ácido nucleico codificando polipéptidos por transferência génica, incluem os derivados da família de vírus da varíola, tais como vírus vaccinia e poxvírus aviários. A título exemplificativo, recombinantes de vírus vaccinia expressando as novas moléculas podem ser construídos como se segue. 0 ADN codificando um polipéptido é, em primeiro lugar, inserido dentro de um vector apropriado, para que fique adjacente a um promotor de vaccinia e flanqueando sequências de ADN de vaccinia, tal como a sequência codificando a timidina cinase (TK) . Este vector é depois utilizado para transfectar células que são simultaneamente infectadas com vaccinia. A recombinação homóloga serve para inserir o promotor da vaccinia, bem como o gene codificando o polipéptido de interesse, dentro do genoma virai. 0 recombinante TK. sup. (-) resultante pode ser seleccionado pelo cultivo das células na presença de 5-bromodesoxiuridina e repicando placas virais resistentes a esta.

Um sistema de infecção/transfecção baseado em vaccinia pode ser convenientemente utilizado para proporcionar para expressão indutível, transiente, ou coexpressão de um ou mais polipéptidos aqui descritos em células hospedeiras de um organismo. Neste sistema particular, as células são, em primeiro lugar, infectadas in vitro com um recombinante de vírus vaccinia que codifica a T7 ARN polimerase de bacteriófago. Esta polimerase exibe excelente especificidade, na medida em que apenas transcreve moldes contendo promotores T7. Após infecção, as células são transfectadas com o polinucleótido ou polinucleótidos de interesse, dirigida por um promotor T7. A polimerase expressa no citoplasma a partir do recombinante de vírus vaccinia transcreve o ADN transfectado em ARN que é, 31 depois, traduzido em polipéptido pela maquinaria de tradução do hospedeiro. 0 método proporciona produção citoplasmática, de elevado nivel, transiente, de grandes quantidades de ARN e os seus produtos de tradução. Ver, e. g., Elroy-Stein e Moss, Proc. Natl. Acad. Sei. USA (1990) 87: 6743-6747; Fuerst et al. Proc. Natl. Acad. Sei. USA (1986) 83:8122-8126.

Alternativamente, também podem ser utilizados virus da varíola aviária, tais como os vírus da varíola das aves de capoeira e varíola dos canários, para distribuição das sequências codificantes de interesse. Os vírus da varíola aviária recombinantes, expressando imunogénios a partir de patógenos de mamífero, são conhecidos por conferirem imunidade protectora quando administrados a espécies não aviárias. A utilização de um vector de Varíola aviária é particularmente desejável em humanos e outras espécies de mamíferos, uma vez que os membros do género da Varíola aviária apenas se podem replicar de um modo produtivo em espécies aviárias susceptíveis e, por conseguinte, não são infecciosos em células de mamífero. Os métodos para a produção de Vírus da varíola aviária recombinantes são conhecidos na técnica e empregam recombinação genética, como descrito acima com respeito à produção de vírus vaccinia. Ver, e. g., documentos WO 91/12882; WO 89/03429; e WO 92/03545.

Também pode ser utilizado qualquer de um determinado número de vectores de alfavírus para distribuição de composições polinucleotídicas, tal como os vectores descritos nas Patentes U.S. N° 5843723; 6015686; 6008035 e 6015694. Também podem ser utilizados determinados vectores baseados na Encefalite Equina Venezuelana (VEE) , cujos exemplos ilustrativos podem ser verificados nas Patentes U.S. N° 5505947 e 5643576. 32

Além disso, vectores de conjugação molecular, tal como os vectores quiméricos de adenovirus descritos em Michael et al. J. Biol. Chem. (1993) 268:6866-6869 e Wagner et al. Proc. Natl. Acad. Sei. USA (1992) 89:6099-6103, também podem ser utilizados para distribuição génica de acordo com a invenção.

Informação ilustrativa adicional sobre estes e outros sistemas de distribuição de base virai conhecidos pode ser encontrada, por exemplo, em Fisher-Hoch et al., proc. Natl. Acad Sei. USA 86:317-321, 1989; Flexner et al., Ann. N. Y. Acad. Sei. 569:86-103, 1989; Flexner et al., Vaccine 8:17-21, 1990; Patentes U.S. N° 4603112, 4769330 e 5017487; documento WO 89/01973; Patente U.S. N° 4777127; documentos GB 2200651; EP 0345242; WO 91/02805; Berkner, Biotechniques 6:616-627, 1988; Rosenfeld et al., Science 252:431-434, 1991; Kolls et al., Proc. Natl. Acad Sei. USA 91:215-219, 1994; Kass-Eisler et al., Proc. Natl. Acad. Sei. USA 90: 11498-11502, 1993; Guzman et al., Circulation 88:2838-2848, 1993; e Guzman et al., Cir. Res. 73:1202-1207, 1993.

Para se obterem vacinas vivas, os microrganismos vivos recombinantes descritos acima podem ser virulentos ou atenuados de diversas formas.

Em determinadas formas de realização, um polinucleótido pode ser integrado dentro do genoma de uma célula alvo. Esta integração pode ser na localização e orientação especificas via recombinação homóloga (substituição génica) ou pode ser integrada numa localização aleatória, não especifica (aumento génico). Ainda em mais formas de realização, o polinucleótido pode ser mantido, de um modo estável, na célula como um segmento separado, epissomal de ADN. Tais segmentos polinucleotidicos ou 33 "epissomas" codificam sequências suficientes para permitirem a manutenção e replicação independente ou em sincronização com o ciclo da célula hospedeira. 0 modo no qual a construção de expressão é distribuída para uma célula e onde o polinucleótido permanece na célula, está dependente do tipo de construção de expressão empregue.

Noutra forma de realização da invenção, um polinucleótido é administrado/distribuído como ADN "livre", por exemplo, como descrito em Ulmer et al., Science 259:1745-1749, 1993 e revisto por Cohen, Science 259:1691-1692, 1993. A absorção de ADN livre pode ser aumentada pelo revestimento do ADN sobre esferas biodegradáveis, as quais são eficientemente transportadas para o interior das células.

Ainda noutra forma de realização, uma composição pode ser distribuída por meio de uma abordagem de bombardeamento de partícula, muitas das quais foram descritas. Num exemplo ilustrativo, a aceleração de partículas impulsionada por gás pode ser alcançada com dispositivos, tal como os preparados pela Powderject Pharmaceuticals PLC (Oxford, RU) e Powderject Vaccines Inc. (Madison, WI), dos quais alguns exemplos são descritos nas Patentes U.S. N° 5846796; 6010478; 5865796; 5584807; e Patente EP N° 0500799. Esta abordagem oferece uma abordagem de distribuição isenta de agulha, em que uma formulação de pó seco de partículas microscópicas, tais como partículas polinucleotídicas ou polipeptídicas, é acelerada a velocidade elevada num pulverizador de gás de hélio, produzido por um dispositivo de comando manual, propulsionando as partículas para um tecido alvo de interesse. 34

Numa forma de realização relacionada, outros dispositivos e métodos que podem ser úteis para injecção, sem agulha, impulsionada por gás, de composições da presente divulgação incluem os proporcionados pela Bioject, Inc. (Portland, OR), dos quais alguns exemplos são descritos nas Patentes U.S. N° 4790824; 5064413; 5312335; 5383851; 5399163; 5520639 e 5993412.

Os polipéptidos podem ser recuperados e purificados a partir de culturas celulares recombinantes por métodos bem conhecidos, incluindo precipitação por sulfato de amónio ou etanol, extracção ácida, cromatografia de permuta aniónica ou catiónica, cromatografia de fosfocelulose, cromatografia de interacção hidrófoba, cromatografia de afinidade, cromatografia de hidroxilapat ite e cromatograf ia de lectina. De um modo muito preferido, é empregue cromatografia de afinidade de ião metálico (IMAC) para purificação. Podem ser empregues técnicas bem conhecidas para o re-enrolamento de proteínas, para regenerar a conformação activa, quando o polipeptídeo é desnaturado durante a síntese intracelular, isolamento e/ou purificação.

Esta invenção também se refere à utilização dos polinucleótidos, na forma de iniciadores derivados dos polinucleótidos da presente divulgação, e de polipéptidos, na forma de anticorpos ou reagentes específicos para o polipéptido da presente invenção, como reagentes de diagnóstico. A identificação de marcadores genéticos ou bioquímicos no sangue ou tecidos que possibilitarão a detecção de alterações muito precoces ao longo da via de carcinogénese irá auxiliar a determinar o melhor tratamento para o doente. Marcadores tumorais substitutos, tal como expressão polinucleotídica, podem ser utilizados para diagnosticar diferentes formas e estados de 35 cancro. A identificação de niveis de expressão dos polinucleótidos da divulgação será útil na determinação do estádio do distúrbio canceroso e na graduação da natureza do tecido canceroso. 0 processo de determinação de estádio monitoriza o avanço do cancro e é determinado na presença ou ausência de tecido maligno nas áreas biopsiadas. Os polinucleótidos da invenção pode auxiliar a aperfeiçoar o processo de determinação de estádio, pela identificação de marcadores para a agressividade de um cancro, por exemplo, a presença em diferentes áreas do corpo. A graduação do cancro descreve quão aproximadamente um tumor se assemelha a tecido normal do seu mesmo tipo e é avaliada pela sua morfologia celular e outros marcadores de diferenciação. Os polinucleótidos da invenção podem ser úteis na determinação do grau do tumor, uma vez que podem auxiliar na determinação do estado de diferenciação das células de um tumor.

Os ensaios de diagnóstico oferecem um processo para o diagnóstico ou determinação de uma susceptibilidade a cancros, doença auto-imune e estados relacionados, através de diagnóstico por métodos compreendendo a determinação, a partir de uma amostra derivada de um indivíduo, de um nível anormalmente diminuído ou aumentado de polipéptido ou ARNm. Este método de diagnóstico é conhecido por expressão diferencial. A expressão de um gene particular é comparada entre um tecido doente e um tecido normal. Uma diferença entre o gene relacionado com polinucleótido, ARNm ou proteína nos dois tecidos é comparada, por exemplo, em peso molecular, sequência de aminoácidos ou nucleotídica, ou abundância relativa, indica uma alteração no gene, ou um gene que a regula, no tecido do humano que se suspeitava estar doente. 36 A expressão diminuída ou aumentada pode ser medida ao nível de ARN. ARN poliA é, em primeiro lugar, isolado dos dois tecidos e a detecção de ARNm, codificado por um gene correspondendo a um polinucleótido expresso de modo diferencial da invenção, pode ser detectada, por exemplo, por hibridação in situ em secções de tecido, PCR de transcriptase reversa, utilizando transferências de Northern contendo ARNm poli A+ ou gualquer outro método de detecção de ARN directo ou indirecto. Uma expressão aumentada ou diminuída de um determinado ARN num tecido doente, em comparação com um tecido normal, sugere que o transcrito e/ou a proteína expressa tem uma função na doença. Deste modo, a detecção de um nível superior ou inferior de ARNm correspondendo a SEQ ID N°: 1, em relação a nível normal, é indicativa da presença de cancro no doente.

Os níveis de expressão de ARNm numa amostra podem ser determinados por geração de uma biblioteca de marcadores de sequência expressa (EST) a partir da amostra. A representação relativa de EST na biblioteca pode ser utilizada para avaliar a representação relativa do transcrito génico na amostra de partida. A análise EST do teste pode ser, depois, comparada com a análise EST de uma amostra de referência, para determinar os níveis de expressão relativa do polinucleótido de interesse.

Podem ser efectuadas outras análises de ARNm utilizando análise em série de metodologia de expressão génica (SAGE) (Velculescu et al. Science (1995) 270:484), metodologia de apresentação diferencial (Por exemplo, documento US 5776683) ou análise de hibridação que depende da especificidade de interacções nucleotídicas. 37

Alternativamente, a comparação poderia ser efectuada ao nível da proteína. Os tamanhos de proteína nos dois tecidos podem ser comparados utilizando anticorpos para detectar polipéptidos em transferências de Western de extractos de proteína a partir dos dois tecidos. Os níveis de expressão e localização subcelular também podem ser detectados imunologicamente, utilizando anticorpos para a proteína correspondente. As técnicas de ensaio adicionais que podem ser utilizadas para determinar níveis de uma proteína, tal como um polipéptido da presente invenção, numa amostra derivada de um hospedeiro, são bem conhecidas dos especialistas na técnica. Um nível elevado ou diminuído de expressão polipeptídica no tecido doente, comparado com o mesmo nível de expressão de proteína no tecido normal, indica que a proteína expressa pode estar envolvida na doença.

Nos ensaios da presente invenção, o diagnóstico pode ser determinado por detecção de níveis de expressão de produto génico codificado por, pelo menos, uma sequência mostrada na SEQ ID N° : 1. Uma comparação dos níveis de ARNm ou proteína num tecido doente versus normal também pode ser utilizada para seguir a progressão ou remissão de uma doença.

Um grande número de sequências polinucleotídicas numa amostra pode ser ensaiado utilizando matrizes de polinucleotídicas. Estas podem ser utilizadas para examinar a expressão diferencial de genes e para determinar a função génica. Por exemplo, as matrizes das sequências polinucleotídicas da SEQ ID N°: 1 podem ser utilizadas para determinar se quaisquer dos polinucleótidos são expressos de modo diferencial entre uma célula normal e cancerosa. Numa forma de realização da invenção, uma matriz de sondas 38 oligonucleotídicas compreendendo a sequência nucleotídica SEQ ID N°: 1 ou os seus fragmentos, pode ser construída para conduzir o rastreio eficiente de, e. g., mutações genéticas. Os métodos de tecnologia de matriz são bem conhecidos e têm aplicabilidade geral e podem ser utilizados para abordar uma variedade de questões em genética molecular, incluindo expressão génica, ligação genética e variabilidade genética (ver, por exemplo: M. Chee et al., Science, Vol. 274, p. 610-613 (1996)). "Diagnóstico", como aqui utilizado, inclui determinação da susceptibilidade de um indivíduo a uma doença, determinação sobre se um indivíduo presentemente tem a doença e também o prognóstico de um indivíduo afectado pela doença. A presente invenção, refere-se, ainda, a um kit de diagnóstico para a realização de um ensaio de diagnóstico que compreende: (a) um polinucleótido da presente invenção, de um modo preferido a sequência nucleotídica da SEQ ID N°: 1, ou um seu fragmento; (b) uma sequência nucleotídica complementar à (a), de um modo preferido, da sequência nucleotídica da SEQ ID N°: 6; (c) um polipéptido da presente invenção, de um modo preferido o polipéptido da SEQ ID N°: 2 ou 3, ou um seu fragmento; ou (d) um anticorpo para um polipéptido da presente invenção, de um modo preferido para o polipéptido da SEQ ID N°: 2 ou 3 .

As sequências nucleotídicas aqui descritas também são valiosas para a localização cromossómica. A sequência é 39 uma especificamente direccionada e pode hibridar-se com localização particular num cromossoma humano individual. 0 mapeamento de sequências relevantes em cromossomas é uma importante primeira etapa na correlação das sequências com doença associada a gene. Depois de uma sequência ter sido mapeada numa localização cromossómica precisa, a posição fisica da sequência no cromossoma pode ser correlacionada com dados de mapa genético. Tais dados verificam-se, por exemplo, em V. McKusick, Mendelian Inheritance in Man (disponível na Internet através da Johns Hopkins University Welch Medicai Library). A relação entre genes e doenças que foram mapeadas na mesma região cromossómica é, depois, identificada através de análise de ligação (co-herança de genes fisicamente adjacentes).As diferenças na sequência de ADNc ou genómica, entre indivíduos afectados e não afectados, também podem ser determinadas.

Os polipéptidos aqui descritos, ou os seus fragmentos ou os seus análogos, ou células expressando-os, também podem ser utilizados como imunogénios para produzir anticorpos imunoespecíficos para polipéptidos aqui descritos. 0 termo "imunoespecífico" significa que os anticorpos têm substancialmente maior afinidade para os polipéptidos aqui descritos, do que a sua afinidade para outros polipéptidos relacionados na técnica anterior.

Num aspecto adicional, é descrito um anticorpo imunoespecífico para um polipéptido de acordo com a invenção, ou um seu fragmento imunológico, como aqui acima definido. De um modo preferido, o anticorpo é um anticorpo monoclonal.

Os anticorpos produzidos contra polipéptidos, aqui descritos, podem ser obtidos pela administração dos polipéptidos 40 ou fragmentos contendo epitopos, análogos ou células a um animal, de um modo preferido, um animal não humano, utilizando protocolos de rotina. Para preparação de anticorpos monoclonais, pode ser utilizada qualquer técnica que proporcione anticorpos produzidos por culturas de linhas celulares contínuas. Exemplos incluem a técnica de hibridoma (Kohler, G. e Milstein, C., Nature (1975) 256:495-497), a técnica de trioma, a técnica de hibridoma de célula B humana (Kozbor et al., Immunology Today (1983) 4:72) e a técnica de hibridoma EBV (Cole et ai.,

Monoclonal Antibodies and Câncer Therapy, 77-96, Alan R. Liss, Inc. , 19 85). Técnicas para a produção de anticorpos de cadeia simples, tal como as descritas na Patente U.S. N° 4946778, também podem ser adaptadas para produzir anticorpos de cadeia simples para polipéptidos aqui descritos. Murganhos transgénicos ou outros organismos, incluindo outros mamíferos, também podem ser utilizados para expressar anticorpos humanizados.

Os anticorpos descritos acima podem ser empregues para isolar ou para identificar clones expressando o polipéptido, ou para purificar os polipéptidos, por cromatografia de afinidade. 0 anticorpo aqui descrito também pode ser empregue para prevenir ou tratar o cancro, particularmente cancro colorrectal, doença auto-imune e estados relacionados. "Isolado" significa alterado "pela mão do homem" a partir do estado natural. Se uma composição ou substância "isolada" ocorre na natureza, a mesma foi alterada ou removida do seu ambiente original, ou ambas. Por exemplo, um polinucleótido ou um polipéptido naturalmente presente num animal vivo não está 41 "isolado", mas o mesmo polinucleótido ou polipéptido separado dos materiais coexistentes do seu estado natural está "isolado", tal como o termo é aqui empregue. "Polinucleótido" refere-se, em geral, a qualquer polirribonucleótido ou polidesoxirribonucleótido, que pode ser ARN ou ADN não modificado ou ARN ou ADN modificado, incluindo regiões de cadeia simples e dupla. "Variante" refere-se a um polinucleótido ou polipéptido que difere de um polinucleótido ou polipéptido de referência, mas retém propriedades essenciais. Um variante típico de um polinucleótido difere na sequência nucleotídica de outro polinucleótido de referência. Alterações na sequência nucleotídica do variante podem ou não alterar a sequência de aminoácidos de um polipéptido codificado pelo polinucleótido de referência. Alterações nucleotídicas podem resultar em substituições de aminoácidos, adições, deleções, fusões e truncamentos no polipéptido codificado pela sequência de referência, como discutido abaixo. Um variante típico de um polipéptido difere na sequência de aminoácidos de outro polipéptido de referência. Em geral, as diferenças são limitadas, de modo que as sequências do polipéptido de referência e do variante são, globalmente, estreitamente semelhantes e, em muitas regiões , idênticas. Um variante e polipéptido de referência podem diferir na sequência de aminoácidos em uma ou mais substituições, adições, deleções em qualquer combinação. Um resíduo de aminoácido substituído ou inserido pode ou não ser um resíduo de aminoácido codificado pelo código genético. Um variante de um polinucleótido ou polipéptido pode ser de ocorrência natural, tal como um variante alélico ou o mesmo pode ser um variante que não se sabe que 42 ocorre naturalmente. Variantes de ocorrência não natural de polinucleótidos e polipéptidos podem ser preparados por técnicas de mutagénese ou por síntese directa. "Identidade", como é conhecido na técnica, é uma relação entre duas ou mais sequências polipeptídicas ou duas ou mais sequências polinucleotídicas, como determinado pela comparação das sequências. Na técnica, "identidade" também significa o grau de parentesco de sequência entre sequências polipeptídicas ou polinucleotídicas, consoante o caso, como determinado pela correspondência entre segmentos de tais sequências. "Identidade" e "semelhança" podem ser facilmente calculadas por métodos conhecidos, incluindo mas não limitados aos descritos em (Computational Molecular Biology, Lesk, A. M., ed., Oxford University Press, Nova Iorque, 1988; Biocomputlng: Informatics and Genome Projects, Smith, D. W., ed., Academic Press, Nova Iorque, 1993; Computer Analysis of Sequence Data, Part I,

Griffin, A.M. e Griffin, H. G., eds., Humana Press, New Jersey, 1994; Sequence Analysis in Molecular Biology, von Heinje, G.,

Academic Press, 1987; e Sequence Analysis Primer, Gribskov, M. e Devereux, J., eds., M Stockton Press, Nova Iorque, 1991; e Carillo, H., e Lipman, D., SIAM J. Applied Math., 48 : 1073 (1988). Os métodos preferidos para determinar a identidade são concebidos para proporcionarem a maior correspondência entre as sequências testadas. Os métodos para determinar a identidade e semelhança são codificados em programas informáticos publicamente disponíveis. Métodos de programas informáticos preferidos para determinar a identidade e semelhança entre duas sequências incluem mas não estão limitados ao pacote do programa GCG (Devereux, J., et al., Nucleic Acids Research 12(1): 387 (1984)), BLASTP, BLASTN e FASTA (Atschul, S. F. et al., J. Molec. Biol. 215: 403-410 (1990). O programa BLAST X está 43 publicamente disponível a partir da NCBI e outras fontes (BLAST Manual, Altschul, S., et al., NCBI NLM NIH Bethesda, MD 20894; Altschul, S., et al., J. Mol. Biol. 215: 403-410 (1990). O bem conhecido algoritmo de Smith-Waterman também pode ser utilizado para determinar a identidade. O algoritmo preferido utilizado é FASTA. Os parâmetros preferidos para comparação de sequências polipeptídicas ou polinucleotídicas utilizando este algoritmo incluem os seguintes:

Penalidade de Lacuna: 12 Penalidade de extensão de lacuna: 4 Tamanho de palavra: 2, máx. 6

Parâmetros preferidos para comparação de sequências polipeptídicas com outros métodos incluem os seguintes: 1) Algoritmo: Needleman e Wunsch, J. Mol Biol. 48: 443-453 (1970)

Matriz de comparação: BLOSSUM62 de Hentikoff e Hentikoff, Proc. Natl. Acad. Sei. USA. 89:10915-10919 (1992)

Penalidade de Lacuna: 12

Penalidade de Comprimento de Lacuna: 4

Um programa útil com estes parâmetros está publicamente disponível como o programa "gap" do Genetics Computer Group, Madison WI. Os parâmetros acima mencionados são os parâmetros predefinidos para comparações polipeptídicas (juntamente com nenhuma penalidade para lacunas de extremidade). 44

Parâmetros preferidos para comparação polinucleotídica incluem os seguintes: 1) Algoritmo: Needleman e Wunsch, J. Mol Biol. 48: 443-453 (1970)

Matriz de comparação: correspondências = +10, não correspondências = 0

Penalidade de Lacuna: 50

Penalidade de Comprimento de Lacuna: 3

Um programa útil com estes parâmetros está publicamente disponível como o programa "gap" do Genetics Computer Group, Madison WI. Os parâmetros acima mencionados são os parâmetros predefinidos para comparações polinucleotidicas. A titulo exemplificativo, uma sequência polinucleotídica pode ser idêntica à sequência de referência da SEQ ID N°: 1, isto é, ser 100% idêntica, ou pode incluir até um determinado número inteiro de alterações nucleotidicas, em comparação com a sequência de referência. Tais alterações são seleccionadas do grupo consistindo em, pelo menos, uma deleção, substituição, incluindo transição e transversão, ou inserção nucleotidicas e em que as referidas alterações podem ocorrer nas posições 5' ou 3' terminais da sequência nucleotidica de referência, ou em qualquer lugar entre aquelas posições terminais, interdispersas individualmente entre os nucleótidos na sequência de referência ou em um ou mais grupos contíguos dentro da sequência de referência. O número de alterações nucleotidicas é determinado pela multiplicação do número total de nucleótidos em SEQ ID N°: 1 pela percentagem numérica da respectiva percentagem de identidade (dividida por 100) e subtracção desse produto do referido número total de nucleótidos na SEQ ID N°: 1, ou: 45 ηη£χη-(Χη·Υ). em que nn é o número de alterações nucleotídicas, xn é o número total de nucleótidos em SEQ ID N°: 1 e y é, por exemplo, 0,70 para 70%, 0,80 para 80%, 0,85 para 85%, 0 , 90 para 90%, 0,95 para 95%, etc., e em que qualquer produto de número não inteiro de xn e y é arredondado para o número inteiro mais próximo, antes de o subtrair de xn. Alterações de uma sequência polinucleotídica codificando o polipéptido da SEQ ID N°: 2 podem criar mutações sem sentido, sentido incorrecto ou de deslocação de fase nesta sequência codificante e, desse modo, alterar o polipéptido codificado pelo polinucleótido após tais alterações.

De um modo semelhante, uma sequência polipeptídica pode ser idêntica à sequência de referência da SEQ ID N°: 2, isto é, ser 100% idêntica ou pode incluir até um determinado número inteiro de alterações de aminoácidos, em comparação com a sequência de referência, de modo a que a % de identidade seja inferior a 100%. Tais alterações são seleccionadas do grupo consistindo em, pelo menos, uma deleção, substituição, incluindo substituição conservativa e não conservativa, ou inserção de aminoácidos e em que as referidas alterações podem ocorrer nas posições aminoterminais ou carboxiterminais da sequência polipeptídica de referência, ou em qualquer lugar entre aquelas posições terminais, interdispersas individualmente entre os aminoácidos na sequência de referência, ou em um ou mais grupos contíguos dentro da sequência de referência. O número de alterações de aminoácidos para uma determinada % de identidade é determinado pela multiplicação do número total de aminoácidos na SEQ ID N°: 2 pela percentagem numérica da respectiva percentagem de identidade (dividida por 100) e, depois, subtracção desse 46 produto do referido número total de aminoácidos na SEQ ID N°: 2, ou: na<xa * (Xa · y), em que na é o número de alterações de aminoácidos, xa é o número total de aminoácidos na SEQ ID N°: 2 e y é, por exemplo, 0,70 para 70%, 0,80 para 80%, 0,85 para 85% , etc., e em que qualquer produto de número não inteiro de Xa e y é arredondado para o número inteiro mais próximo, antes de o subtrair de xa. "Homólogo" é um termo genérico utilizado na técnica para indicar uma sequência polinucleotídica ou polipeptídica, possuindo um elevado grau de parentesco de sequência com uma sequência submetida. Tal parentesco pode ser quantificado pela determinação do grau de identidade e/ou semelhança entre as sequências sendo comparadas, como aqui descrito acima. Estão abrangidos por este termo genérico os termos "ortólogo", significando um polinucleótido ou polipéptido que é o equivalente funcional de um polinucleótido ou polipéptido em outra espécie e "parálogo", significando uma sequência funcionalmente semelhante quando considerada dentro da mesma espécie.

LEGENDAS DAS FIGURAS

Figura 1: mostra dados de PCR em tempo real utilizando a sonda Taqman. A legenda é como se segue: Glândula supra-renal: Ad_Gl; Bexiga: Bl; Medula óssea: Bo_Ma; Colo uterino: Ce; Cólon: Co; Trompa de Falópio: Fa_Tu; íleo: II; Fígado: Li; Pulmão: Lu; Nódulo linfático: Ly_No; Esófago: Oe; Glândula paratiróide: Pa_Thy; Placenta: Pl; Próstata: Pr; Recto: Re; Pele: Sk; Músculo esquelético: Sk_Mu; Intestino delgado: Sm_In; Baço: Sp; Testículo: Te; Glândula tiróide: Thy; Traqueia: Tr. A Figura 2 mostra expressão de PCR em tempo real utilizando o protocolo Sybr. A legenda é como se segue: Glândula supra-renal: Ad_Gl; Bexiga: Bl; Medula óssea: Bo_Ma; Colo uterino: Ce; Cólon: Co; Nódulo linfático: Ly_No; Esófago: Oe; Glândula paratiróide: Pa_Thy; Placenta: Pl; Próstata: Pr; Recto: Re; Pele: Sk; Músculo esquelético: Sk_Mu; Intestino delgado: Sm_In; Baço: Sp; Testículo: Te; Glândula tiróide: Thy; Traqueia: Tr; Coração: He. A Figura 3 mostra PAGE de SDS, corado com azul de Coomassie, do extracto celular da estirpe expressando CASB7439. A pista 1 mostra os marcadores moleculares, pista 2 o extracto celular induzido, 5 h, a 39 °C; pista 3 mostra o sobrenadante de extracto celular induzido; e pista 4 mostra o sedimento de extracto celular induzido. A Figura 4 mostra uma análise de transferência de Western de proteína expressa NS1-CASB7439. 0 gel é carregado com o extracto celular da estirpe expressando CASB7439 e revelado com anticorpo monoclonal anti-NSl. A Figura 5 mostra um SDS-PAGE corado com Azul de Coomassie de CASB7 43 9 após purificação. As pistas 1 e 5 representam os marcadores de peso molecular; pistas 2, 3, 4 são, respectivamente, carregadas com 2 pL, 4 pL e 6 pL de proteína purificada. 48 A Figura 6 mostra uma transferência de Western de CASB7439 após purificação, como revelado por um anticorpo monoclonal anti-poli-histidina.

Exemplos

Exemplo 1

Análise de RT-PCR em tempo real 0 RT-PCR em tempo real (U. Gibson. 1996. Genome Research: 6996) é utilizado para comparar a abundância de transcrito de ARNm do antigénio candidato em tecidos de cólon tumorais e normais emparelhados a partir de múltiplos doentes. Além disso, também são avaliados por esta abordagem os níveis de ARNm do gene candidato num painel de tecidos normais. ARN total de cólon normal e tumoral é extraído de biopsias imediatamente congeladas, utilizando o reagente TriPure (Boehringer). ARN total de tecidos normais é adquirido à In InVitrogen ou é extraído de biopsias imediatamente congeladas, utilizando o reagente TriPure. ARNm poli-A+ é purificado de ARN total, após tratamento de ADNase, utilizando esferas magnéticas oligo-dT (Dynal). A quantificação do ARNm é realizada por espectrofluorimetria (VersaFluor, BioRad) utilizando corante SybrII (Molecular Probes). Os iniciadores para amplificação por PCR em tempo real são concebidos com o software Primer Express da Perkin-Elmer, utilizando opções predefinidas para condições de amplificação TaqMan. 49

As reacções de tempo real são agrupadas de acordo com protocolos de PCR padrão, utilizando 2 ng de ARNm purificado para cada reacção. 0 corante SybrI (Molecular Probes) é adicionado, a uma diluição final de 1/75000, para detecção em tempo real. A amplificação (40 ciclos) e detecção em tempo real são realizadas num sistema Biosystems PE7700 da Perkin-Elmer, utilizando regulações de instrumento convencionais. Os valores Ct são calculados utilizando o software PE7700 Sequence Detector. São obtidos vários valores Ct para cada amostra: para as amostras de doente, os valores de Ct tumoral (CtT) e do Ct de cólon normal (CtN) emparelhado no TAA candidato e para o painel de amostras de tecido normal, um CtXY para cada XY de tecido normal. Um outro Ct (CtA) também é calculado no gene de Actina, como uma referência interna, para a totalidade das amostras. Alternativamente, a amplificação por PCR em tempo real pode ser monitorizada utilizando uma sonda Taqman. A amplificação (40 ciclos) e detecção em tempo real são realizadas num sistema Biosystems PE7700 da Perkin-Elmer, utilizando regulações de instrumento convencionais. Os valores Ct são calculados utilizando o software PE7700 Sequence Detector. Os valores Ct são obtidos de cada amostra de tecido para o ARNm alvo (CtX) e para o ARNm de actina (CtA).

Como a eficiência de amplificação por PCR sob as condições experimentais prevalecentes é próxima da eficiência de amplificação teórica, o valor 2 (CtN/T/XY-ctA) é uma estimativa do nível relativo de transcrito TAA da amostra, padronizado com respeito ao nível de transcrito de Actina. Um valor de 1 sugere, deste modo, que o antigénio candidato e a Actina têm o mesmo nível de expressão. 50

As reacções de PCR em tempo real foram, em primeiro lugar, realizadas em tumor do cólon e cólon normal emparelhado, a partir de biopsias de 12 doentes. As reacções foram, depois, realizadas num conjunto de dados mais completo, totalizando 18 doentes (são incluídos neste conjunto de dados os primeiros 12 doentes). Neste conjunto de dados foram realizados duplicados para 6 destes 18 doentes. Foram testados seis doentes adicionais e os resultados foram agregados com os 18 anteriores. A estatística ao agregado final é mostrada na Tabela 3 e ilustrada na Figura 1.

Também foi testada uma série de 48 amostras de tecido normal, representando 29 tecidos diferentes, pelo mesmo processo (tecidos normais analisados são proporcionados na Tabela 3). Os níveis de transcrito TAA são calculados com descrito acima. A proporção de doentes superexpressando o antigénio candidato, assim como a superexpressão média de transcrito versus tecidos normais, também é calculada a partir deste conjunto de dados. Os resultados são ilustrados na Figura 1.

Tabela 1: Resultados de expressão de PCR em tempo real de CASB7439: conjunto de dados de 12 doentes. % de doentes com um nivel de ARNm superior em tumor do cólon emparelhado (doentes positivos) 92% % de doentes com um nivel de ARNm, pelo menos, 3 vezes superior em tumor do cólon emparelhado 92% % de doentes com um nivel de ARNm, pelo menos, 10 vezes superior em tumor do cólon emparelhado 92% 51 (continuação) % de doentes com um nível de ARNm, pelo menos, 3 vezes inferior em tumor do cólon emparelhado. 8% Nível médio de ARNm de cólon normal emparelhado (padronizado com Actina) 0,0026 Nível médio de ARNm de tumor do cólon emparelhado em doentes positivos (padronizado com Actina) 0,265 Factor médio de superexpressão de ARNm 2028 Factor mediano de superexpressão de ARNm 115 Nível médio de ARNm em tecidos normais 0,0079 Nível mediano de ARNm em tecidos normais 0,0016 Nível médio de ARNm em tecidos normais 0,0064 Nível mediano de ARNm em tecidos normais 0,0017 % de doentes com um nível de ARN mais elevado do que tecidos normais médios 92% % de doentes com um nível de ARN 10 vezes mais elevado do que a média de tecidos normais 75% Nível de ARNm de tecidos não dispensáveis normais mais elevado do que a mediana de tecido normal Nenhum

Tabela 2: Resultados de expressão de PCR em tempo real de CASB7439: conjunto de dados de 18 doentes. % de doentes com um nível de ARNm superior em tumor do cólon emparelhado (doentes positivos) 89% % de doentes com um nível de ARNm, pelo menos, 3 vezes superior em tumor do cólon emparelhado 89% 52 (continuação) % de doentes com um nível de ARNm, pelo menos, 10 vezes superior em tumor do cólon emparelhado 78% % de doentes com um nível de ARNm, pelo menos, 3 vezes inferior em tumor do cólon emparelhado. 5% Nível médio de ARNm em cólon normal emparelhado (padronizado com Actina) 0,005 Nível médio de ARNm de tumor do cólon emparelhado em doentes positivos (padronizado com Actina) 0,152 Factor médio de superexpressão de ARNm 1100 Factor mediano de superexpressão de ARNm 60 Nível médio de ARNm em tecidos normais 0,0065 Nível mediano de ARNm em tecidos normais 0,0015 Nível médio de ARNm em tecidos normais 0,005 Nível mediano de ARNm em tecidos normais 0,0015 % de doentes com um nível de ARN mais elevado do que a mediana de tecidos normais 94% % de doentes com um nível de ARN 10 vezes mais elevado do que a mediana de tecidos normais 94% Nível de ARNm de tecidos não dispensáveis normais mais elevado do que a mediana de tecido normal Nenhum 53

Tabela 3: Resultados de expressão de PCR em tempo real de CASB7439: conjunto de dados de 24 doentes. % de doentes com um nivel de transcrito CASB7439 mais elevado em tumor do cólon do que em cólon normal adjacente (doentes positivos) 92% % de doentes positivos com um nivel de transcrito CASB7439, pelo menos, 10 vezes mais elevado em tumor do cólon do que em cólon normal adjacente 75% Factor médio de superexpressão de transcrito em tumores de doentes positivos 1289 % de doentes com um nivel de transcrito CASB7439 mais elevado em tumor do cólon do que a média de tecido normal 96% % de doentes com um nivel de ARNm, pelo menos, 10 vezes mais elevado em tumor do cólon do que a média de tecido normal 62,5% Tecidos normais onde a expressão de transcrito CASB7439 é equivalente ao nivel de transcrito tumoral em tumores nenhum

As reacções de PCR em tempo real também foram realizadas utilizando o protocolo Taqman (como descrito acima) em tumor do cólon e cólon normal adjacente, a partir de biopsias de 6 doentes. Foram retiradas três medidas em replicado para cada e a média foi utilizada para cálculos adicionais. Os resultados são mostrados na Figura 1. Além disso, 36 amostras de tecido normal, representando 28 tecidos diferentes (ver a Tabela 5) , também foram testadas pelo mesmo processo. Os resultados são mostrados na Figura 2. 54

Tabela 4: Resultados de expressão de PCR em tempo real de CASB7439 utilizando sonda Taqman Número de amostras tumorais de diferentes doentes 6 % de doentes com um nível de transcrito CASB7439 mais elevado em tumor do cólon do que em cólon normal adjacente (doentes positivos) 100% % de doentes positivos com um nível de transcrito CASB7439, pelo menos, 10 vezes mais elevado em tumor do cólon do que em cólon normal adjacente 83% Factor médio de superexpressão de transcrito em tumores de doentes positivos 109 % de doentes com um nível de transcrito CASB7439 mais elevado em tumor do cólon do que a média de tecido normal 100% % de doentes com um nível de ARNm, pelo menos, 10 vezes mais elevado em tumor do cólon do que a média de tecido normal 100% Tecidos normais onde a expressão de transcrito CASB7439 é equivalente ao nível de transcrito tumoral em tumores nenhum

Os resultados claramente sugerem que o transcrito CASB7439é superexpresso em tumores colorrectais, em comparação com cólon normal adjacente e com a totalidade dos tecidos normais mencionados acima. Mais de 90% dos doentes fortemente superexpressa transcrito CASB7439 em tumor, em comparação com cólon normal adjacente. O factor médio de superexpressão nos tumores é, pelo menos, de 100. Além disso, mais de 90% dos 55 CASB7439 em tumores tecidos normais, mais de a, pelo menos, 10 vezes. transcrito doentes superexpressa o colorrectais, em comparação com outros 60% dos mesmos superexpressando o mesmo

Tabela 5: listagem de tecidos normais utilizados para análise de expressão de transcrito CASB74390.

Tecido Abreviatura Glândula supra-renal Ad-Gl Aorta Ao Bexiga BI Medula óssea Bo_Ma Cérebro Bra Colo uterino Ce Cólon Co Trompa de Falópio Fa_Tu Coração He íleo 11 Rim Ki Figado Li Pulmão Lu Nódulo linfático Ly_No Esófago Oe Glândula paratiróide Pa_Thy Recto Re Pele Sk Músculo esquelético Sk_Mu 56 (continuação)

Tecido Abreviatura Intestino delgado Sm_In Baço Sp Estômago St Glândula tiróide Thy Traqueia Tra Ovário Ov Placenta PI Próstata Pr Testículo Te

Exemplo 2

Rastreio diferencial de matrizes de ADNc. A identificação de genes associados a tumor na biblioteca de ADNc subtraída é alcançada por rastreio diferencial. ADN bacteriano total é extraído de culturas de 100 pL, de um dia para o outro. As bactérias são lisadas com isotiocianato de guanidínio e o ADN bacteriano é purificado por afinidade, utilizando vidro magnético (Boehringer). Os insertos plasmídicos são recuperados do ADN bacteriano por amplificação por PCR Advantage (Clontech) . Os produtos de PCR são colocados sobre duas membranas de nylon, para produzir matrizes de ADNc de elevada densidade, utilizando a ferramenta Biomek 96 HDRT (Beekman). O ADNc doseado pontualmente é covalentemente ligado à membrana por irradiação UV. A primeira membrana é hibridada com 57 uma sonda de ADNc mista, preparada a partir do tumor de um único doente. A segunda membrana é hibridada com uma quantidade equivalente de sonda de ADNc mista, preparada a partir de cólon normal do mesmo doente. 0 ADNc de sonda é preparado por amplificação por PCR, como descrito acima e é marcado utilizando o sistema AlkPhos Direct (Amersham). As condições de hibridação e lavagens de estringência são como descrito no kitAlkPhos Direct. A sonda hibridada é detectada por quimioluminescência. As intensidades de hibridação para cada fragmento de ADNc em ambas as transferências são medidas por densitometria de filme ou medição directa (Fluor-S Max da BioRad). A razão de intensidades de hibridação de tumor para normais (T/N) é calculada para cada gene, para avaliar o grau de superexpressão no tumor. Genes que são significativamente superexpressos em tumores de cólon são seguidos. A significância é arbitrariamente definida como um desvio-padrão da distribuição de frequência de T/N. Experiências de rastreio diferencial são repetidas utilizando ARN de múltiplos dadores doentes (> 18), para estimar a frequência de tumores superexpressos na população de doentes. Além disso, as matrizes de ADN são hibridadas com sondas de ADNc mistas a partir de tecido normal que não cólon (ver a lista acima), para determinar o nível de expressão do gene candidato nestes tecidos.

Exemplo 3

Micromatrizes de ADN

As micromatrizes de ADN são utilizadas para examinar perfis de expressão de ARNm de grandes colecções de genes em múltiplas amostras. Esta informação é utilizada para complementar os dados 58 obtidos por PCR em tempo real e proporciona uma medida independente de níveis de expressão génica em tumores e tecidos normais.

Exemplos de tecnologias actuais para produção de micromatrizes de ADN incluem 1) As matrizes de "Chip Génico" Affymetrix, nas quais os oligonucleótidos são sintetizados sobre a superfície do chip por síntese química de fase sólida, utilizando um processo fotolitográfico 2) Tecnologia de doseamento pontual de ADN, na qual pequenos volumes de uma solução de ADN são roboticamente depositados e, depois, imobilizados sobre a superfície de uma fase sólida (e. g., vidro) . Em ambos os casos, os chips são hibridados com ADNc ou ARNc que foi extraído do tecido de interesse (e. g., tecido normal, tumor, etc.) e marcado com radioactividade ou com uma molécula repórter fluorescente. 0 material marcado é hibridado ao chip e a quantidade de sonda ligada a cada sequência no chip é determinada utilizando um leitor óptico especializado. A experiência pode ser configurada com um único repórter fluorescente (ou radioactividade) ou, alternativamente, pode ser realizada utilizando dois repórteres fluorescentes. Neste último caso, cada das duas amostras é marcada com uma das moléculas repórter. As duas amostras marcadas são, depois, hibridadas de um modo competitivo às sequências no chip de ADN. A razão dos dois sinais fluorescentes é determinada para cada sequência no chip. Esta razão é utilizada para calcular a abundância relativa do transcrito nas duas amostras. Protocolos detalhados estão disponíveis a partir de um determinado número de fontes, incluindo "DNA Microarrays: A practical approach. Schena M. Oxford University Press 1999" e a Internet (http://cmgm.stanford.edu/pbrown/protocols/index.html), 59 http://arrayit.com/DNA-Microarray-Protocols/) e distribuidores especializados (e. g., Affymetrix).

Exemplo 5

Análise de transferência de Northern-Southern

Quantidades limitadas de ADNc de tumor misto e de cólon normal emparelhado são amplificadas por PCR Advantage (ver acima). 0 ARN mensageiro de múltiplos tecidos normais também é amplificado utilizando o mesmo processo. 0 ADNc amplificado (1 pg) é submetido a electroforese num gel de agarose a 1,2% e transferido para uma membrana de nylon. A membrana é hibridada (AlkPhos Direct System) com uma sonda preparada utilizando um fragmento do ADNc de TAA candidato. A análise de Northern-Southern proporciona informação sobre o tamanho de transcrito, presença de variantes de excisão e abundância de transcrito em tecidos tumorais e normais.

Exemplo 6

Análise de transferência de Northern

As transferências de Northern são produzidas de acordo com protocolos padrão utilizando 1 pg de ARNm poli A+. As sondas radioactivas são preparadas utilizando o sistema Ready-to-Go (Pharmacia). 60

Exemplo 7

Identificação experimental da sequência de ADNc de comprimento completo São construídas bibliotecas de ADNc de tumor do cólon utilizando o sistema Lambda Zap II (Stratagene), a partir de 5 yg de ARNm poliA+. É seguido o protocolo fornecido, excepto que se utiliza SuperscriptII (Life Technologies) para a etapa de transcrição reversa. São construídas bibliotecas iniciadas com oligo dT e iniciadas aleatoriamente. Para cada rastreio da biblioteca são plaqueados cerca de 1,5 x 106 fagos independentes. As placas de fago são transferidas para filtros de nylon e hibridadas utilizando uma sonda de ADNc marcada com AlkPhos Direct. Os fagos positivos são detectados por quimioluminescência. Os fagos positivos são excisados da placa de ágar, eluídos em 500 yL de tampão SM e confirmados por PCR específico de gene. Os fagos eluídos são convertidos em bacteriófago M13 de cadeia simples por excisão in vivo. O bacteriófago é, depois, convertido em ADN plasmídico de cadeia dupla por infecção de E. coli. Bactérias infectadas são plaqueadas e submetidas a uma segunda série de rastreio com a sonda de ADNc. O ADN plasmídico é purificado a partir de clones bacterianos positivos e sequenciado em ambas as cadeias.

Quando o gene de comprimento completo não pode ser obtido directamente a partir da biblioteca de ADNc, a sequência em falta é isolada utilizando a tecnologia RACE (kit Marathon, ClonTech.). Esta abordagem depende da transcrição reversa de ARNm em ADNc de cadeia dupla, ligação de adaptadores nas duas extremidades do ADNc e amplificação da extremidade desejada do ADNc, utilizando um iniciador específico de gene e um dos 61 oligonucleótidos adaptadores. Os produtos de PCR Marathon são clonados dentro de um plasmídeo (pCRII-TOPO, InVitrogen) e sequenciados. 0 polinucleótido da SEQ ID N°: 1 foi obtido utilizando este processo.

Exemplo 8.

Perfis EST

Uma abordagem complementar à caracterização da expressão tecidular de antigénio experimental é explorar a base de dados EST humana. EST (Marcadores de Sequência Expressas) são pequenos fragmentos de ADNc preparados a partir de uma recolha de ARNm, extraido de um tecido ou linha celular particular. Tal base de dados actualmente proporciona uma quantidade maciça de EST humanas (2 x 106) a partir de vários milhares de bibliotecas tecidulares de ADNc, incluindo tecidos tumorais de diversos tipos e estados de doença. Por meio de ferramentas informáticas (Blast), é realizada uma pesquisa de comparação da sequência CASB7439, para se ter um conhecimento adicional da expressão tecidular.

Distribuição EST de CASB7439: Número de Acesso de GenBank de EST Biblioteca tecidular de ADNc de EST C00634 Adulto humano (K. Okubo) AA468668 NCI_CGAP_Co3 62 (continuação) Número de Acesso de GenBank de Biblioteca tecidular de ADNc EST de EST A565752 NCI_CGAP_Coll AA565766 NCI_CGAP_Coll AA565767 NCI_CGAP_Coll AI337239 NCI_CGAP_Col6 AI337448 NCI_CGAP_Col8 AI393930 NCI_CGAP_CLL1 AI 4 736 73 N CI_CGAP_Co14 AI632444 NCI_CGAP_GC6 AI861937 N CI_CGAP_Co16 AI825214 NCI_CGAP_GC6 AW 0 8 0652 N CI_CGAP_Co19 AW 0 83 8 9 9 NCI_CGAP_Col 9 AW206058 NCI_CGAP_Sub3 AW237006 NCI_CGAP_GC6 AW364626 DT0036 AW 4 4 9612 NCI_CGAP_Sub5

Estas EST correspondem-se perfeitamente com CASB7439. A lista contém 9 EST de 4 diferentes bibliotecas de tumor do cólon, uma EST da biblioteca de cólon normal, 3 EST de uma biblioteca de célula germinativa tumoral, uma EST de uma biblioteca de células de leucemia linfocitica crónica, 2 EST de 2 bibliotecas de tumores mistos, 2 EST de bibliotecas de tipo desconhecido. Isto claramente sugere, como esperado, que 63 CASB7439 é superexpresso em tecidos tumorais, com uma ênfase em tecidos de tumor colorrectal, em comparação com tecidos normais.

Exemplo 9: 9.1 Expressão e purificação de antigénios específicos de tumor A expressão em hospedeiros microbianos ou, alternativamente, transcrição/tradução in vitro, é utilizada para produzir o antigénio da invenção, para efeitos vacinais e para produzir fragmentos de proteína ou proteína intacta, para rápida purificação e geração de anticorpos necessários para caracterização da proteína expressa, de um modo natural, por imuno-histoquímica ou para seguimento de purificação.

As proteínas recombinantes podem ser expressas em dois hospedeiros microbianos, E. coli e em levedura (tais como Saccharomyces cerevisiae ou Pichia pastoris). Estes permitem a selecção do sistema de expressão com as melhores características para a produção deste particular antigénio. Em geral, o antigénio recombinante será expresso em E. coli e a proteína reagente expressa em levedura. A estratégia de expressão envolve, em primeiro lugar, a concepção da estrutura primária do antigénio recombinante. Em geral, um parceiro de fusão de expressão (EFP) é colocado na extremidade N terminal, para melhorar níveis de expressão que também poderiam incluir uma região útil para modulação das propriedades imunogénicas do antigénio, um parceiro de fusão imunitário (IFP). Além disso, um parceiro de fusão de afinidade (AFP), útil para facilitar purificação adicional, é incluído na extremidade C-terminal.

Como mencionado acima, várias construções poderão sofrer avaliação comparativa:

Para rápida expressão e purificação, assim como produção de anticorpos contra CASB7439, é proposto produzir em E. Coli uma proteína CASB7439 de comprimento completo, com NS1 como EFP e a cauda de histidina como AFP.

Por conseguinte, são propostas duas construções:

Construção 1: ADNc de CASB7439 de tipo selvagem, de comprimento completo, em fusão com ADNc de NS1 como EFP e com uma cauda de histidina codificando ADNc como um AFP (SEQ ID N°: 8). A sequência da proteína de fusão codificada é SEQ ID N°: 10.

Construção 2: ADNc de CASB7439 mutado, de comprimento completo, em fusão com ADNc de NS1 como EFP e com uma cauda de histidina codificando ADNc como um AFP (SEQ ID N°: 9). É proposto, nesta construção, ter os primeiros 50 codões de ADNc de CASB7439 nativo substituídos por codões específicos da utilização de codão de E. coli, para melhorar o potencial de expressão de CASB7439 no seu hospedeiro E. coli. A sequência da proteína de fusão codificada é SEQ ID N°: 10. 65 A concepção da proteína CASB7439 é como mostrado abaixo: N terminal| NS1 t 80 CASB7439 1HIS C terminal 1 194 "NS1" é o fragmento N-terminal (80 aminoácidos) da proteína NS1 de Influenza. "HIS" é uma cauda de poli-histidina. A estirpe recombinante utilizada é AR58: um lisogénio λ críptico derivado de N99 que é gal E : : Tn 10, Δ-8(chlD-pgl), Δ-Hl(cro-chlA), N+ e cl857 (Proc. Natl. Acad. Sei. USA vol. 82, p. 88-92, Janeiro de 1985, Biochemistry) .

Quando as estirpes recombinantes estão disponíveis, o produto recombinante é caracterizado pela avaliação do nível de expressão e a previsão de solubilidade adicional da proteína por análise do comportamento no extracto em bruto.

Após crescimento em meio de cultura apropriado e indução da expressão da proteína recombinante, os extractos totais são analisados por SDS-PAGE. As proteínas recombinantes são visualizadas em géis corados e identificadas por análise de transferência de Western, utilizando anticorpos específicos. 66

Plasmídeo: nome: TCM 281 pRIT..15143 replicão: pMBl selecção: Kan

Promotor: PL longo inserto: NSl-C74-39-His

Expressão da proteína recombinante a partir da construção 1:

As bactérias foram cultivadas em meio LB + 50 pg/mL de Kan, a 30 °C. Quando a cultura alcançou OD = 0,5 (620 nm) , a cultura foi aquecida até 39 °C, após 5 horas de indução, as células foram recolhidas.

Preparaçao de extracto:

Concentração celular: Disrupção: Centrifugação: Comentário: ..50X.. em tampão PBS + completo... prensa francesa, 3X 30 min., a 14000t > 90% no sobrenadante de extracto celular O extracto celular foi corrido num SDS PAGE a 12,5% e subsequentemente corado com azul de Coomassie. Também foi realizada uma transferência de Western utilizando um anticorpo 67 monoclonal comercial contra a cauda de poli-histidina (Quiagen). Os géis resultantes (Figuras 3 e 4) mostram que a proteína é expressa e visível no sobrenadante de extracto celular. 0 esquema de purificação segue uma abordagem clássica, baseada na presença de uma cauda de afinidade His na proteína recombinante. Numa experiência típica, as células dissociadas são filtradas e os extractos acelulares carregados numa Cromatograf ia de Afinidade de Ião Metálico (IMAC; Ni++NTA, da Qiagen) que reterá, especificamente, a proteína recombinante. As proteínas retidas são eluídas por gradientes de imidazole a 0-500 mM (possivelmente, na presença de um detergente) num tampão de fosfatos. O sobrenadante da cultura recolhida foi desnaturado em ureia a 6 M, NaH2P04 a 100 mM, Tris a 10 mM, PH 8 e carregado numa coluna cromatográfica IMAC Qiagen NTA Ni++, sob as seguintes condições:

Tampão de equilíbrio: NaH2P04 100 mM pH 8

Tris

10 mM

6 M

Ureia

Amostra: sobrenadante em ureia a 6 M, NaH2P04 a 100 mM, Tris a 10 M

Tampões de lavagem: 1) NaH2P04 100 mM pH 8

Tris

10 mM 68 6 Μ

ureia Imidazole 25 mM 2)NaH2P04 Tris Ureia Imidazole

100 mM pH 8 10 mM 6 mM 50 mM

Tampao de eluição

NaH2P04 100 mM Tris 10 mM Ureia 6 M Imidazole 500 mM pH 5, 5 A proteína eluída em imidazole a 500 mM + ureia a 6 M é dialisada sob as seguintes condições: — PBS, pH 7,2 + sarcosil a 0,5% + ureia a 4 M - Idem, a ureia a 2 M, 2 h — Idem, a ureia a 0 M, 2 h O material final é congelado e armazenado. O teor de proteína foi guantificado utilizando um ensaio de proteína de Lowry (0,9 mg/1,2 mL) . A pureza foi avaliada por um PAGE SDS a 12,5%, corado com azul de Coomassie (Figura 5) e a presença da proteína recombinante foi verificada por transferência de Western, utilizando um anticorpo monoclonal anti-poli-histidina (Figura 6). 69

Uma avaliação comparativa das diferentes versões do antigénio expresso irá permitir a selecção do candidato mais promissor que deve ser utilizado para purificação adicional e avaliação imunológica. 9.2 Produção de anticorpo e imuno-histoquímica

Podem ser utilizadas pequenas quantidades de proteína relativamente purificada para produzir ferramentas imunológicas, para a) detectar a expressão por imuno-histoquímica em secções de tecido normal ou de cancro; b) detectar a expressão e seguir a proteína durante o processo de purificação (ELISA/transferência de Western); ou c) caracterizar/quantificar a proteína purificada (ELISA). 9.2.1 Anticorpos policlonais:

Imunização

Os coelhos são imunizados, intramuscularmente (I.M.), 3 vezes, a intervalos de 3 semanas, com 100 pg de proteína, formulada no adjuvante 3D-MPL/QS21. Três semanas após cada imunização, uma amostra sanguínea é retirada e o título de anticorpo estimado no soro por ELISA, utilizando a proteína como antigénio de revestimento, seguindo um protocolo padrão. 70

ELISA

Microplacas de 96 poços (maxisorb Nunc) são revestidas com 5 pg de proteína, de um dia para o outro, a 4 °C. Após saturação de 1 hora, a 37 °C, com PBS NCS a 1%, é adicionada diluição em série dos soros de coelho, durante 1 H 30, a 37 °C (começando a 1/10). Após 3 lavagens em PBS Tween, é adicionado (1/5000) anti-soro biotinilado anti-coelho (Amersham). As placas são lavadas e é adicionada estreptavidina ligada a peroxidase (1/5000), durante 30 min., a 37 °C. Após lavagem, são adicionados 50 pL de TMB (BioRad) , durante 7 min., e a reacção, depois, interrompida com H2S04 a 0,2 Μ. A OD pode ser medida a 450 nm e diluições de ponto médio calculadas por SoftmaxPro. 9.2.2 Anticorpos monoclonais;

Imunização 5 murganhos BALB/c são imunizados 3 vezes, a intervalos de 3 semanas, com 5 pg de proteína purificada. Os sangramentos são realizados 14 dias após II e 1 semana após 3. Os soros são testados por Elisa em proteína purificada utilizada como um antigénio revestido. Com base nestes resultados (diluição de ponto médio > 10000), um murganho é seleccionado para fusão.

Fusao/selecção HAT poços Células do baço são fundidas com o mieloma SP2/0 de acordo com um protocolo padrão, utilizando PEG a 40% e DMSO a 5%. As células são, depois, semeadas em placas de 96 71 2,5 χ 104 - 105 células/poço e clones resistentes serão seleccionados em meio HAT. O sobrenadante destes hibridomas será testado para o seu teor em anticorpos específicos e, quando positivo, será submetido a 2 ciclos de diluição limitada. Após 2 séries de rastreio, 3 hibridomas serão escolhidos para produção de ascite. 9.2.3 Imuno-histoquímica

Quando estão disponíveis anticorpos, a imunocoloração é realizada em secções de tecido normais ou de cancro, para determinar: 0 o nível de expressão do antigénio da invenção em cancro, em relação a tecido normal, ou 0 a proporção de cancro de um determinado tipo expressando o antigénio 0 se outros tipos de cancro também expressam o antigénio 0 a proporção de células expressando o antigénio num tecido de cancro

Preparaçao de amostra de tecido

Após dissecção, a amostra de tecido é montada num disco de cortiça em composto OCT e rapidamente congelada em isopentano, anteriormente superarrefecido em azoto líquido (-160 °C). O bloco será, depois, conservado, a -70 °C, até à sua utilização. Secções de 7-10 μπι serão realizadas numa câmara criostática (-20, -30 °C) . 72

Coloração

Secções de tecido são secas, durante 5 min., à temperatura ambiente (t.a.), fixas em acetona, durante 10 min., à t.a., secas de novo e saturadas com soro de PBS a 0,5%, BSA a 5%. Após 30 min., a t.a., é realizada uma coloração, directa ou indirecta, utilizando anticorpos específicos de antigénio. Uma coloração directa conduz a uma melhor especificidade mas uma coloração menos intensa, enquanto uma coloração indirecta conduz a uma coloração mais intensa mas menos específica. 9.3 Análise de respostas imunitárias celulares humanas ao antigénio da invenção A relevância imunológica do antigénio da invenção pode ser avaliada por imunização primária in vitro de células T humanas. Todas as linhas linfocíticas de célula T e células dendríticas são derivadas de PBMC (células mononucleares de sangue periférico) de dadores saudáveis (subtipo HLA-A2 preferido). Um modelo de murganho transgénico HLA-A2.1/Kb também é utilizado para rastreio de péptidos HLA-A2.1.

Linhas de célula T CD8+ específicas de antigénio, recém-identifiçadas, são deduzidas e mantidas por estimulação in vitro semanalmente. A actividade lítica e a produção de γ-IFN das linhas CD8+, em resposta ao antigénio ou péptidos derivados de antigénio, são testadas utilizando processos padrão. São utilizadas duas estratégias para deduzir as linhas de célula T CD8+: uma abordagem de base peptídica e uma abordagem baseada em gene intacto. Ambas as abordagens requerem que o ADNc 73 de comprimento completo do antigénio recém-identifiçado na fase de leitura correcta seja clonado num sistema de distribuição apropriado ou que seja utilizado para prever a sequência de péptidos de ligação a HLA.

Abordagem de base peptídica

Resumidamente, murganhos transgénicos são imunizados com péptidos HLA-A2 com adjuvante, aqueles incapazes de induzirem uma resposta CD8+ (como definida por uma lise eficiente de células do baço autólogas pulsadas com péptidos) serão, além disso, analisados no sistema humano. Células dendriticas humanas (cultivadas de acordo com

Romani et al.) serão pulsadas com péptidos e utilizadas para estimularem células T tríadas com CD8+ (por Facs). Após várias estimulações semanais, as linhas CD8+ serão, em primeiro lugar, testadas em BLCL autólogas pulsadas com péptidos (linhas celulares transformadas com EBV-B). De modo a verificar o conveniente processamento in vivo do péptido, as linhas CD8+ serão testadas em células tumorais transfectadas com ADNc (células tumorais LnCaP, Skov3 ou CAMA transfectadas com HLA-A2).

Abordagem baseada em gene intacto

Linhas de células T CD8+ serão iniciadas e estimuladas com células dendriticas transfectadas com canhão de genes, fibroblastos transfectados com B7.1 transduzidos de modo retroviral, células dendriticas infectadas por poxvírus ou 74 adenovírus recombinante. As células infectadas por vírus são muito eficientes a apresentarem péptidos antigénicos, uma vez que o antigénio é expresso a elevado nível, mas apenas podem ser utilizadas uma vez, para evitar o sobrecrescimento de linhas de células T virais.

Após estimulações alternadas, as linhas CD8+ são testadas em células tumorais transfectadas com ADNc, como indicado acima. Especificidade e identidade peptídicas são determinadas para confirmar a validação imunológica.

Resposta de célula T CD4+

De um modo semelhante, a resposta imunitária de célula T CD4+ também pode ser avaliada. A geração de células T CD4+ específicas é realizada utilizando células dendríticas carregadas com proteína ou péptidos purificados recombinantes, para estimular as células T.

Epitopos previstos (nonâmeros e decâmeros) ligando-se a alelos HLA:

As sequências peptídicas de ligação de HLA de Classe I são previstas pelo algoritmo de Parker (Parker, K. C., Μ. A. Bednarek e J. E. Coligan. 1994. Scheme for ranking potential HLA-A2 binding peptides based on independent binding of individual peptide side-chains. J. Immunol. 152:163 e http://bimas.dcrt.nih.gov/molbio/hla_bind/) ou o método de Rammensee (Rammensee, Friede, Stevanovic, MHC ligands and peptide motifs: lst listing, Immunogenetics 41, 75 178-228, 1995; Rammensee, Bachmann, Stevanovic: MHC ligands and peptide motifs. Landes Bioscience 1997 e http://134.2.96.221/scripts/hlaserver.dll/home.htm). Os péptidos são, depois, rastreados no modelo de murganhos transgénicos HLA-A2.1/Kb (Vitiello et al.).

As sequências peptídicas de ligação de HLA de Classe II são previstas utilizando o algoritmo Tepitope, com uma exclusão de pontuação regulada para 6 (Sturniolo, Hammer et al., Nature Biotechnology. 1999. 17;555-561).

As tabelas seguintes reúnem as sequências de epitopo previstas de Classe I e II: HLA-A 0201: decâmeros Ordem Posição de Inicio Listagem de Resíduo de Subsequência Pontuação de Parker0 SEQ ID: 1 64 KLVNLGFQAL 142,060 SEQ ID N°: 16 °: Estimativa de Meio-Tempo de Dissociação de uma Molécula Contendo Esta Subsequência. HLA-A 0201: nonâmeros Ordem Posição de Início Listagem de Resíduo de Subsequência Pontuação de Parker0 SEQ ID: 1 182 ELLDFSSWL 507,976 SEQ ID N°: 17 2 104 RLLAEHDAV 126,098 SEQ ID N°: 18 3 64 KLVNLGFQA 100,850 SEQ ID N°: 19 °: Estimativa de Meio-Tempo de Dissociação de uma Molécula Contendo Esta Subsequência. 76 HLA-A 24: nonâmeros Ordem Posição de Início Listagem de Resíduo de Subsequência Pontuação de Parker SEQ ID: 1 97 EYIRALQRL 360,000 SEQ ID N°: 20 °: Estimativa de Meio-Tempo de Dissociação de uma Molécula Contendo Esta Subsequência. HLA-A 24: decâmeros Ordem Posição de Início Listagem de Resíduo de Subsequência Pontuação de Parker SEQ ID: 1 97 EYIRALQRLL 360,000 SEQ ID N°: 21 °: Estimativa de Meio-Tempo de Dissociação de uma Molécula Contendo Esta Subsequência. HLA-B 7: decâmeros Ordem Posição de Início Listagem de Resíduo de Subsequência Pontuação de Parker SEQ ID: 1 111 AVRNALAGGL 600,000 SEQ ID N°: 22

Estimativa de Meio-Tempo de Dissociação de uma Molécula Contendo Esta Subsequência. HLA-B 4403: decâmeros Ordem Posição de Início Listagem de Resíduo de Subsequência Pontuação de Parker SEQ ID: 1 156 SEPGSPRSAY 360,000 SEQ ID N°: 23 2 89 VETLRSAVEY 180,000 SEQ ID N°: 24

Estimativa de Meio-Tempo de Dissociação de uma Molécula

Contendo Esta Subsequência. HLA-DRB1*1501: nonâmeros Ordem Posição de Listagem de Pontuação de SEQ ID: 77

Início Resíduo de Subsequência Tepitope 1 99 IRALQRLLA 5,6 SEQ ID N°: 25 HLA-DRB1*1502: nonâmeros Ordem Posição de Início Listagem de Resíduo de Subsequência Pontuação de Tepitope SEQ ID: 1 99 IRALQRLLA 4,6 SEQ ID N°: 25 HLA-DRB1*0402: nonâmeros Ordem Posição de Início Listagem de Resíduo de Subsequência Pontuação de Tepitope SEQ ID: 1 120 LRPQAVRPS 5,4 SEQ ID N°: 26 HLA-DRB1*1101: nonâmeros Ordem Posição de Início Listagem de Resíduo de Subsequência Pontuação de Tepitope SEQ ID: 1 99 IRALQRLLA 4,8 SEQ ID N°: 25 HLA-DRB1*1102: nonâmeros Ordem Posição de Início Listagem de Resíduo de Subsequência Pontuação de Tepitope SEQ ID: 1 120 LRPQAVRPS 6,2 SEQ ID N°: 26 HLA-DRB1*1104: nonâmeros 78

Ordem Posição de Inicio Listagem de Resíduo de Subsequência Pontuação de Tepitope SEQ ID: 1 99 IRALQRLLA 5,8 SEQ ID N°: 25 HLA-DRB1*1106: nonâmeros Ordem Posição de Inicio Listagem de Resíduo de Subsequência Pontuação de Tepitope SEQ ID: 1 99 IRALQRLLA 5, 8 SEQ ID N°: 25 HLA-DRB1*1301: nonâmeros Ordem Posição de Início Listagem de Resíduo de Subsequência Pontuação de Tepitope SEQ ID: 1 120 LRPQAVRPS 6,6 SEQ ID N°: 26 2 73 LRQHVPHGG 4,9 SEQ ID N°: 27 3 31 LLRCSRRRR 4,4 SEQ ID N°: 33 HLA-DRB1*1302: nonâmeros Ordem Posição de Início Listagem de Resíduo de Subsequência Pontuação de Tepitope SEQ ID: 1 120 LRPQAVRPS 5, 6 SEQ ID N°: 26 HLA-DRB1*1304: nonâmeros Ordem Posição de Início Listagem de Resíduo de Subsequência Pontuação de Tepitope SEQ ID: 1 120 LRPQAVRPS 6,2 SEQ ID N°: 26 79 2 73 LRQHVPHGG 4,8 SEQ ID N°: 27 3 31 LGFQALRQH 4,6 SEQ ID N°: 28 HLA-DRB1*1305: nonâmeros Ordem Posição de Inicio Listagem de Resíduo de Subsequência Pontuação de Tepitope SEQ ID: 1 99 IRALQRLLA d^ 00 SEQ ID N°: 25 HLA-DRB1*0703: nonâmeros Ordem Posição de Início Listagem de Resíduo de Subsequência Pontuação de Tepitope SEQ ID: 1 112 VRNALAGGL 5,1 SEQ ID N°: 29 2 98 YIRALQRLL d^ 00 SEQ ID N°: 30 3 65 LVNLGFQAL 4,5 SEQ ID N°: 31 HLA-DRB5*0101: nonâmeros Ordem Posição de Início Listagem de Resíduo de Subsequência Pontuação de Tepitope SEQ ID: 1 96 VEYIRALQR 4,3 SEQ ID N°: 32 INFORMAÇÃO DE SEQUENCIA SEQ ID P: 1 80 GTACCTTGCTTTGGGGGCGCACTAAGTACCTGCCGGGAGCAGGGGGCGCACCGGGAACTCGCAGATTTCGCC AGTTGGGCGCACTGGGGATCTGTGGACTGCGTCCGGGGGATGGGCTAGGGGGACATGCGCACGCTTTGGGCC TTACAGAATGTGATCGCGCGAGOGGGAGGGCGÀAGCGTGGCGGGAGGGCGAGGCGAAGGAAGGAGGGCGTGA GAAAGGCGACGGCGGCGGCGCGGAGGAGGGTTATCTATACATTTAAAAACCAGCCGCCTGCGCCGCGCCTGC GGAGACCTGGGAGAGTCCGGCCGCACGCGCGGGACACGAGCGTCCCACGCTCCCTGGCGCGTACGGCCTGCC accaciaggcctcctatccccgggctccagacgacctaggacgcgtgccctggggagttgcctggcggcgcc gtgccagaagcccccttggggcgccacagttttccccgtcgcctccggttcctctgcctgcaccttcctgcg GCGCGCCGGGACCTGGAGCGGGCGGGTGGATGCAGGCGCGatggacggcggcacactgcccaggtcegcgce ccctgcgccccccgtccctgtcggctgcgctgcccggcggagacccgcgtccccggaactgttgcgctgcag ccggcggcggcgaccggccaccgcagagaccggaggcggcgcagcggccgtagcgcggcgcaatgagcgcga gcgcaaccgcgtgaagctggtgaacttgggcttccaggcgctgcggcagcacgtgccgcacggcggcgccag caagaagctgagcaaggtggagacgctgcgctcagccgtggagtacatccgcgcgctgcagcgcctgctggc cgagcacgacgccgtgcgcaacgcgctggcgggagggctgaggccgcaggçcgtgcggcegtctgcgccccg cgggccgccagggaccaccccggtcgccgcctcgccctcccgcgcttcttcgtccccgggccgcgggggcag ctcggagcccggctccccgcgttccgcctactcgtcggacgacagcggctgcgaaggcgcgetgagtcctge ggagcgcgagctactcgacttctccagctggttagggggctactgaGCGCCCTCGACCTATGAGCCTCAGCC CCGGAAGCCGAGCGAGCGGCCGGCGCGCTCATCGCCGGGGAGCCCGCCAGGTGGACCGGCCCGCGCTCCGCC CCCAGCGAGCCGGGGACCCACCCACCACCCCCCGCACCGCCGAOGCCGCCTCGTTCGTCCGGCCCAGCCTGA CCAATGCCGCGGTGGAAACGGGCTTGGAGCTGGCCCCATAAGGGCTGGCGGCTTCCTCCGACGCCGCCCCTC CCCACAGCTTCTCGACTGCAGTGGGGCG GGGGG cac caacacttggagatttttccggaggggagaggattt tctaagggcacagagaatccattttctacacattaacttgagctgctggagggacactgctggcaaacggag acctatttttgtacaaagaacccttgacctggggcgtaataaagatgacctggacccctgcccccactatct ggagttttccatgctggccaagatctggacacgagcagtccctgaggggcggggtccctggcgtgaggcccc cgtgacagcccaccctggggtgggtttgtgggcactgctgctctgctagggagaagcctgtgtggggcacac ctcttcaagggagcgtgaactttataaataaatcagttctgtttaaaaaaaaaaaaaaaaaaa 81 SEQ ID Na: 2 kdggtlprsappappvpvgcaarkrpaspelijRcsrrrrpataetgggaaavarrherernrvxlvnlgfqa

LRQHVPHGGASKXLSKVETLRSAVEYIRAÍjQRIJjAEHDAVRNALAGGLRPQAVRPSAPRGPPGTTPVAASPS

RASSSPGRGGSSEPGSPRSAYSSDDSGCEGALSPAHRELLDFSSWLGGY SEQ ID N2: 3

MSAPAARSASGAEAHRSRALSSPtiTSWRSRVARAPODSARLRSRCRPTSRRNAGSRAPSCPRGPGTKKRGRA

RRRPGWSLAARGAQTAARPAASALPPARCARRRARPAGAAARGCTPRlSAASPPCSASCWRRRAARAAAAPG

SPSSPASRGCARAHCAAUtPLRRLRSLRWPVAAAGCSATVPGTRVSAGQRSRQGRGAQGARTWAVCRRPSRL

HPPARSRSRRAAGRCRQRNRRRRGKLWRPKGASGTAPPGMSPGHAS SEQ ID N2: 4 gtaccttgctttgggggcgcactaagtacctgccgggagcagggggcgcaccgggaactcgcagatttcgcc

AGTTGGGCGCACTGGGGATCTGTGGACTGCGTCCGGGGGATGGGCTAGGGGGACATGCGCACGCTTTGGGCC

TTACAGAATGTGATCGCGCCQAGGGGGAGGGCCGAAGCGTGGCGGGAGGGCGAGGCGAAGGAAGGAGGGCGT

GAGAAAGGCGACGGCGGCGGCGCGGAGGAGGGTTATCTATACATTTAAAAACCAGCCGCCTGCGCCGCGCCT gcggagacctgggagagtccggccgcacgcgcgggacacgagcgtcccacgctccctggcgcgtacggcctg

CCACCACTAGGCCTCCTATCCCCGGGCTCCAGACGACCTAGGACGCGTGCCCTGGGGAGTTGCCTGGCGGCG CCGTGCCAGAAGCCCCCTTGGGGCGCCACAGTTTTCCCCGTCGCCTCCGGTTCCTCTGCCTGCACCTTCCTO CGGCGCGCCGGGACCTGGAGCGGGCGGGTGGATGCAGGCOCGatggacggcggcacactgcccaggtccgcg ccccctgcgccccccgtccctgtcggctgcgctgcccggcggagacccgcgtccecggaaetgttgcgctgc agccggcggcggcgaccggccaccgcagagaccggaggcggcgcagcggccgtagcgcggcgcaatgagcge gagcgcaaccgcgtgaagctggtgaacttgggcttccaggcgctgcggcagcacgtgccgcacggcggcgcc agcaagaagctgagcaaggtggagacgctgcgctcagccgtggagtacatccgcgcgctgcagcgcctgctg gccgagcacgacgccgtgcgcaacgcgctggcgggagggctgaggccgcaggccgtgcggccgtctgcgcec cgcgggccgccagggaccaccccggtcgccgcctcgccctcccgcgcttcttcgtccccgggccgcgggggc agctcggagcccggctccccgcgttccgcctactcgtcggacgacagcggccgcgaaggcgcgctgagtcct gcggagcgcgagctactcgacttctccagctggttagggggctactgaGCGCCCTCGACCTAATAAGCCTCA AGCCCCGGAAACCCGAGCGAACGGGCCGGCGCGCTTCATCGCCGGGGAAGCCCGCCAAGGTGGACCGGGCCC GCGCTCCGCCCCCAGCGAGCCGGGGACCCACCCACCACCCCCCGCACCGCCGACGCCGCCTCGTTCGTCCGG CCCAGCCTGACCAATGCCGCGGTGGAAACGGGCTTGGAGCTGGCCCCATAAGGGCTGGCGGCTTCCTCCGAC GCCGCCCCTCCCCACAGCTTCTCGACTGCAGTGGGGCCGGGGGCACCAACACTTGGAGATTTTTCCGGAGOG GAGAGGATTTTCTAAGGGCACAGAGAATCCATTTTCTACACATTAACTTGAGCTGCTGGAGGGACACTGCTG gcaaacggagacctatttttgtacaaagaacccttgacctggggcgtaataaagatgacctggacccctgcc cccactatctggagttttccatgctggccaagatctggacacgagcagtccctgaggggcggggtccctggc gtgaggcccccgtgacagcccaccctggggtgggtttgtgggcactgctgctctgctagggagaagcctgtg tggggcacacctcttcaagggagcgtgaactttataaataaatcagttctgtttaaaaaaaaaaaaaaaaaa aaaaccgagggggogcccggagccaacaaa 82 SEQ ID N2: 5

GGTAAACAGAACTGATTTATTTATAAAGTTCACGCTCCCTTGAAGAGGTGTGCCCCACACAGGCTTCTCCCT agoagagcagcagtgcccacaaacccaccccagggtgggctgtcacgggggcctcacgccagggaccccgcc cctcagggactgctcgtgtccagatcttggccagcatggaaaactccagatagtgggqgcaggggtccaggt

CATCTTTATTACGCCCCAGGTCAAGGGTTCTTTGTACAAAAATAGGTCTCCGTTTGCCAGCAGTGTCCCTCC agcagctcaagttaatgtgtagaaaatggattctctgtgcccttagaaaatcctctcccctccggaaaaatc tccaagtgttggtgccccccgccccactgcagtcgagaagctgtggggaggggcggcgtcggaggaagccgc agcccattatggggccagctccaagcccgtttccaccgcggcattggtcaggctgggcggacgaacgaggcg gcgtcggcggtgcggggggtggtgggtgggtccccggctcgctgggggcggagcagcgggccggtccacctg gcgggctcccc SEQ ID N2: 6

ITTTTTTTTTTTTTTTTTTAftACAGAACTGATITATTTATAAAGTTCACGCTCCCTTGAAGAGGTGTGCCCC

ACACAGGCTTCTCCCTAGCAGAGCAGCAGTGCCCACAAACCCACCCCAGGGTGGGCTGTCACGGGGGCCTCA

CGCCAGGGACCCCGCCCCTCAGGGACTGCTCGTGTCCAGATCTTGGCCAGCATGGAAAACTCCAGATAGTGG gggcaggggtccaggtcatctttattacgccccaggtcaagggttctttgtacaaaaataggtctccgtttg

CCAGCAGTGTCCCTCCAGCAGCTCAAGTTAATGTGTAGAAAATGGATTCTCTGTGCCCTTAGAAAATCCTCT cccctccggaaaaatctccaagtgttggtgccccccgccccactgcagtcgagaagctgtggggaggggcgo cgtcggaggaagccgccagcccttatggggccagctccaagcccgtttccaccgcggcattggtcaggctgo gccggacgaacgaggcggcgtcggcggtgcggggggtggtgggtgggtccccggctcgctgggggcggagco cgggccggtccacctggcggoctcc cgggggatgagcgcg ccggccgctcgctcggcitccggggçtgaggc tcataggtcgagggcgctcagtagccccctaaccagctggagaagtcgagtagctcgcgctccgcaggactc agcgcgccttcg cagccgctgtcgtccgacgagtaggcggaacgcggggagc cgggctccgagctgcccccg

CGGCCCGGGGACGAAGAAGCGCGGCAGGGCGAGGCGGCGACCGGGGTGGTCCCTGOCGGCCCGCGGGGCGCA gacggccgcacggcctgcggcctcagccctcccgccagcgcgttgcgcacggcgtcgtgctcggccagcagg cgctgcagcgcgcggatgtactccacggctgagcgcagcgtctccaccttgctcagcttcttgctggcgccg ccgtgcggcacgtgctgccgcagcgcctggaagcccaagttcaccagcttcacgcggttgcgctcgcgctca ttgcgccgcgctacggccgctgcgccgcctccggtctctgcggtggccggtcgccgccgccggctgcagcgc aacagttccggggacgcgggtctccgccgggcagcgcagccgacagggacggggggcgcagggggcgcggac ctgggcagtgtgccgccgtccatcgcccctgcatccacccgcccgctccaggtcccggcgogccgcaggaag gtgcaggcagaggaaccggaggcgacggggaaaactgtggcgccccaagggggcttctggcacggcgccgcc aggcaactccccagggcacgcgtcctaggtcgtctggagcccggggataggaggcctagtggtggcaggccg tacgcgccagggagcgtgggacgctcgtgtcccgcgcgtgcggccggactctcccaggtctccgcaggcgcg gcgcaggcggctggtttttaaatgtatagataaccctcctccgcgccgccgccgtcgcctttctcaogocct ccttccttcgçctcgcccxcccgccacgcttcgccctccccctcgcgcgatcacattctgtaaggcccaaag cgtgcgcatgtccccctagcccatcccccggacgcagtccacagatccccagtgcgoccaactggcgaaatc tgcgagttcccggtgcgccccctgctcccggcaggtacttagtgcgcccccaaagcaaggtac 83 SEQ ID Na: 7

MCRKWILCALRKSSPLRKNLQVLVPPAPLQSRSCGEGRRRRKPPALMGPAPSPFPPRHWSGWAGRTRRRRRC ΟΟνΠίναΡΚΙΑΟΟαΑΗΑΚεΤΧΑΟΗΡΟΟΕΑΗΡΡνΗΒσΡΚσίΛΙ,ΙΗΒΚΑΙ,βΒΡΙ,ΤΒνίΗβΗνΑαΑΡΟΟΕΑΚυίβΕΟ

RPTSRRNAGSRAPSCPRGPGTKKRGRARRRPGWSLAARGAQTAARPAASALPPARCARRRARPAGAAARGCT

PRLSAASPPCSASCWRRRAARAAAAPGSPSSPASRGCARAHCAALRPLRRLRSLRWPVAAAGCSATVPGTRV

SAGQRSRQGRGAQGARTWAVCRRPSRLHPPARSRSRRAAGRCRQRNRRRRGKLWRPKGASGTAPPGNSPGHA

S SEQ ID NS; 8

ATGGATCCAAACACTGTGTCAAGCTTTCAGGTAGATTGCTTTCTTTGGCATGTCeGCAAACGAGTTGCAGAC

CAAGAACTAGGTGATGCCCCATTCCTTGATCGGCTTCGCCGAGATCAGAAATCCCrAAGAGGAAGGGGCAGC

ACcCTcGGTCTGGACATCGAGACAGOCACACGTGCTGGAAAGCAGATAGtGGAGCGGAttctGAAAGAAGAA

TCCGATGAGGCACTTAAAATGACCATGGAOGGCGGCACACTGCCCAGGTCOGCGCCCCCTGCGCCCCCCGTC

CCTGTCGGCTGCGCTGCCCGGCGGAGACCCGCGTCCCCGGAACTGTTGCGCTGCAGCCGGCGGCGGCGACCG

GCCACCGCAGAGACCGGAGGCGGCGCAGCGGCCGTAGCGCGGCGCAATGAGCGCGAGCGCAACCGCGTGAAG ctggtgaacttgggcttccaggcgctgcggcagcacgtgccgcacggcggcgccagcaagaagctgagcaag gtggaoacgctgcgctcagccgtggagtacatccgcgcgctgcagcgcctgctggccgagcacgacgccgtg cgcaacgcgctggcgggagggctgaggccgcaggccgtgcggccgtctgcgccccgcgggccgccagggacc accccggtcgccgcctcgccctcccgcgcttcttcgtccccgggccgcgggggcagctcggagcccggctcc ccgcgttccgcctactcgtcggacgacagcggcigcgaaggcgcgctgagtcctgcggagcgcgagctactc GACITCTCCAGCTGGTTAGGGGGCTACactagtggccaccatcaccatcaccattaa SEQ ID N2: 9

ATGGATCCAAACACTGTGTCAAGCTTTCAGGTAGATTGCTTTCTTTGGCATGTCCGCAAACGAGTTGCAGAC caagaactaggigatgccccattccttgatcggcttcgccgagatcagaaatccctaagaggaaggggcagc acccicggtctggacatcgagacagccacacgtgctggaaagcagatagtggagcqgattctgaaagaaoaa tccgatgaggcacttaaaatgaccatggacggcggcaccctgccgcgttccgcgccgccggcgccgccagtt ccggttggctgcgctgccgqtcgccgtcccgcgtccccggaactgctgcgctgcagccgtcgccgtcgcccg gccaccgcagagaccggaggcggcgcagcggccgtagcgcggcgcaatgagcgcgagcgcaaccgcgtoaag ctggtgaacttgggcttccaggcgctgcggcagcacgtgccgcacggcggcgccagcaagaagctgagcaag gtggagacgctgcgctcagccgtggagtacatccgcgcgctgcagcgcctgctggccgagcacgacgccgtg cgcaacgcgctggcgggagggctgaggccgcaggccgtgcggccgtctgcgccccgcgggccgccaggoaco accccggtcgccgcctcgccctcccgcgctxcttcgtccccgggccgcgggggcagctcggagcccggctcc ccgcgttccgcctactcgtcggacgacagcggctgcgaaggcgcgctgagtcctgcggagcgcgagctactc gacttctccagctggttagggggctacactagtggccaccatcaccatcacxlattaa 84 SEQ ID N2: 10

MDPNTVSSFQVDCFLWHVRKRVADQELGDAPFIiDRLRRDQKSLRGRGSTIjGLDIETATRAGKQIVBRIIíKBB

SDEAIíKMTMDGGTLPRSAPPAPPVPVGCAARRRFASPEIjIjRCSRRRRPATAETGGGAAAVARRNBRERNRVK

LVNLGFQALRQHVPHGGASKKLSKVETLRSAVEYIRALORLLAEHDAVKNALAGGLSPQAVRPSAPRGPPGT tpvaaspsrassspgrggssbpgsprsayssddsgcegalspaerelldfsswlggytsghhhhhh SEQ ID Na: 11

NYSTAERSVSTLLSFLLAPPCGTCCRSAWKPKFTSFTRUISRSIiRRATAAAPPPVSAVAaRRRKLQRNSSGD aglrraaqptgtggaggadlgsvppsxapastrpl.qvpakrrkvqabepbatgktvapqggfwhgaasqlpr

ARVLGRLEPGDRRPSGGRPYAPGSVGRSCPAKAAGLSQVSAGAAQAAGP SEQ ID N2: 12

MEAHLDWYGVPGLQEASDACPRESCSSALiPEAREGANVHFPPHPVPREHFSCAAPEIiVAGAQGLNASIiMDGG ALPRLMPTS SGVAGACAARRRQ AS PELLRCSRRRRSGATEASS S SAAVARSNERERNRVKLVNLGFQALRQH

VPHGGANKKLSKVETLRSAVEYIRALQRLLAEKDAVRAALAGGLLTPATPPSDECAQPSASPASASLSCAST

SPSPDRLGCSEPTSPRSAYSSEESSCEGELSPMECELLDFSSWLGGY SEQ ID N2: 13

GCCCGGAGCATGGAAGCACGTCAGCTAGGCCATGAACTGCACCCGGGAGGGGTGGGGGTGGAAGCGCACGGT GTCAGCTTTG CAGAATGTGTACACCAAGGGGAGGGCGAGGCGAAGGAAGGAGGGCGTAAGAAAGGAGGCGGT GGCGGGGCGGAGGAGATTATCTATACTTTTTAAAAAAAAGGAGCCTCTTAGCCGCGTAAAGGAGACTTGGGG agcgcctqacagcacgogcgggacacgagagtaccacgcttccctactcttttcagaccttgactggtaosg ggtcccaggactgcaggaggccagcgacgcgtgccctagggagtcctgcagcagtgccctgcctgaggcccg tgaaggtgcaaacgtccacttcccaccgcacccggttcctcgcgagcacttttcctgtgcggcaccagaact cgtagcaggggcccaggggctgaatgcaagcttgatggacggcggcgcgctgcccagactcatgcccacctc gtctggagtcgctggagcctgcgctgctcggcggagacaagcgtctccggaattgctgcgctgcagccggcg gcggcgatctggagcaaccgaggccagcagcagctcggcgtccgtggcacgccgcaatgagcgcgagcgcaa ccgcgtaaagctggtaaacttc-ggcttccaggcgctgcggcagcacgtgccgcacggcggcgccaacaagaa gctgagtaaggtggagacgctgcgctccgcggtagagtacattcgtgcgctgcagcggctgctcgcagagca cgacacggtgcggccggngctcgctggcgggctgttaacacccgctactccgccgtccgatgagtgcacgca

GCCCTCTGCCTCCCCTGCCAGCGGGTCTCTGTCCTGCGCCTCTACGTCTCCGTCCCGGACCCTGGGCTGCTC tgagcctacctccccgcgctccgcctactcgtcggaggaaagcagctgcgagggagagctaagcccgatgga gcaggagctgcttgacttttccagttggttagggggctactoa 85 SEQ ID Na: 14

MESHFNWYGVPRLQKASDACPRESCSSALPEAREGANVHFPPHPVPREHFSCGAPKPVAGAPALNASLMDGG

ALPRLVPTSSGVAGACTARRRPPSPÊLLRCSRRRRSGATEASSSSAAVARRNERERNRVKLVNIíGFQALRQH

VPHGGANKKLSKVETLRSAVEYIRALQRLLAEHDAVRAALSGGLLTPATRPSDVCTQPSASPASASLSCTST spdrlgcsepasprsayssedsscegbtypmgqmfdfsnwlggy SEQ ID Ns: 15 ttcacccggctgcaagcgctaggtgtacggagacctggcagctcttggggcttaaggactoagcrccagagc cggtggaggttcctgtggagtacattcggaccctctcacagcccccgagagtgcgggacgtgcggagcgcag ttcgggatctgcactcgaggacttgtcgaggacgcattaagctaagcatctoctcggagcatggaatcgcac tttaactggtacggggtcccaaggctccagaaggctagcgacgcgtgccctagggaatcctgcagcagtgcc ctgcctgaggcccgtgaaggtgcgaacgtccacttcccaccgcacccggttcctcgcoagcacttttcctgt ggcgcaccgaaacccgtagcgggggccccggcgctgaatgcaagcttcatggacggcggcgcgctgcccaga ctcgtgcccacctcgtctggagtcgctggagcctgcactgctcggcggagacccccgtccccggaactgctt

CGCTCCAGCCGACGGCGGCGATCGGGAGCAACCGAGGCCAGCAGCAGCTCGGCGGCCGTGGCACGCCGCAAT gagcgtgagcgcaaccgcgtaaagctggtaaacttgggcttccaggcgctgcggcagcacgtgccgcacggc ggcgccaacaagaagctgagtaaggtggagacgctgcgctccgcgqtagagtacatccgtgcgctgcagcgg ctgctagcagagcacgacgcggtgcgtcctgcgctctctgggggtctattaacacccgctactcggccgtcc gatqtgtgcacgcagccctccgcctcccctgccagcgcgtctctgtcctgcacctctacatccccagaccgc ctaggctgctccgagcctgcctctccgcgctccgcctactcgtcggaggacagcagctgcgagggagagact tacccgatggggcagatgtttgacttttccaattggttagggggctactgagcaccccacacccctaagctg cgtccctgggtgtcccctggtggacctacctgcgtttcttgcccaggaaacctgggcccatgccttacccat gctgtctagtgcagcctgaccaaatgccaagtactgacctctgctcggcctccacgccgcggaatgacatct tccatctcccagtccttgccgaaccaggacttggaaatttctcaggagaaagaattttacaatgacaatctg ctttttatcaattaacttgaactgctggaggactctgctgaaaatatgaagaattatttttatacaaaggat ccttaagcttggagcacaataaagatgacctctgtctctcacccccactgtctagaactttccaacctggcc aaagtgtggacgggtcgggccctgaggggaagatgcctggctgcacccttcttcctcttccgaagcctatcc tgacgctgatgtttggccagtgtgggaaccctgctattgcaaagtgtactattctataaaagttgtttttca

TTGGAAAGGAATTC SEQ ID Na: 16

KLVNLGFQAL SEQ ID Na: 17

ELLDFSSWL 86 SEQ ID N2:

RLLAEHDAV SEQ ID N2:

KLVNLGFQA SEQ ID N2:

EYIRALQRL SEQ ID N2:

BYIRALQRLL SEQ ID N2:

AVRNALAGGL SEQ ID N2:

SEPGSPRSAY SEQ ID N2:

VETLRSAVEY SEQ ID N2:

IRALQRLLA SEQ ID N2:

LRPQAVRPS SEQ ID N2:

LRQHVPHGG SEQ ID N2:

LGFQALRQH 87 SEQ ID N2: 29

VRNALAGGL SEQ ID N2: 30 YIRALQRLL SEQ ID N2: 31

LVNLGFQAL SEQ ID N2: 32

VEYIRALQR SEQ ID N2: 33

LLRCSRRRR

LISTAGEM DE SEQUÊNCIAS <110> SmithKline Beecham Biologicals s.a. <120> Novos Compostos <130> BC45300 <160> 32 <170> FastSEQ para Windows Versão 3.0 <210> 1 <211> 1791 <212> ADN <213> Humano <400> 1 gtaccttgct ttgggggcgc actaagtacc tgccgggagc agggggcgca ccgggaactc 60 gcagatttcg ccagttgggc gcactgggga tctgtggact gcgtccgggg gatgggctag 120 ggggacatgc gcacgctttg ggccttacag aatgtgatcg cgcgaggggg agggcgaagc 180 gtggcgggag ggcgaggcga aggaaggagg gcgtgagaaa ggcgacggcg gcggcgcgga 240 ggagggttat ctatacattt aaaaaccagc cgcctgcgcc gcgcctgcgg agacctggga 300 gagtccggcc gcacgcgcgg gacacgagcg tcccacgctc cctggcgcgt acggcctgcc 360 accactaggc ctcctatccc cgggctccag acgacctagg acgcgtgccc tggggagttg 420 cctggcggcg ccgtgccaga agcccccttg gggcgccaca gttttccccg tcgcctccgg 480 ttcctctgcc tgcaccttcc tgcggcgcgc cgggacctgg agcgggcggg tggatgcagg 540 cgcgatggac ggcggcacac tgcccaggtc cgcgccccct gcgccccccg tccctgtcgg 600 ctgcgctgcc cggcggagac ccgcgtcccc ggaactgttg cgctgcagcc ggcggcggcg 660 accggccacc gcagagaccg gaggcggcgc agcggccgta gcgcggcgca atgagcgcga 720 gcgcaaccgc gtgaagctgg tgaacttggg cttccaggcg ctgcggcagc acgtgccgca 780 cggcggcgcc agcaagaagc tgagcaaggt ggagacgctg cgctcagccg tggagtacat 840 ccgcgcgctg cagcgcctgc tggccgagca cgacgccgtg cgcaacgcgc tggcgggagg 900 gctgaggccg caggccgtgc ggccgtctgc gccccgcggg ccgccaggga ccaccccggt 960 cgccgcctcg ccctcccgcg cttcttcgtc cccgggccgc gggggcagct cggagcccgg 1020 ctccccgcgt tccgcctact cgtcggacga cagcggctgc gaaggcgcgc tgagtcctgc 1080 ggagcgcgag ctactcgact tctccagctg gttagggggc tactgagcgc cctcgaccta 1140 tgagcctcag ccccggaagc cgagcgagcg gccggcgcgc tcatcgccgg ggagcccgcc 1200 aggtggaccg gcccgcgctc cgcccccagc gagccgggga cccacccacc accccccgca 1260 ccgccgacgc cgcctcgttc gtccggccca gcctgaccaa tgccgcggtg gaaacgggct 1320 tggagctggc cccataaggg ctggcggctt cctccgacgc cgcccctccc cacagcttct 1380 cgactgcagt ggggcggggg gcaccaacac ttggagattt ttccggaggg gagaggattt 1440 CCtaagggca cagagaatcc attttctaca cattaacttg agctgctgga gggacactgc 1500 tggcaaacgg agacctattt ttgtacaaag aacccttgac ctggggcgta ataaagatga 1560 cctggacccc tgcccccact atctggagtt ttccatgctg gccaagatct ggacacgagc 1620 agtccctgag gggcggggtc cctggcgtga ggcccccgtg acagcccacc ctggggtggg 1680 tttgtgggca ctgctgctct gctagggaga agcctgtgtg gggcacacct cttcaaggga 1740 gcgtgaactt tataaataaa tcagttctgt ttaaaaaaaa aaaaaaaaaa a 1791 <210> 2 <211> 193 <212> PRT <213> Humano 89 <400> 2

Met Asp Gly Gly Thr Leu Pro Arg Ser Ala Pro Pro Ala Pro Pro Vai 1 5 10 15 Pro Vai Gly Cys Ala Ala Arg Arg Arg Pro Ala Ser Pro Glu Leu Leu 20 25 30 Arg Cys Ser Arg Arg Arg Arg Pro Ala Thr Ala Glu Thr Gly Gly Gly 35 40 45 Ala Ala Ala Vai Ala Arg Arg Asn Glu Arg Glu Arg Asn Arg Vai Lys 50 55 60 Leu Vai Asn Leu Gly Phe Gin Ala Leu Arg Gin Hls Vai Pro His Gly 65 70 75 80 Gly Ala Ser Lys Lys Leu Ser Lys Vai Glu Thr Leu Arg Ser Ala Vai 85 90 95 Glu Tyr Ile Arg Ala Leu Gin Arg Leu Leu Ala Glu His Asp Ala Vai 100 105 110 Arg Asn Ala Leu Ala Gly Gly Leu Arg Pro Gin Ala Vai Arg Pro Ser 115 120 125 Ala Pro Arg Gly Pro Pro Gly Thr Thr Pro Vai Ala Ala Ser Pro Ser 130 135 140 Arg Ala Ser Ser Ser Pro Gly Arg Gly Gly Ser Ser Glu Pro Gly Ser 145 150 155 160 Pro Arg Ser Ala Tyr Ser Ser Asp Asp Ser Gly Cys Glu Gly Ala Leu 165 170 175 Ser Pro Ala Glu Arg Glu Leu Leu Asp Phe Ser Ser Trp Leu Gly Gly 180 185 190

Tyr <210> 3 <211> 262 <212> PRT <213> Humano 90 <400> 3

Met 1 Ser Ala Pro Ala 5 Ala Arg Ser Ala Ser 10 Gly Ala Glu Ala His 15 Arg Ser Arg Ala Leu 20 Ser Ser Pro Leu Thr 25 Ser Trp Arg Ser Arg 30 Vai Ala Arg Ala Pro 35 Gin Asp Ser Ala Arg 40 Leu Arg Ser Arg Cys 45 Arg Pro Thr Ser Arg 50 Arg Asn Ala Gly Ser 55 Arg Ala Pro Ser Cys 60 Pro Arg Gly Pro Gly 65 Thr Lys Lys Arg Gly 70 Arg Ala Arg Arg Arg 75 Pro Gly Trp Ser Leu 80 Ala Ala Arg Gly Ala 85 Gin Thr Ala Ala Arg 90 Pro Ala Ala Ser Ala 95 Leu Pro Pro Ala Arg 100 Cys Ala Arg Arg Arg 105 Ala Arg Pro Ala Gly 110 Ala Ala Ala Arg Gly 11S Cys Thr Pro Arg Leu 120 Ser Ala Ala Ser Pro 125 Pro Cys Ser Ala Ser 130 Cys Trp Arg Arg Arg 135 Ala Ala Arg Ala Ala 140 Ala Ala Pro Gly Ser 145 Pro Ser Ser Pro Ala 150 Ser Arg Gly Cys Ala 15S Arg Ala His Cys Ala 160 Ala Leu Arg Pro Leu 165 Arg Arg Leu Arg Ser 170 Leu Arg Trp Pro Vai 175 Ala Ala Ala Gly Cys 180 Ser Ala Thr Vai Pro 185 Gly Thr Arg Vai Ser 190 Ala Gly Gin Arg Ser 195 Arg Gin Gly Arg Gly 200 Ala Gin Gly Ala Arg 205 Thr Trp Ala

Vai Cys Arg Arg Pro Ser Arg Leu His Pro Pro Ala Arg Ser Arg Ser 210 215 220

Arg Arg Ala Ala Gly Arg Cys Arg Gin Arg Asn Arg Arg Arg Arg Gly 225 230 235 240

Lys Leu Trp Arg Pro Lys Gly Ala Ser Gly Thr Ala Pro Pro Gly Asn 245 250 255

Ser Pro Gly His Ala Ser 260 <210> 4 <211> 1830 <212> ADN <213> Humano 91 <400> 4 gtaccttgct ttgggggcgc actaagtacc tgccgggagc agggggcgca ccgggaactc 60 gcagatttcg ccagttgggc gcactgggga tctgtggact gcgtccgggg gatgggctag 120 ggggacatgc gcacgctttg ggccttacag aatgtgaCcg cgccgagggg gagggccgaa 180 gcgtggcggg agggcgaggc gaaggaagga gggcgtgaga aaggcgacgg cggcggcgcg 240 gaggagggtt atctatacat ttaaaaacca gccgcctgcg ccgcgcctgc ggagacctgg 300 gagagtccgg ccgcacgcgc gggacacgag cgtcccacgc tccctggcgc gtacggcctg 360 ccaccactag gcctcctatc cccgggctcc agacgaccta ggacgcgtgc cctggggagt 420 tgcctggcgg cgccgcgcca gaagccccct tggggcgcca cagttttccc cgtcgcctcc 480 ggttcctctg cctgcacctt cctgcggcgc gccgggacct ggagcgggcg ggtggatgca 540 ggcgcgatgg acggcggcac actgcccagg tccgcgcccc ctgcgccccc cgtccctgtc 600 ggctgcgctg cccggcggag acccgcgtcc ccggaactgt tgcgctgcag ccggcggcgg 660 cgaccggcca ccgcagagac cggaggcggc gcagcggccg tagcgcggcg caatgagcgc 720 gagcgcaacc gcgtgaagct ggtgaacttg ggcttccagg cgctgcggca gcacgtgccg 780 cacggcggcg ccagcaagaa gctgagcaag gtggagacgc tgcgctcagc cgtggagtac 840 atccgcgcgc tgcagcgcct gctggccgag cacgacgccg tgcgcaacgc gctggcggga 900 gggctgaggc cgcaggccgt gcggccgtct gcgccccgcg ggccgccagg gaccaccccg 960 gtcgccgcct cgccctcccg cgcttcttcg tccccgggcc gcgggggcag ctcggagccc 1020 ggctccccgc gteccgccta ctcgtcggac gacagcggct gcgaaggcgc gctgagtcct 1080 gcggagcgcg agctactcga cttctccagc tggttagggg gctactgagc gccctcgacc 1140 taataagccc caagccccgg aaacccgagc gaacgggccg gcgcgcttca tcgccgggga 1200 agcccgccaa ggtggaccgg gcccgcgctc cgcccccagc gagccgggga cccacccacc 1260 acccccegca ccgccgacgc cgcctcgttc gtccggccca gcctgaccaa tgccgcggtg 1320 gaaacgggct tggagctggc cccataaggg ctggcggctt cctccgacgc cgcccctccc 1380 cacagcttct cgactgcagt ggggcggggg gcaccaacac ttggagattt ttccggaggg 1440 gagaggattt tctaagggca cagagaatcc attttctaca cattaacttg agctgctgga 1500 gggacactgc tggcaaacgg agacctattt ttgtacaaag aacccttgac ctggggcgta 1560 ataaagatga cctggacccc tgcccccact atctggagtt ttccatgctg gccaagatct 1620 ggacacgagc agtccctgag gggcggggtc cctggcgtga ggcccccgcg acagcccacc 1680 ctggggtggg tttgtgggca ctgctgctct gctagggaga agcctgtgtg gggcacacct 1740 cttcaaggga gcgtgaactt çataaataaa tcagttctgt ttaaaaaaaa aaaaaaaaaa 1800 aaaaccgagg gggggcccgg agccaacaaa 1830 <210> 5 <211> 587 <212> ADN <213> Humano <400> 5 ggtaaacaga actgatttat ttataaagtt cacgctccct tgaagaggtg tgccccacac 60 aggcttctcc ctagcagagc agcagtgccc acaaacccac cccagggtgg gctgtcacgg 120 gggcctcacg ccagggaccc cgcccctcag ggactgctcg tgtccagatc ttggccagca 180 tggaaaactc cagatagtgg gggcaggggt ccaggtcatc tttattacgc cccaggtcaa 240 gggttctttg tacaaaaata ggtctccgtt tgccagcagt gtccctccag cagctcaagt 300 taatgtgtag aaaatggatt ctctgtgccc ttagaaaatc ctctcccctc cggaaaaatc 360 tccaagtgtt ggtgcccccc gccccactgc agtcgagaag ctgtggggag gggcggcgtc 420 ggaggaagcc gcagcccatt atggggccag ctccaagccc gtttccaccg cggcattggt 480 caggctgggc ggacgaacga ggcggcgtcg gcggtgcggg gggtggtggg tgggtccccg 540 gctcgctggg ggcggagcag cgggccggtc cacctggcgg gctcccc 587 92 <210> 6 <211> 1791 <212> ADN <213> Humano <400> 6 tttttttttt ttttttttta aacagaactg atttatttat aaagttcacg ctcccttgaa 60 gaggtgtgcc ccacacaggc ttctccctag cagagcagca gtgcccacaa acccacccca 120 gggtgggctg tcacgggggc ctcacgccag ggaccccgcc cctcagggac tgctcgtgtc 180 cagatcttgg ccagcatgga aaactccaga tagtgggggc aggggtccag gtcatcttta 240 ttacgcccca ggtcaagggt tctttgtaca aaaataggtc tccgtttgcc agcagtgtcc 300 ctccagcagc tcaagttaat gtgtagaaaa tggattctct gtgcccttag aaaatcctct 360 cccctccgga aaaatctcca agtgttggtg ccccccgccc cactgcagtc gagaagctgt 420 ggggaggggc ggcgtcggag gaagccgcca gcccttatgg ggccagctcc aagcccgttt 480 ccaccgcggc attggtcagg ctgggccgga cgaacgaggc ggcgtcggcg gtgcgggggg 540 tggtgggtgg gtccccggct cgctgggggc ggagcgcggg ccggtccacc tggcgggctc 600 cccggcgatg agcgcgccgg ccgctcgctc ggcttccggg gctgaggctc ataggtcgag 660 ggcgctcagt agccccctaa ccagctggag aagtcgagta gctcgcgctc cgcaggactc 720 agcgcgcctt cgcagccgct gtcgtccgac gagtaggcgg aacgcgggga gccgggctcc 780 gagctgcccc cgcggcccgg ggacgaagaa gcgcgggagg gcgaggcggc gaccggggtg 840 gtccctggcg gcccgcgggg cgcagacggc cgcacggcct gcggcctcag ccctcccgcc 900 agcgcgttgc gcacggcgtc gtgctcggcc agcaggcgct gcagcgcgcg gatgtactcc 960 acggctgagc gcagcgtctc caccttgctc agcttcttgc tggcgccgcc gtgcggcacg 1020 tgctgccgca gcgcctggaa gcccaagttc accagcttca cgcggttgcg ctcgcgctca 1080 ttgcgccgcg ctacggccgc tgcgccgcct ccggtctctg cggtggccgg tcgccgccgc 1140 cggctgcagc gcaacagttc cggggacgcg ggtctccgcc gggcagcgca gccgacaggg 1200 acggggggcg cagggggcgc ggacctgggc agtgtgccgc cgtccatcgc gcctgcatcc 1260 acccgcccgc tccaggtccc ggcgcgccgc aggaaggtgc aggcagagga accggaggcg 1320 acggggaaaa ctgtggcgcc ccaagggggc ttctggcacg gcgccgccag gcaactcccc 1380 agggcacgcg tcctaggtcg tctggagccc ggggatagga ggcctagtgg tggcaggccg 1440 tacgcgccag ggagcgtggg acgctcgtgt cccgcgcgtg cggccggact ctcccaggtc 1500 tccgcaggcg cggcgcaggc ggctggtttt taaatgtata gataaccctc ctccgcgccg 1560 ccgccgtcgc ctttctcacg ccctccttcc ttcgcctcgc cctcccgcca cgcttcgccc 1620 tccccctcgc gcgatcacat tctgtaaggc ccaaagcgtg cgcatgtccc cctagcccat 1680 cccccggacg cagtccacag atccccagtg cgcccaactg gcgaaatctg cgagttcccg 1740 gtgcgccccc tgctcccggc aggtacttag tgcgccccca aagcaaggta c 1791 <210> 7 <211> 361 <212> PRT <213> Humano 93 <400> 7

Met Cys 1 Arg Lys Trp 5 Ile Leu Cys Arg Lys Asn Leu 20 Gin vai Leu Vai Ser Cys Gly 35 Glu Gly Arg Arg Arg 40 Pro Ala 50 Pro Ser Pro Phe Pro 55 Pro Arg Thr 55 Arg Arg Arg Arg 70 Arg Cys Leu Ala Gly Gly Gly 85 Ala Arg Ala Gly Abp Glu Ala 100 Arg Arg Pro vai Leu Ile Arg 115 Ser Arg Ala Leu Ser 120 Arg Vai 130 Ala Arg Ala Pro Gin 135 Asp Arg Pro 145 Thr Ser Arg Arg 150 Asn Ala Arg Gly Pro Gly Thr 165 Lys Lys Arg Trp Ser Leu Ala 180 Ala Arg Gly Ala Ser Ala Leu 195 Pro Pro Ala Arg Cys 200 Gly Ala 210 Ala Ala Arg Gly Cys 215 Thr Pro Cys 225 Ser Ala Ser Cys 230 Trp Arg Ala Pro Gly Ser Pro 24 5 Ser Ser Pro His Cys Ala Ala 260 Leu Arg Pro Leu Pro Vai Ala 275 Ala Ala Gly Cys Ser 280 Ser Ala 290 Gly Gin Arg Ser Arg 295 Gin Thr Trp 305 Ala Vai Cys Arg 310 Arg Pro Ser Arg Ser Arg Arg 325 Ala Ala Gly Arg Arg Gly Lys 340 Leu Trp Arg Pro Pro Gly Asn 355 Ser Pro Gly His Ala 360

Ala Leu 10 Arg Lys Ser Ser Pro 15 Leu Pro 25 Pro Ala Pro Leu Gin 30 Ser Arg Arg Lys Pro Pro Ala 45 Leu Met Gly Arg His Trp Ser 60 Gly Trp Ala Gly Gly Gly Trp 75 Trp Vai Gly Pro Arg 80 Arg Ser 90 Thr Leu Ala Gly Phe 95 Pro Arg 105 Ser Gly Phe Arg Gly 110 Leu Arg Ser Pro Leu Thr Ser 125 Trp Arg Ser Ser Ala Arg Leu 140 Arg Ser Arg Cys Gly Ser Arg 155 Ala Pro Ser Cys Pro 160 Gly Arg 170 Ala Arg Arg Arg Pro 175 Gly Gin 185 Thr Ala Ala Arg Pro 190 Ala Ala Ala Arg Arg Arg Ala 205 Arg Pro Ala Pro Arg Leu Ser 220 Ala Ala Ser Pro Arg Arg Ala 235 Ala Arg Ala Ala Ala 240 Ala Ser 250 Arg Gly Cys Ala Arg 255 Ala Arq 265 Arg Leu Arg Ser Leu 270 Arg Trp Ala Thr Vai Pro Gly 285 Thr Arg Vai Gly Arg Gly Ala Gin Gly Ala Arg 200

Ser Arg Leu 315 His Pro Pro Ala Arg 320 Arg Cys 330 Arg Gin Arg Asn Arg 335 Arg Lys 345 Ser Gly Ala Ser Gly Thr 350 Ala Pro 94

<210> 8 <211> 849 <212> ADN <213> Vírus influenza & humano <400> 8 atggatccaa acactgtgtc aagctttcag gtagattgct ttctttggca tgtccgcaaa 60 cgagttgcag accaagaact aggtgatgcc ccattccttg atcggcttcg ccgagatcag 120 aaatccctaa gaggaagggg cagcaccctc ggtctggaca tcgagacagc cacacgtgct 180 ggaaagcaga tagtggagcg gattctgaaa gaagaatccg atgaggcact taaaatgacc 240 atggacggcg gcacactgcc caggtccgcg ccccctgcgc cccccgtccc tgtcggctgc 300 gctgcccggc ggagacccgc gtccccggaa ctgttgcgct gcagccggcg gcggcgaccg 360 gccaccgcag agaccggagg cggcgcagcg gccgtagcgc ggcgcaatga gcgcgagcgc 420 aaccgcgtga agctggtgaa cttgggcttc caggcgctgc ggcagcacgt gccgcacggc 480 ggcgccagca agaagctgag caaggtggag acgctgcgct cagccgtgga gtacatccgc 540 gcgctgcagc gcctgctggc cgagcacgac gccgtgcgca acgcgctggc gggagggctg 600 aggccgcagg ccgtgcggcc gtctgcgccc cgcgggccgc cagggaccac cccggtcgcc 660 gcctcgccct cccgcgcttc ttcgtccccg ggccgcgggg gcagctcgga gcccggctcc 720 ccgcgttccg cctactcgtc ggacgacagc ggctgcgaag gcgcgctgag tcctgcggag 780 cgcgagctac tcgacttctc cagctggtta gggggctaca ctagtggcca ccatcaccat 840 caccattaa 849

<210> 9 <211> 849 <212> ADN <213> Vírus influenza & humano <400> 9 atggatccaa acactgtgtc aagctttcag gtagattgct ttctttggca tgtccgcaaa 60 cgagttgcag accaagaact aggtgatgcc ccattccttg atcggcttcg ccgagatcag 120 aaatccctaa gaggaagggg cagcaccctc ggtctggaca tcgagacagc cacacgtgct 180 ggaaagcaga tagtggagcg gattctgaaa gaagaatccg atgaggcact taaaatgacc 240 atggacggcg gcaccctgcc gcgttccgcg ccgccggcgc cgccagttcc ggttggctgc 300 gctgcccgtc gccgtcccgc gtccccggaa ctgctgcgct gcagccgtcg ccgtcgeccg 360 gccaccgcag agaccggagg cggcgcagcg gccgtagcgc ggcgcaatga gcgcgagcgc 420 aaccgcgtga agctggtgaa cttgggcttc caggcgctgc ggcagcacgt gccgcacggc 480 ggcgccagca agaagctgag caaggtggag acgctgcgct cagccgtgga gtacatccgc S40 gcgctgcagc gcctgctggc cgagcacgac gccgtgcgca acgcgctggc gggagggctg 600 aggccgcagg ccgtgcggcc gtctgcgccc cgcgggccgc cagggaccac cccggtcgcc 660 gcctcgccct cccgcgcttc ttcgtccccg ggccgcgggg gcagctcgga gcccggctcc 720 ccgcgttccg cctactcgtc ggacgacagc ggctgcgaag gcgcgctgag tcctgcggag 780 cgcgagctac tcgacttctc cagctggtta gggggctaca ctagtggcca ccatcaccat 840 caccattaa 849 95 <210> 10

<211> 282 <212> PRT <213> Vírus influenza & humano <40 0> 10

Phe Gin Val Asp Cys Phe Leu Trp Gin 10 Glu Leu Gly Asp Ala 15 Pro Phe 25 Lys Ser Leu Arg 30 Gly Arg Gly Ser Ala Thr Arg Ala 45 Gly Lys Gin Ile Ser Asp Glu 60 Ala Leu Lys Met Thr Ser Ala 75 Pro Pro Ala Pro Pro 80 Val Arg 90 Pro Ala Ser Pro Glu 95 Leu Leu 105 Ala Thr Ala Glu Thr 110 Gly Gly Gly Glu Arg Glu Arg 125 Asn Arg Val Lys Leu Arg Gin 140 His Val Pro His Gly val Glu 155 Thr Leu Arg Ser Ala 160 Val Leu 170 Leu Ala Glu His Asp 175 Ala Val 185 Arg Pro Gin Ala Val 190 Arg Pro Ser Thr Pro val Ala 205 Ala Ser Pro Ser Gly Gly Ser 220 Ser Glu Pro Gly Ser Asp Ser 235 Gly Cys Glu Gly Ala 240 Leu Asp 250 Phe Ser Ser Trp Leu 255 Gly Gly 265 His His 270

Met 1 Asp Pro Asn Thr 5 val Ser Ser HiS Vai Arg Lys 20 Arg Val Ala Asp Leu ASp Arg 35 Leu Arg Arg Asp Gin 40 Thr Leu 50 Gly Leu Asp Ile Glu 55 Thr Vai 65 Glu Arg Ile Leu Lys 70 Glu Glu Met Asp Gly Gly Thr 85 Leu Pro Arg Pro val Gly Cys 100 Ala Ala Arg Arg Arg Cys Ser 115 Arg Arg Arg Arg Pro 120 Ala Ala 130 Ala Val Ala Arg Arg 135 Asn Leu 145 Val Asn Leu Gly Phe 150 Gin Ala Gly Ala Ser Lys Lys 165 Leu Ser Lys Glu Tyr lie Arg 180 Ala Leu Gin Arg Arg Asn Ala 195 Leu Ala Gly Gly Leu 200 Ala Pro 210 Arg Gly Pro Pro Gly 215 Thr Arg 225 Ala Ser Ser Ser Pro 230 Gly Arg Pro Arg Ser Ala Tyr 245 Ser Ser Asp Ser Pro Ala Glu 260 Arg Glu Leu Leu Tyr Thr Ser 275 Gly His His His His 280 96 <210> 11 <211> 193 <212> PRT <213> Humano <400> 11

Met Tyr Ser Thr Ala Glu Arg Ser Vai Ser Thr Leu Leu Ser Phe Leu 15 10 15

Leu Ala Pro Pro Cys Gly Thr Cys Cys Arg Ser Ala Trp Lys Pro Lys 20 25 30

Phe Thr Ser Phe Thr Arg Leu Arg Ser Arg Ser Leu Arg Arg Ala Thr 35 40 45

Ala Ala Ala Pro Pro Pro Vai Ser Ala Vai Ala Gly Arg Arg Arg Arg 50 55 60

Leu Gin Arg Asn Ser Ser Gly Asp Ala Gly Leu Arg Arg Ala Ala Gin 55 70 75 80

Pro Thr Gly Thr Gly Gly Ala Gly Gly Ala Asp Leu Gly Ser Vai Pro 85 90 95

Pro Ser Ile Ala Pro Ala Ser Thr Arg Pro Leu Gin Vai Pro Ala Arg 100 105 no

Arg Arg Lys Vai Gin Ala Glu Glu Pro Glu Ala Thr Gly Lys Thr Vai 115 120 125

Ala Pro Gin Gly Gly Phe Trp His Gly Ala Ala Arg Gin Leu Pro Arg 130 135 140

Ala Arg Vai Leu Gly Arg Leu Glu Pro Gly Asp Arg Arg Pro Ser Gly 145 150 155 160

Gly Arg Pro Tyr Ala Pro Gly Ser Vai Gly Arg Ser Cys Pro Ala Arg 165 170 175

Ala Ala Gly Leu Ser Gin Vai Ser Ala Gly Ala Ala Gin Ala Ala Gly 180 185 190

Phe <210> 12 <211> 263 <212> PRT <213> Murganho 97 <40 0> 12

Met Glu Ala His Leu Asp Trp Tyr Gly Vai Pro Gly Leu Gin Glu Ala 1 Ser Asp Ala 5 Cys Pro Arg Glu Ser Cys 10 Ser Ser Ala Leu Pro 15 Glu Ala Arg Glu Gly 20 Ala Asn Vai His Phe 25 Pro Pro His Pro Vai 30 Pro Arg Glu His Phe 35 Ser Cys Ala Ala Pro 40 Glu Leu Vai 45 Ala Gly Ala Gin Gly Leu Asn 50 Ala Ser 55 Leu Met Asp Gly Gly Ala Leu 60 Pro Arg Leu Met Pro Thr 65 Ser Ser Gly 70 Vai Ala Gly Ala Cys Ala Ala 75 Arg Arg Arg Gin Ala 80 Ser Pro Glu Leu 85 Leu Arg Cys Ser Arg Arg 90 Arg Arg Ser Gly Ala 95 Thr Glu Ala Ser Ser 100 Ser Ser Ala Ala Vai 105 Ala Arg Arg Asn Glu 110 Arg Glu Arg Asn Arg 115 Vai Lys Leu Vai Asn 120 Leu Gly Phe 125 Gin Ala Leu Arg Gin His Vai 130 Pro His Gly Gly Ala 135 Asn Lys Lys Leu 140 Ser Lys Vai Glu Thr Leu 145 Arg Ser Ala 150 Vai Glu Tyr Ile Arg Ala Leu 155 Gin Arg Leu Leu Ala 160 Glu His Asp Ala 165 Vai Arg Ala Ala Leu Ala 170 Gly Gly Leu Leu Thr 175 Pro Ala Thr Pro Pro 180 Ser Asp Glu Cys Ala 185 Gin Pro Ser Ala Ser 190 Pro Ala Ser Ala Ser 195 Leu Ser Cys Ala Ser 200 Thr Ser Pro 205 Ser Pro Asp Arg Leu Gly Cys 210 Ser Glu Pro Thr Ser 215 Pro Arg Ser Ala 220 Tyr Ser Ser Glu Glu Ser 225 Ser Cys Glu 230 Gly Glu Leu Ser Pro Met Glu 235 Gin Glu Leu Leu Asp 240 Phe 245 250 255

Ser Ser Trp Leu Gly Gly Tyr 260 <210> 13 <211> 1051 <212> ADN <213> Murganho 98 <400> 13 gcccggagca tggaagcacg tcagctaggc catgaactgc acccgggagg ggtgggggtg 60 gaagcgcacg gtgtcagctt tgcagaatgt gtacaccaag gggagggcga ggcgaaggaa 120 ggagggcgta agaaaggagg cggtggcggg gcggaggaga ttatctatac tccttaaaaa 180 aaaggagcct cttagccgcg taaaggagac ttggggagcg cctgacagca cgcgcgggac 240 acgagagtac cacgcttccc cacccttttc agaccttgac tggtacgggg tcccaggact 300 gcaggaggcc agcgacgcgt gccctaggga gtcctgcagc agtgccctgc ctgaggcccg 360 tgaaggtgca aacgtccact tcccaccgca cccggttcct cgcgagcact tttcctgtgc 420 cgcaccagaa ctcgtagcag gggcccaggg gctgaatgca agcttgatgg acggcggcgc 480 gctgcccaga ctcatgccca cctcgtctgg agtcgctgga gcctgcgctg ctcggcggag 540 acaagcgtct ccggaattgc tgcgctgcag ccggcggcgg cgatctggag caaccgaggc 600 cagcagcagc tcggcgtccg tggcacgccg caatgagcgc gagcgcaacc gcgtaaagct 660 ggtaaacttg ggcttccagg cgctgcggca gcacgtgccg cacggcggcg ccaacaagaa 720 gctgagtaag gtggagacgc tgcgctccgc ggtagagtac attcgtgcgc tgcagcggct 780 gctcgcagag cacgacacgg tgcggccggn gctcgctggg gggctgttaa cacccgctac 840 tccgccgtcc gatgagtgca cgcagccctc tgcctcccct gccagcgggt ctctgtcctg 900 cgcctctacg tctccgtccc ggaccctggg ctgctctgag cctacctccc cgcgctccgc 960 ctactcgtcg gaggaaagca gctgcgaggg agagctaagc ccgatggagc aggagctgct 1020 tgacttttcc agttggttag ggggctactg a 1051 <210> 14 <211> 260 <212> PRT <213> Rato <400> 14

Met Glu Ser His Phe Asn Trp Tyr Gly Val Pro Arg Leu Gin Lys Ala 1 5 10 15 Ser Asp Ala Cys Pro Arg Glu Ser Cys Ser Ser Ala Leu Pro Glu Ala 20 25 30 Arg Glu Gly Ala Asn Vai His Phe Pro Pro His Pro Val Pro Arg Glu 35 40 45 His Phe Ser Cys Gly Ala Pro Lys Pro Val Ala Gly Ala Pro Ala Leu 50 55 60 Asn Ala Ser Leu Met Asp Gly Gly Ala Leu Pro Arg Leu Val Pro Thr 65 70 75 80 Ser Ser Gly Vai Ala Gly Ala Cys Thr Ala Arg Arg Arg Pro Pro Ser 85 90 95 Pro Glu Leu Leu Arg Cys Ser Arg Arg Arg Arg Ser Gly Ala Thr Glu 100 105 110 Ala Ser Ser Ser Ser Ala Ala Val Ala Arg Arg Asn Glu Arg Glu Arg 115 120 125 Asn Arg Vai Lys Leu Vai Asn Leu Gly Phe Gin Ala Leu Arg Gin His 130 135 140 Vai Pro His Gly Gly Ala Asn Lys Lys Leu Ser Lys Val Glu Thr Leu 145 150 155 160 Arg Ser Ala Vai Glu Tyr lie Arg Ala Leu Gin Arg Leu Leu Ala Glu 165 170 175 His Asp Ala Vai Arg Ala Ala Leu Ser Gly Gly Leu Leu Thr Pro Ala 180 185 190 99

Thr Arg Pro Ser Asp Vai Cys Thr Gin Pro Ser Ala Ser Pro Ala Ser 195 200 205

Ala Ser Leu Ser Cys Thr Ser Thr Ser Pro Asp Arg Leu Gly Cys Ser 210 215 220

Glu Pro Ala Ser Pro Arg Ser Ala Tyr Ser Ser Glu Asp Ser Ser Cys 225 230 235 240

Glu Gly Glu Thr Tyr Pro Met Gly Gin Met Phe Asp Phe Ser Asn Trp 245 250 255

Leu Gly Gly Tyr 260 <210> 15 <211> 1526 <212> ADN <213> Rato <400> 15 ttcacccggc tgcaagcgct aggtgtacgg agacctggca gctcttgggg cttaaggact 60 gagcrccaga gccggtggag gttcctgtgg agtacattcg gaccctctca cagcccccga 120 gagtgcggga cgtgcggagc gcagttcggg atctgcactc gaggacttgt cgaggacgca 180 ttaagctaag catctgctcg gagcatggaa tcgcacttta actggtacgg ggtcccaagg 240 ctccagaagg ctagcgacgc gtgccctagg gaatcctgca gcagtgccct gcctgaggcc 300 cgtgaaggtg cgaacgtcca cttcccaccg cacccggttc ctcgcgagca cttttcctgt 360 ggcgcaccga aacccgtagc gggggccccg gcgctgaatg caagcttgat ggacggcggc 420 gcgctgccca gactcgtgcc cacctcgtct ggagtcgctg gagcctgcac tgctcggcgg 480 agacccccgt ccccggaact gcttcgctgc agccgacggc ggcgatcggg agcaaccgag 540 gccagcagca gctcggcggc cgtggcacgc cgcaatgagc gtgagcgcaa ccgcgtaaag 600 ctggtaaact tgggcttcca ggcgctgcgg cagcacgtgc cgcacggcgg cgccaacaag 660 aagctgagta aggtggagac gctgcgctcc gcggtagagt acatccgtgc gctgcagcgg 720 ctgctagcag agcacgacgc ggtgcgtgct gcgctctctg ggggtctatt aacacccgct 780 actcggccgt ccgatgtgtg cacgcagccc tccgcctccc ctgccagcgc gtctctgtcc 840 tgcacctcta catccccaga ccgcctaggc tgctccgagc ctgcctctcc gcgctccgcc 900 tactcgtcgg aggacagcag ctgcgaggga gagacttacc cgatggggca gatgtttgac 960 ttttccaatt ggttaggggg ctactgagca ccccacaccc ctaagctgcg tccctgggtg 1020 tcccctggtg gacctacctg cgtttcttgc ccaggaaacc tgggcccatg ccttacccat 1080 gctgtctagt gcagcctgac caaatgccaa gtactgacct ctgctcggcc tccacgccgc 1140 ggaatgacat cttccatctc ccagtccttg ccgaaccagg acttggaaat ttctcaggag 1200 aaagaatttt acaatgacaa tctgcttttt atcaattaac ttgaactgct ggaggactct 1260 gctgaaaata tgaagaatta tttttataca aaggatcctt aagcttggag cacaataaag 1320 atgacctctg tctctcaccc ccactgtcta gaactttcca acctggccaa agtgtggacg 1380 ggtcgggccc tgagggcaag atgcctggct gcacccttct tcctcttccg aagcctatcc 1440 tgacgctgat gtttggccag tgtgggaacc ctgctattgc aaagtgtact attctataaa 1500 agttgttttt cattggaaag gaattc 1526 100 <210> 16 <211> 10 <212> PRT <213> Humano <400> 16

Lys Leu Vai Asn Leu Gly Phe Gin Ala Leu 1 <210> 17 <211> 9 <212> PRT <213> Humano <400> 17

Glu Leu Leu Asp Phe Ser Ser Trp Leu 1 5 <210> 18 <211> 9 <212> PRT <213> Humano <400> 18

Arg Leu Leu Ala Glu His Asp Ala Vai 1 5 <210> 19 <211> 9 <212> PRT <213> Humano 101 <40 0> 19

Lys Leu Vai Asn Leu Gly Phe Gin Ala 1 5 <210> 20 <211> 9 <212> PRT <213> Humano <400> 20

Glu Tyr Ile Arg Ala Leu Gin Arg Leu 1 5 <210> 21 <211> 10 <212> PRT <213> Humano <400> 21

Glu Tyr Ile Arg Ala Leu Gin Arg Leu Leu 15 10 <210> 22 <211> 10 <212> PRT <213> Humano <400> 22

Ala vai Arg Asn Ala Leu Ala Gly Gly Leu 1 5 10 102 <210> 23 <211> 10 <212> PRT <213> Humano <400> 23

Ser Glu Pro Gly Ser Pro Arg Ser Ala Tyr 1 <210> 24 <211> 10 <212> PRT <213> Humano <400> 24

Vai Glu Thr Leu Arg Ser Ala Vai Glu Tyr 15 10 <210> 25 <211> 9 <212> PRT <213> Humano <400> 25

Ile Arg Ala Leu Gin Arg Leu Leu Ala 1 <210> 26 <211> 9 <212> PRT <213> Humano 103 <400> 26

Leu Arg Pro Gin Ala Vai Arg Pro Ser 1 5 <210> 27 <211> 9 <212> PRT <213> Humano <400> 27

Leu Arg Gin His Vai Pro His Gly Gly 1 5 <210> 28 <211> 9 <212> PRT <213> Humano <400> 28

Leu Gly Phe Gin Ala Leu Arg Gin His 1 5 <210> 29 <211> 9 <212> PRT <213> Humano <400> 29

Val Arg Asn Ala Leu Ala Gly Gly Leu 1 5 104 <210> 30 <211> 9 <212> PRT <213> Humano <400> 30

Tyr Ile Arg Ala Leu Gin Arg Leu Leu 1 5 <210> 31 <211> 9 <212> PRT <213> Humano <400> 31

Leu Vai Asn Leu Gly Phe Gin Ala Leu 1 5 <210> 32 <211> 9 <212> PRT <213> Humano <400> 32

Val Glu Tyr Ile Arg Ala Leu Gin Arg 1 S <210> 33 <211> 9

<212> PRT <213> Humano 105 <400> 33

Leu Leu Arg Cys Ser Arg Arg Arg Arg 1 5

Lisboa, 29 de Agosto de 2012 106

Claims

REIVINDICAÇÕES 1. Kit de diagnóstico para a realizaçao de um ensaio de diagnóstico que compreende: (a) um polinucleótido compreendendo uma sequência nucleotidica codificando o polipéptido da SEQ ID N°: 2, ou um seu fragmento; (b) a sequência polinucleotidica da SEQ ID N°: 1, ou um seu fragmento; (c) um polinucleótido obtenível pelo rastreio de uma biblioteca apropriada, sob condições de hibridação severas, com uma sonda marcada tendo a sequência da SEQ ID N°: 1, ou um seu fragmento, o referido polinucleótido codificando a proteína que tem propriedades imunogénicas semelhantes às da proteína da SEQ ID N°: 2. (d) um polipéptido da SEQ ID N°: 2, ou um seu fragmento; ou (e) um anticorpo para o polipéptido da SEQ ID N°: 2.
2. Processo para o diagnóstico de uma doença ou uma susceptibilidade a uma doença num indivíduo, ou para o diagnóstico da presença de cancro colorrectal ou uma susceptibilidade a cancro colorrectal num indivíduo, relacionado com a expressão ou actividade de um polinucleótido num indivíduo, compreendendo a análise para a presença ou quantidade do polinucleótido numa amostra derivada do referido indivíduo, no qual o polinucleótido é seleccionado do grupo compreendendo: (a) um polinucleótido compreendendo uma sequência nucleotidica codificando o polipéptido da SEQ ID N°: 2; 1 (b) o polinucleótido ou a região codificante do polinucleótido da SEQ ID N°: 1; e (c) um polinucleótido obtenível pelo rastreio de uma biblioteca apropriada, sob condições de hibridação severas, com uma sonda marcada tendo a sequência da SEQ ID N°: 1, ou um seu fragmento, o referido polinucleótido codificando a proteína que tem propriedades imunogénicas semelhantes às da proteína da SEQ ID N°: 2.
3. Processo para o diagnóstico de uma doença ou uma susceptibilidade a uma doença num indivíduo, ou para o diagnóstico da presença de cancro colorrectal ou uma susceptibilidade a cancro colorrectal num indivíduo, relacionado com a expressão ou actividade de um polipéptido num indivíduo, compreendendo a análise para a presença ou quantidade do polipéptido numa amostra derivada do referido indivíduo, no qual o polipéptido é seleccionado do grupo compreendendo: (a) um polipéptido compreendendo uma sequência de aminoácidos que tem, pelo menos, 70% de identidade com SEQ ID N°: 2 ao longo do comprimento integral da SEQ ID N°: 2; (b) um polipéptido compreendendo a sequência de aminoácidos da SEQ ID N°: 2; (c) um polipéptido compreendendo um fragmento imunogénico de um polipéptido da SEQ ID N°: 2, no qual a actividade imunogénica do fragmento imunogénico é substancialmente a mesma que a do polipéptido da SEQ ID N°: 2; 2 (d) um fragmento peptídico da SEQ ID N°: 2, em que o fragmento compreende uma sequência de uma ou mais da SEQ ID N°: 16 a SEQ ID N°: 33. Lisboa, 29 de Agosto de 2012 3