E-Mail  






.

ANÀLISIS BIOINFORMÀTIC

Ara per realitzar un complet anàlisis bioinformàtic, ens imaginem la situació de que hem ens han informat que hi ha un virus anomenat Tobacco etch virus, que pot ser que al seu genoma estigui codificant una proteïnasa amb la qual el nostre superior al laboratori vol que treballem.

El primer que fem és una recerca al PubMed per veure que hi ha a la bibliografia publicat sobre aquest virus. Tot i que a la bibliografia podem trobar molta informació, sempre és cautelós comprovar que aquesta informació és correcta mitjançant una mica de recerca pel nostre compte.

Per tant, el següent pas és buscar al NCBI el virus, posant “Tobacco etch virus”. D’aquesta forma, veiem que obtenim totes les entrades que hi ha del virus a la xarxa. Podem comprovar que, al tractar-se d’un virus de plantes, no hi ha tanta informació com per la resta d’organismes que tenen alguna mena d’interès, ja sigui econòmic o perquè provoquen alguna malaltia en humans.

A partir d’aquesta pàgina podem buscar molta informació sobre diferents camps de l’organisme d’interès, com per exemple les proteïnes, la taxonomia, els dominis en 3D,...

A nosaltres ens interesa buscar la seqüència del genoma complet. Veiem que només s’ha seqüenciat una vegada el genoma. Podem visualitzar el genoma en diferents formats, com ara:

Amb la informació que obtenim del genoma ja podem veure que aquest és un RNA de 9494 bp que codifica per una única poliproteïna, tenint l’inici de traducció al nucleòtid 144 i el final de traducció al nucleòtid 9308.

També ens informa de que aquesta poliproteïna és processada per donar vàries proteïnes independents. Obtenim la informació de cada una de les proteïnes:

Un cop tenim aquesta informació, fem us del BLAST per llançar la seqüència del nostre genoma complet contra diferents bases de dades. Fem un blastx de la seqüència del genoma complet de TEV en format FASTA però reduïnt la cerca a l’organisme “Tobacco etch virus”, de manera que els resultats obtinguts són el propi genoma però desglosat en les diverses proteïnes que el formen, ja que presenten homología del 100% amb parts del genoma. Per ordre d’esquerra a dreta veiem que les proteïnes més petites que sumades donarien tota la longitud de la poliproteïna coincideixen amb les proteïnes que, tenint en compte la informació que havíem obtingut al trobar el genoma, haviem descrit.

Un punt que pot ser interesant, un cop hem comprovat quina és la proteïnasa NIa, pot ser buscar homología d’aquesta proteïna tant valuosa a nivell de biotecnología amb altres proteïnes d’altres organismes per tal de descobrir si les proteïnes homòlogues podrien també fer les mateixes funcions i en conseqüència, tenir també aplicacions a nivell d’enginyeria de proteïnes.

Per comprovar-ho i buscar proteïnes d’altres organismes que tinguin una similitud de seqüència amb la proteasa NIa, fem un blast-psi de la seqüència FASTA de la proteïna, de manera que ens dóna un alineament múltiple dels dominis conservats de la proteasa respecte altres organismes, que són:

-Ryegrass mosaic virus  O89525
-Sugarcane streak mosaic virus Q9YNB1
-Wheat streak mosaic virus Q9E160
-Sweet potato mild mottle virus P89201
-Wheat yellow mosaic virus Q9QBG1
-Wheat spindle streak mosaic virus Q89255
-Barley yellow mosaic virus Q01206
-Oat mosaic virus (OMV) Q8UZ27
-Barley mild mosaic virus Q9WAA3

Aquestes seqüencies obtingudes de diferents organismes però que tenen homología amb la proteïnasa del TEV les passem a format FASTA per tal de poder fer un alineament múltiple.

Entrem al EMBL-EBI i amb la eina ClustalW fem un alineament de seqüències múltiple per tal de poder veure com de conservats estan aquests dominis entre els diferents organismes que el programa blast-psi ens ha proporcionat.

Amb el resultat obtingut primer de tot veiem que hi ha proteïnes que tenen major longitud que d’altres, i per tant, tot i que tinguin dominis conservats, l’score entre elles no serà molt elevat. A part d’això, també podem veure que realment hi ha molt pocs aminoàcids conservats, i que més aviat s’assemblen més entre els diferents organismes que no pas amb la proteïnasa NIa del TEV.

El cladograma obtingut és:

I el filograma és:

En tots dos casos podem veure que la proteïna més semblant a la proteïnasa NIa és la de l’organisme Ryegrass mosaic virus, però que de totes maneres la distància entre aquestes dues és molt gran.

Si representem aquests organismes mitjançant el TreeViewer, obtenim l'arbre radial, el cladograma i el filograma següents, respectivament:

Arbre radial

 

Cladograma

 

Filograma

 

A part d’aquest resultats, mitjançant la base de dades de proteïnes (PDB) es van poder identificar 7 proteïnes amb una similitud estructural molt elevada amb la proteasa de TEV. De totes maneres, totes aquestes proteïnes només mostren una similitud limitada amb la seqüència de la proteasa, entre un 11 i 19% pels segments alineats.

Les dues estructures amb major similitud amb la proteasa de TEV són les 3C proteases:

  • proteasa del virus de la hepatitis A (Codi PDB: 1hav)
  • proteasa de rinovirus (Codi PDB: 1cqq)

Les dues són cisteín proteases amb un plegament Trypsin-like que juguen un paper similar a la proteasa de TEV als seus respectius virus.

També hi ha serín proteases que mostren similitud amb la proteasa de TEV:

  • β-tripsina (codi PDB: 5ptp)
  • domini proteasa del factor B (codi PDB:1dle)
  • toxina A de Staphylococcus aureus (codi PDB: 1agj)
  • proteasa I específica de Lys de Achromobacter lyticus (codi PDB: 1arb)

Sabent aquestes dades per la bibliografia, fem un alineament múltiple d’aquestes seqüències. Amb els resultats que ens dóna el ClustalW podem veure els resultats esperats, és a dir, que tenen molt poca similitud a la seva seqüència, tal i com també ens mostra el cladograma:

Però tot i que l’alineament múltiple de les seqüències no proporciona molta similitud, a la bibliografia es troben diferents superposicions de l’estructura en 3D d’aquestes proteïnes, amb la qual cosa podem veure que si que tenen una organització molt similar a l’espai:

Superposició estructures 3D proteases
Superposició de la proteasa de TEV (negre) amb la proteasa 3C de rhinovirus (blava), β-trypsin (verda) i proteasa I específica de Lys de Achromobacter lyticus (vermella)

 

A més a més de tota aquesta informació que podem obtenir a la xarxa sobre qualsevol proteïna i com relacionar-la amb proteïnes similars d’altres organismes, també existeix la base de dades de proteïnes “Protein Data Bank” PDB, a la qual si introduïm el nom de la proteïna d’interès, en aquest cas la Proteïnasa NIa, podem trobar molta més informació, com ara diferents programes que mostren l’estructura en 3D, als quals pots jugar movent la proteïna o diferenciant les regions que la composen amb diferents colors,...

NIa proteinasa

 

 

   


BioComputació 2007©. Proteinasa NIa TEV