Objectif : A partir d'une séquence d'acides nucléiques, être capable de déterminer la bonne séquence d'a.a. prendre conscience des problèmes de phase et des difficultés de distinguer les séquences codantes.
Remarque : Ce scénario n’a pas pour but de faire de la prédiction de gène, puisqu'on part d'un ARNm on va juste faire de la traduction. Pour faire de la vraie "prédiction de gène" à partir d'une séquence génomique voir scénario 12 et les problèmes associés.
Nous allons
Prenez par exemple l'entrée NM_000207.1 dans EntrezGene (solution)
Mettez la séquence en format "FASTA": c'est le format compatible pour les programmes qui "travaillent" avec des séquences. Pour cela sélectionnez dans le menu DISPLAY le format"FASTA"
>gi|4557670|ref|NM_000207.1| Homo sapiens insulin (INS), mRNA
GCTGCATCAGAAGAGGCCATCAAGCACATCACTGTCCTTCTGCCATGGCCCTGTGGATGCGCCTCCTGCC
CCTGCTGGCGCTGCTGGCCCTCTGGGGACCTGACCCAGCCGCAGCCTTTGTGAACCAACACCTGTGCGGC
TCACACCTGGTGGAAGCTCTCTACCTAGTGTGCGGGGAACGAGGCTTCTTCTACACACCCAAGACCCGCC
GGGAGGCAGAGGACCTGCAGGTGGGGCAGGTGGAGCTGGGCGGGGGCCCTGGTGCAGGCAGCCTGCAGCC
CTTGGCCCTGGAGGGGTCCCTGCAGAAGCGTGGCATTGTGGAACAATGCTGTACCAGCATCTGCTCCCTC
TACCAGCTGGAGAACTACTGCAACTAGACGCAGCCCGCAGGCAGCCCCCCACCCGCCGCCTCCTGCACCG
AGAGAGATGGAATAAAGCCCTTGAACCAGC
Copier la séquence (Ctrl C ou pomme-C)
Aller sur le serveur ExPASy http://www.expasy.org/
Cliquez (colonne de droite) dans Tools and software packages sur DNA -> Protein (Translate)
Puis sur "Translate"
Coller la séquence à traduire , puis "Translate sequence"
Il faut maintenant déterminer, parmi les 6 "phases de lectures", laquelle est la bonne : indice: une protéine commence toujours par une méthionine et finit toujours par un codon STOP.
La seule possibilité est 5'->3' dans le frame 2
Met A L W Met R L L P L L A L L A L W G P D P A A A F V N Q H L C G S H L V E A L Y L V C G E R G F F Y T P K T R R E A E D L Q V G Q V E L G G G P G A G S L Q P L A L E G S L Q K R G I V E Q C C T S I C S L Y Q L E N Y C N Stop
On ne sait cependant pas quelle est la première Met.. Il n'y pas de certitude facile sans aller séquencer la protéine .
Convertisseur code 1 lettre -> code 3 lettres des acides aminés : One -to-Three | Three to One
Tableau des Abbrév acides aminés à une lettre/ 3lettres
Allez sur Expasy , choisissez dans Tools and software packages
"Primary structure analysis"
Cliquez sur "Compute pI and Mw tool ,
Collez la séquence ltrouvée plus haut (rigoureusement en aa à 1-lettre) et cliquez "Compute pI and Mw"
Résultat: Theoretical pI/Mw: 5.22 / 11980.91
pI : "point isoélectrique" : 5.22 = pH à laquelle la protéine n'est plus chargée (s'immobilise sur un gel d'électrophorèse "isoélectrofocusing" IEF)
Mw : pour "molecular weight" = 11980.91 dalton (1 acide aminé fait environ 100 dalton)
1 mole de cette protéine (= nombre Avogadro de molécules (6.023 x 10 23)) pèse 11980.91 grammes
Retour à BIST | Swiss-Prot| M.C. Blatter | Projets Home de F. Lo