BIST Conversions aa -> nucléotides

Objectif : A partir d'une séquence d'acides nucléiques, être capable de déterminer la bonne séquence d'a.a. prendre conscience des problèmes de phase et des difficultés de distinguer les séquences codantes.

Remarque : Ce scénario n’a pas pour but de faire de la prédiction de gène, puisqu'on part d'un ARNm on va juste faire de la traduction. Pour faire de la vraie "prédiction de gène" à partir d'une séquence génomique voir scénario 12 et les problèmes associés.

Nous allons

Prendre une séquence en acides nucléiques du scénario 2 (une séquence mRNA, déjà épissée),
la traduire (en utilisant le bon code génétique)
essayer de trouver la bonne séquence de la protéine,
calculer le poids moléculaire de la protéine.

1. Prendre une séquence en acides nucléiques

Prenez par exemple l'entrée NM_000207.1 dans EntrezGene (solution)

Mettez la séquence en format "FASTA": c'est le format compatible pour les programmes qui "travaillent" avec des séquences. Pour cela sélectionnez dans le menu DISPLAY le format"FASTA"

>gi|4557670|ref|NM_000207.1| Homo sapiens insulin (INS), mRNA GCTGCATCAGAAGAGGCCATCAAGCACATCACTGTCCTTCTGCCATGGCCCTGTGGATGCGCCTCCTGCC CCTGCTGGCGCTGCTGGCCCTCTGGGGACCTGACCCAGCCGCAGCCTTTGTGAACCAACACCTGTGCGGC TCACACCTGGTGGAAGCTCTCTACCTAGTGTGCGGGGAACGAGGCTTCTTCTACACACCCAAGACCCGCC GGGAGGCAGAGGACCTGCAGGTGGGGCAGGTGGAGCTGGGCGGGGGCCCTGGTGCAGGCAGCCTGCAGCC CTTGGCCCTGGAGGGGTCCCTGCAGAAGCGTGGCATTGTGGAACAATGCTGTACCAGCATCTGCTCCCTC TACCAGCTGGAGAACTACTGCAACTAGACGCAGCCCGCAGGCAGCCCCCCACCCGCCGCCTCCTGCACCG AGAGAGATGGAATAAAGCCCTTGAACCAGC

Copier la séquence (Ctrl C ou pomme-C)

2. Traduire en accides aminés

Aller sur le serveur ExPASy http://www.expasy.org/

Cliquez (colonne de droite) dans Tools and software packages sur DNA -> Protein (Translate)

Puis sur "Translate"

Coller la séquence à traduire , puis "Translate sequence"

3. Essayer de trouver la bonne séquence de la protéine,

Il faut maintenant déterminer, parmi les 6 "phases de lectures", laquelle est la bonne : indice: une protéine commence toujours par une méthionine et finit toujours par un codon STOP.

La seule possibilité est 5'->3' dans le frame 2

Met A L W Met R L L P L L A L L A L W G P D P A A A F V N Q H L C G S H L V E A L Y L V C G E R G F F Y T P K T R R E A E D L Q V G Q V E L G G G P G A G S L Q P L A L E G S L Q K R G I V E Q C C T S I C S L Y Q L E N Y C N Stop

On ne sait cependant pas quelle est la première Met.. Il n'y pas de certitude facile sans aller séquencer la protéine .

3 b Complément

Pour vous amuser avec les différents codes génétiques:
Allez sur le serveur d'Infobiogen en France qui possède de nombreux outils: http://vvv.infobiogen.fr/services/menuserv.html
Choisissez "Traduction multiple"
et parmi les options, choisissez le code génétique du noyau des ciliés
Que devient la séquence ?
Elle se trouve dans le frame 3, mais a perdu le codon STOP qui est devenu un "Q" MALWMRLLPLLALLALWGPDPAAAFVNQHLCGSHLVEALYLVCGER GFFYTPKTRREAEDLQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLE NYCNQTQPAGSPPPAASCTERDGIKPLNQ
Si vous préférez travailler avec le code 3 lettres des acides aminés, vous pouvez utiliser l'outil convertisseur suivant: : One-to-three
Si vous souhaitez visualiser les différentes tables @ ebi.

Convertisseur code 1 lettre -> code 3 lettres des acides aminés : One -to-Three | Three to One
Tableau des Abbrév acides aminés à une lettre/ 3lettres

4. Calculer la poids moléculaire de la protéine:

Allez sur Expasy , choisissez dans Tools and software packages
"Primary structure analysis"

Cliquez sur "Compute pI and Mw tool ,

Collez la séquence ltrouvée plus haut (rigoureusement en aa à 1-lettre) et cliquez "Compute pI and Mw"

Résultat: Theoretical pI/Mw: 5.22 / 11980.91

pI : "point isoélectrique" : 5.22 = pH à laquelle la protéine n'est plus chargée (s'immobilise sur un gel d'électrophorèse "isoélectrofocusing" IEF)

Mw : pour "molecular weight" = 11980.91 dalton (1 acide aminé fait environ 100 dalton)
1 mole de cette protéine (= nombre Avogadro de molécules (6.023 x 10 ²³)) pèse 11980.91 grammes

Liens :