BIST 7b Conversions aa -> nucléotides

Objectif : A partir d'une séquence d'acides nucléiques, être capable de déterminer la bonne séquence d'a.a. prendre conscience des problèmes de phase et des difficultés de distinguer les séquences codantes.

Attention : ce scénario n'a pas été révisé depuis janvier. 2007 au rythme ou lees choses changent, il faut s'attendre à ce que certains liens ne fonctionnent plus ou que l'apparence voire la structure de certains sites aitent changés considérablement. Il nous parait toutefois largemetn utilisable pour qui veut bien faire l'effort de chercher un peu.

Remarque : Ce scénario n’a pas pour but de faire de la prédiction de gène. Pour faire de la vraie "prédiction de gène" à partir d'une séquence génomique voir scénario 12 et les problèmes associés.

Nous allons

Prendre une séquence en acides nucléiques du scénario 2 (une séquence mRNA, déjà épissée),
la traduire (en utilisant le bon code génétique)
essayer de trouver la bonne séquence de la protéine,
calculer le poids moléculaire de la protéine.

Prenez par exemple l'entrée NM_000207.1 dans EntrezGene (solution)

Mettez la séquence en format "FASTA": c'est le format compatible pour les programmes qui "travaillent" avec des séquences. Pour cela sélectionnez dans le menu DISPLAY le format"FASTA"

>gi|4557670|ref|NM_000207.1| Homo sapiens insulin (INS), mRNA GCTGCATCAGAAGAGGCCATCAAGCACATCACTGTCCTTCTGCCATGGCCCTGTGGATGCGCCTCCTGCC CCTGCTGGCGCTGCTGGCCCTCTGGGGACCTGACCCAGCCGCAGCCTTTGTGAACCAACACCTGTGCGGC TCACACCTGGTGGAAGCTCTCTACCTAGTGTGCGGGGAACGAGGCTTCTTCTACACACCCAAGACCCGCC GGGAGGCAGAGGACCTGCAGGTGGGGCAGGTGGAGCTGGGCGGGGGCCCTGGTGCAGGCAGCCTGCAGCC CTTGGCCCTGGAGGGGTCCCTGCAGAAGCGTGGCATTGTGGAACAATGCTGTACCAGCATCTGCTCCCTC TACCAGCTGGAGAACTACTGCAACTAGACGCAGCCCGCAGGCAGCCCCCCACCCGCCGCCTCCTGCACCG AGAGAGATGGAATAAAGCCCTTGAACCAGC

Copier la séquence (Ctrl C ou pomme-C)

Aller sur le serveur ExPASy http://www.expasy.org/

Cliquez (colonne de droite) dans Tools and software packages sur DNA -> Protein (Translate)

Puis sur "Translate"

Coller la séquence à traduire , puis "Translate sequence"

Il faut maintenant déterminer, parmi les 6 "phases de lectures", laquelle est la bonne : indice: une protéine commence toujours par une méthionine et finit toujours par un codon STOP.

La seule possibilité est 5'->3' dans le frame 2

Met A L W Met R L L P L L A L L A L W G P D P A A A F V N Q H L C G S H L V E A L Y L V C G E R G F F Y T P K T R R E A E D L Q V G Q V E L G G G P G A G S L Q P L A L E G S L Q K R G I V E Q C C T S I C S L Y Q L E N Y C N Stop

On ne sait cependant pas quelle est la première Met.....

La question du frame séquence apparaît de manière plus claire si vous re-traduisez :

Après avoir choisi dans le menu "include DNA séquence", copiez (FASTA) la séquence protéique supposée.

Aller sur le serveur ExPASy-> Translate

Choisir Reverse Translate Coller la séquence virtuelle de protéine et cliquer submit

On obtient :

atggcgctgtggatgcgcctgctgccgctgctggcgctgctggcgctgtggggcccggat ccggcggcggcgtttgtgaaccagcatctgtgcggcagccatctggtggaagcgctgtat ctggtgtgcggcgaacgcggctttttttataccccgaaaacccgccgcgaagcggaagat ctgcaggtgggccaggtggaactgggcggcggcccgggcgcgggcagcctgcagccgctg gcgctggaaggcagcctgcagaaacgcggcattgtggaacagtgctgcaccagcatttgc agcctgtatcagctggaaaactattgcaac

Complément 1

Pour vous amuser avec les différents codes génétiques:

Allez sur le serveur d'Infobiogen en France qui possède de nombreux outils: http://vvv.infobiogen.fr/services/menuserv.html

Choisissez "Traduction multiple"
et parmi les options, choisissez le code génétique du noyau des ciliés

Que devient la séquence ?

Elle se trouve dans le frame 3, mais a perdu le codon STOP qui est devenu un "Q" MALWMRLLPLLALLALWGPDPAAAFVNQHLCGSHLVEALYLVCGER GFFYTPKTRREAEDLQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLE NYCNQTQPAGSPPPAASCTERDGIKPLNQ

Si vous préférez travailler avec le code 3 lettres des acides aminés, vous pouvez utiliser l'outil convertisseur suivant: : One-to-three

Convertisseur code 1 lettre -> code 3 lettres des acides aminés : One -to-Three | Three to One
Tableau des Abbrév acides aminés à une lettre/ 3lettres

Pour calculer la poids moléculaire de la protéine:

Allez sur Expasy , choisissez dans Tools and software packages
"Primary structure analysis"

Cliquez sur "Compute pI and Mw tool ,

Collez la séquence ltrouvée plus haut (rigoureusement en aa à 1-lettre) et cliquez "Compute pI and Mw"

Résultat: Theoretical pI/Mw: 5.22 / 11980.91

pI : "point isoélectrique" : 5.22 = pH à laquelle la protéine n'est plus chargée (s'immobilise sur un gel d'électrophorèse "isoélectrofocusing" IEF)

Mw : pour "molecular weight" = 11980.91 dalton (1 acide aminé fait environ 100 dalton)
1 mole de cette protéine (= nombre Avogadro de molécules (6.023 x 10 23)) pèse 11980.91 grammes

Complément Scénario Additionel (complément du scénario 7)

Prédiction de gène (structure des gènes eucaryotiques, notion d’exons/introns, sens de la lecture, comprendre les difficultés actuels de prédire une protéine à partir d’une séquence ADN).

Les programmes utilisés ici sont ceux qui sont utilisés pour l’analyse des génomes complets et en particulier pour l’analyse du génome humain.

Ce scénario aide à mieux comprendre la complexité et les problèmes liés à l’après-séquençage (ère post-génomique)

Voici une séquence génomique de C.elegans portant l’information pour coder une protéine (gène 1)

Approche 1 (Scénario 7):

Traduire directement la séquence ADN et essayer de trouver un ou plusieurs cadres de lectures ouverts (plus de 20 aa entre la Met et le Stop)

Copier la séquence (Ctrl C ou pomme-C)

Aller sur le serveur ExPASy http://www.expasy.org/

Cliquez sur DNA -> Protein (Translate)

Puis sur "Translate"

Coller la séquence à traduire et "Translate"

A vous de voir maintenant, parmi les 6 "phases de lectures", laquelle est la bonne:

Approche 2 :

Utiliser les programmes de prédiction de gènes pour trouver la séquence du mRNA et de la protéine

Comparer les résultats des différents programmes

HMM ne propose pas de séquence de protéine : il faut découper la séquence manuellement pour éliminer les introns selon les résultats de la prédiction. C’est fastidieux, mais cela aide à comprendre la notion de l’épissage et des problèmes des cadres de lectures si on coupe mal (si on laisse un acide nucléique en trop).

Permet aussi de voir qu’un exon ne commence pas par ATG (1^ère Met)

Le programme suivant permet de numéroter les séquences afin de les épisser plus facilement :

http://vvv.infobiogen.fr/services/analyseq/cgi-bin/readseq_in.pl

Choisir le format GCG

Copier coller la séquence en format GCG dans word et utiliser le caractère ‘courrier’ 10 pour conserver le format dans l’éditeur word.

Ensuite manuellement, utiliser le résultats du programme HMM pour construire votre ‘mRNA’

Donc : enlever les nucléotides 1 à 1002, 1084 à 1304, 1407 à 1451, 1662 à 1913

# SEQ: gene1 3061 (+) A:965 C:562 G:588 T:946

gene1       HMMgene1.1a       firstex       1003       1083       0.999       +       0       bestparse:cds_1

gene1       HMMgene1.1a       exon_1       1305       1406       0.982       +       0       bestparse:cds_1

gene1       HMMgene1.1a       exon_2       1452       1661       0.999       +       0       bestparse:cds_1

gene1       HMMgene1.1a       lastex       1914       2000       0.944       +       0       bestparse:cds_1

gene1       HMMgene1.1a       CDS       1003       2000       0.925       +       .       bestparse:cds_1

# SEQ: gene1 3061 (-) A:946 C:588 G:562 T:965

gene1       HMMgene1.1a       firstex       2443       2522       0.911       -       2       bestparse:cds_1

gene1       HMMgene1.1a       exon_1       1461       1650       0.416       -       0       bestparse:cds_1

gene1       HMMgene1.1a       lastex       1290       1418       0.524       -       0       bestparse:cds_1

gene1       HMMgene1.1a       CDS       1290       2522       0.368       -       .       bestparse:cds_1

Pour le fun :

Comparer les résultats d’une prédiction avec un programme spécifique aux eukaryotes et un programme spécifique aux procaryotes (GeneMark) http://opal.biology.gatech.edu/GeneMark/gmhmm2_prok.cgi

Le programme procaroytique trouve 2 protéines distinctes. Il ne tient absolument pas compte qu’il peut y avoir des introns.

>gene1

aaaaaaaatttttttttaaaacttttctaaaaatttttatcaaagaaaca

acataactttgctcaacgtagagctacaagaaaactagtgcaaaaatcgg

ttttcttgtcaaattttaaccctaaaaccattaaaatacgtcaaattttc

caaatttcaaaaatgggtcgctgtggctcaagtgggaagagggatggcta

tggtgcaaaaggtcacgggttcgaacaccgggtagtggaaatattttttt

ctagttgaatgtgcattgtttctagaactttttttcgtaaattaacggta

atttaagagaaaaaaaatttttaaacacatttttttgaaattttgaaaat

tttcttttcaaaatttttttagaacccccataatttgggaaaaatactcg

gaaaccagtttattttcaacaataaaaaatattttcactactgggggttc

gaacccctgaccctcagagccacagccatccctctgcccacctgagccac

tgcgacccattctcaaaatttcgaaaaattgacgtatcttttagagtata

aattttcacttttttaacacaataagtcactaaattttcaaagaaacggg

attttggaaaaaaaaattgaaagaaaagaggtacaacgaaattcttccga

ctaatgcattacataggggcacacacgcagcgacacagagaaacaagtga

ttttggttaaattcgcacagccgaaacgagtgttaccgtactcttgctgc

gtagcgcccctatcttttgcattagaggagttttgaagagaggaaagaat

tttttcgtttttttttcgaggcctatcccaactccttgttcacgaatgtt

ttaattttgggaataattgattattggaaattaaattcgttatttttata

agctacaaacagatccttgataattgtcgttgattttactttatcctaaa

tttatctcaaaaatgttgaaattcagattcgtcaagcgagggcctatcaa

caatgaaggtcgaaacctgcgtttactccggatacaagatccacccagga

cacggaaagagacttgtccgtactgacggaaaggtgagttcagtttctct

ttgaaaggcgttagcatgctgttagagctcgtaaggtatattgtaatttt

acgagtgttgaagtattgcaaaagtaaagcataatcaccttatgtatgtg

ttggtgctatatcttctagtttttagaagttataccatcgttaagcatgc

cacgtgttgagtgcgacaaactaccgtttcatgatttatttattcaaatt

tcaggtccaaatcttcctcagtggaaaggcactcaagggagccaagcttc

gccgtaacccacgtgacatcagatggactgtcctctacagaatcaagaac

aagaaggtacttgagatccttaaacgcagttgaaaattggtaattttaca

gggaacccacggacaagagcaagtcaccagaaagaagaccaagaagtccg

tccaggttgttaaccgcgccgtcgctggactttcccttgatgctatcctt

gccaagagaaaccagaccgaagacttccgtcgccaacagcgtgaacaagc

cgctaagatcgccaaggatgccaacaaggctgtccgtgccgccaaggctg

ctgccaacaaggtaaactttctacaatatttattataaactttagcatgc

tgttagagcttgtaaggtatatgtgattttacgagtgttgaagtattgca

aaagcaaaggacgggcacaattgccatgtgttggtattattgcttcaagt

tatttgaagctgtaatatcaataagcatgtctcgtgtgaagtccgacaat

ttaccatatgcatgaaatttaaaaacaagttaattttgtcaattctttat

cattggttttcaggaaaagaaggcctctcagccaaagacccagcaaaaga

ccgccaagaatgtgaagactgctgctccacgtgtcggaggaaagcgataa

acgttctcggtcccgttattgtaataaattttgttgaccgttaaagtttt

aatgcaagacatccaacaagaaaagtattctcaaattattattttaacag

aactatccgaatctgttcatttgagtttgtttagaatgaggactcttcga

atagcccagtacagtgttcttactgttgggttcgccatttatatgtaccg

actgattgaagaaattccgatagacataaggaatttaaattcggattctc

tcgaggggatcatcaactccgatgaactatgtgatgtcaccgtcagcaat

aggaatcgtgggcttttagttcgaaacgactctttagatcttgatatttt

gaaagcaaaattcactacatttttcagcaaaagatagttagttttctgga

cttattaaaaaggataatatggtttcaaaaattcagtctcactcgatttc

taagcgaacaagttccttttctgcacgtgatcgatgaagctcttctcgtg

aaacgatttgtgatgtgtgcatgctttatggtattctgtttaacagtgat

ctggtttctggtgattcgaagaatgggaaatctcattaaaagattgtcag

tgctgaatcagctggaagatgcggaatctgttgaatgggcgagatgcatc

agagagtttacacaagaaaagctcgcagtactgtgcttttgcatagttcc

accgtttgcacagacggataagttagtttcagacaaaataaagttattcc

gggaacacaaaattctgagaattcgtagtgtgcaacatatttgacgcgca

aatacctcgtaacgaaaactacagttattctttaaatcactactgtagtg

cttgtgtcgattttcgaagtgaatttctttccgaattgtgacatcgatat

tctactttccttcgtttcttcgtaataagttttttttgctaagttttaat

attctgtaaattaaaaaaaaacgatttttactcatgtcgaaacccgagcc

cgtaaatcgacataaacgctacagtagtcatttaaatagttactgtagtt

ttcgctacaac

Conversion au format GCG

readline() on unopened filehandle at ./Exec_html.pm line 653.

gene1

    gene1  Length: 3061  (today)  Check: 4030  ..

    1  aaaaaaaatt tttttttaaa acttttctaa aaatttttat caaagaaaca

   51  acataacttt gctcaacgta gagctacaag aaaactagtg caaaaatcgg

  101  ttttcttgtc aaattttaac cctaaaacca ttaaaatacg tcaaattttc

  151  caaatttcaa aaatgggtcg ctgtggctca agtgggaaga gggatggcta

  201  tggtgcaaaa ggtcacgggt tcgaacaccg ggtagtggaa atattttttt

  251  ctagttgaat gtgcattgtt tctagaactt tttttcgtaa attaacggta

  301  atttaagaga aaaaaaattt ttaaacacat ttttttgaaa ttttgaaaat

  351  tttcttttca aaattttttt agaaccccca taatttggga aaaatactcg

  401  gaaaccagtt tattttcaac aataaaaaat attttcacta ctgggggttc

  451  gaacccctga ccctcagagc cacagccatc cctctgccca cctgagccac

  501  tgcgacccat tctcaaaatt tcgaaaaatt gacgtatctt ttagagtata

  551  aattttcact tttttaacac aataagtcac taaattttca aagaaacggg

  601  attttggaaa aaaaaattga aagaaaagag gtacaacgaa attcttccga

  651  ctaatgcatt acataggggc acacacgcag cgacacagag aaacaagtga

  701  ttttggttaa attcgcacag ccgaaacgag tgttaccgta ctcttgctgc

  751  gtagcgcccc tatcttttgc attagaggag ttttgaagag aggaaagaat

  801  tttttcgttt ttttttcgag gcctatccca actccttgtt cacgaatgtt

  851  ttaattttgg gaataattga ttattggaaa ttaaattcgt tatttttata

  901  agctacaaac agatccttga taattgtcgt tgattttact ttatcctaaa

  951  tttatctcaa aaatgttgaa attcagattc gtcaagcgag ggcctatcaa

 1001  caatgaaggt cgaaacctgc gtttactccg gatacaagat ccacccagga

 1051  cacggaaaga gacttgtccg tactgacgga aaggtgagtt cagtttctct

 1101  ttgaaaggcg ttagcatgct gttagagctc gtaaggtata ttgtaatttt

 1151  acgagtgttg aagtattgca aaagtaaagc ataatcacct tatgtatgtg

 1201  ttggtgctat atcttctagt ttttagaagt tataccatcg ttaagcatgc

 1251  cacgtgttga gtgcgacaaa ctaccgtttc atgatttatt tattcaaatt

 1301  tcaggtccaa atcttcctca gtggaaaggc actcaaggga gccaagcttc

 1351  gccgtaaccc acgtgacatc agatggactg tcctctacag aatcaagaac

 1401  aagaaggtac ttgagatcct taaacgcagt tgaaaattgg taattttaca

 1451  gggaacccac ggacaagagc aagtcaccag aaagaagacc aagaagtccg

 1501  tccaggttgt taaccgcgcc gtcgctggac tttcccttga tgctatcctt

 1551  gccaagagaa accagaccga agacttccgt cgccaacagc gtgaacaagc

 1601  cgctaagatc gccaaggatg ccaacaaggc tgtccgtgcc gccaaggctg

 1651  ctgccaacaa ggtaaacttt ctacaatatt tattataaac tttagcatgc

 1701  tgttagagct tgtaaggtat atgtgatttt acgagtgttg aagtattgca

 1751  aaagcaaagg acgggcacaa ttgccatgtg ttggtattat tgcttcaagt

 1801  tatttgaagc tgtaatatca ataagcatgt ctcgtgtgaa gtccgacaat

 1851  ttaccatatg catgaaattt aaaaacaagt taattttgtc aattctttat

 1901  cattggtttt caggaaaaga aggcctctca gccaaagacc cagcaaaaga

 1951  ccgccaagaa tgtgaagact gctgctccac gtgtcggagg aaagcgataa

 2001  acgttctcgg tcccgttatt gtaataaatt ttgttgaccg ttaaagtttt

 2051  aatgcaagac atccaacaag aaaagtattc tcaaattatt attttaacag

 2101  aactatccga atctgttcat ttgagtttgt ttagaatgag gactcttcga

 2151  atagcccagt acagtgttct tactgttggg ttcgccattt atatgtaccg

 2201  actgattgaa gaaattccga tagacataag gaatttaaat tcggattctc

 2251  tcgaggggat catcaactcc gatgaactat gtgatgtcac cgtcagcaat

 2301  aggaatcgtg ggcttttagt tcgaaacgac tctttagatc ttgatatttt

 2351  gaaagcaaaa ttcactacat ttttcagcaa aagatagtta gttttctgga

 2401  cttattaaaa aggataatat ggtttcaaaa attcagtctc actcgatttc

 2451  taagcgaaca agttcctttt ctgcacgtga tcgatgaagc tcttctcgtg

 2501  aaacgatttg tgatgtgtgc atgctttatg gtattctgtt taacagtgat

 2551  ctggtttctg gtgattcgaa gaatgggaaa tctcattaaa agattgtcag

 2601  tgctgaatca gctggaagat gcggaatctg ttgaatgggc gagatgcatc

 2651  agagagttta cacaagaaaa gctcgcagta ctgtgctttt gcatagttcc

 2701  accgtttgca cagacggata agttagtttc agacaaaata aagttattcc

 2751  gggaacacaa aattctgaga attcgtagtg tgcaacatat ttgacgcgca

 2801  aatacctcgt aacgaaaact acagttattc tttaaatcac tactgtagtg

 2851  cttgtgtcga ttttcgaagt gaatttcttt ccgaattgtg acatcgatat

 2901  tctactttcc ttcgtttctt cgtaataagt tttttttgct aagttttaat

 2951  attctgtaaa ttaaaaaaaa acgattttta ctcatgtcga aacccgagcc

 3001  cgtaaatcga cataaacgct acagtagtca tttaaatagt tactgtagtt

 3051  ttcgctacaa c

Liens :

Sélection de liens BIST

Scénario 7b: Séquence en acides nucléiques -> Séquence en acides aminés...

Complément 1

Pour calculer la poids moléculaire de la protéine:

Complément Scénario Additionel (complément du scénario 7)

Liens :