barre de nav. TECFA F.Lo Ma page d'ccueilPublications F.LoRessources F.LoProjets F.LoPlanning F.LoDivers liensActivités Calvin de F.LoActivités CPTIC de F.LoActivités LME de F.LoTECFA Welcome Swiss-Prot Logo



Scénario 7b: Séquence en acides nucléiques -> Séquence en acides aminés...


Objectif : A partir d'une séquence d'acides nucléiques, être capable de déterminer la bonne séquence d'a.a. prendre conscience des problèmes de phase et des difficultés de distinguer les séquences codantes.


Attention : ce scénario n'a pas été révisé depuis janvier. 2007 au rythme ou lees choses changent, il faut s'attendre à ce que certains liens ne fonctionnent plus ou que l'apparence voire la structure de certains sites aitent changés considérablement. Il nous parait toutefois largemetn utilisable pour qui veut bien faire l'effort de chercher un peu.

Remarque : Ce scénario n’a pas pour but de faire de la prédiction de gène. Pour faire de la vraie "prédiction de gène" à partir d'une séquence génomique voir scénario 12 et les problèmes associés.

Nous allons

  1. Prendre une séquence en acides nucléiques du scénario 2 (une séquence mRNA, déjà épissée),
  2. la traduire (en utilisant le bon code génétique)
  3. essayer de trouver la bonne séquence de la protéine,
  4. calculer le poids moléculaire de la protéine.

Prenez par exemple l'entrée NM_000207.1 dans EntrezGene (solution)

Mettez la séquence en format "FASTA": c'est le format compatible pour les programmes qui "travaillent" avec des séquences. Pour cela sélectionnez dans le menu DISPLAY le format"FASTA"

>gi|4557670|ref|NM_000207.1| Homo sapiens insulin (INS), mRNA
GCTGCATCAGAAGAGGCCATCAAGCACATCACTGTCCTTCTGCCATGGCCCTGTGGATGCGCCTCCTGCC
CCTGCTGGCGCTGCTGGCCCTCTGGGGACCTGACCCAGCCGCAGCCTTTGTGAACCAACACCTGTGCGGC
TCACACCTGGTGGAAGCTCTCTACCTAGTGTGCGGGGAACGAGGCTTCTTCTACACACCCAAGACCCGCC
GGGAGGCAGAGGACCTGCAGGTGGGGCAGGTGGAGCTGGGCGGGGGCCCTGGTGCAGGCAGCCTGCAGCC
CTTGGCCCTGGAGGGGTCCCTGCAGAAGCGTGGCATTGTGGAACAATGCTGTACCAGCATCTGCTCCCTC
TACCAGCTGGAGAACTACTGCAACTAGACGCAGCCCGCAGGCAGCCCCCCACCCGCCGCCTCCTGCACCG
AGAGAGATGGAATAAAGCCCTTGAACCAGC

Copier la séquence (Ctrl C ou pomme-C)

Aller sur le serveur ExPASy http://www.expasy.org/

Cliquez (colonne de droite) dans Tools and software packages sur DNA -> Protein (Translate)

Puis sur "Translate"

Coller la séquence à traduire , puis "Translate sequence"

Il faut maintenant déterminer, parmi les 6 "phases de lectures", laquelle est la bonne : indice: une protéine commence toujours par une méthionine et finit toujours par un codon STOP.

La seule possibilité est 5'->3' dans le frame 2

Met A L W Met R L L P L L A L L A L W G P D P A A A F V N Q H L C G S H L V E A L Y L V C G E R G F F Y T P K T R R E A E D L Q V G Q V E L G G G P G A G S L Q P L A L E G S L Q K R G I V E Q C C T S I C S L Y Q L E N Y C N Stop

On ne sait cependant pas quelle est la première Met.....

La question du frame séquence apparaît de manière plus claire si vous re-traduisez :

Après avoir choisi dans le menu "include DNA séquence", copiez (FASTA) la séquence protéique supposée.

Aller sur le serveur ExPASy-> Translate

Choisir Reverse Translate Coller la séquence virtuelle de protéine et cliquer submit

On obtient :

atggcgctgtggatgcgcctgctgccgctgctggcgctgctggcgctgtggggcccggat
ccggcggcggcgtttgtgaaccagcatctgtgcggcagccatctggtggaagcgctgtat
ctggtgtgcggcgaacgcggctttttttataccccgaaaacccgccgcgaagcggaagat
ctgcaggtgggccaggtggaactgggcggcggcccgggcgcgggcagcctgcagccgctg
gcgctggaaggcagcctgcagaaacgcggcattgtggaacagtgctgcaccagcatttgc
agcctgtatcagctggaaaactattgcaac


Complément 1

Pour vous amuser avec les différents codes génétiques:

Allez sur le serveur d'Infobiogen en France qui possède de nombreux outils: http://vvv.infobiogen.fr/services/menuserv.html

Choisissez "Traduction multiple"
et parmi les options, choisissez le code génétique du noyau des ciliés

Que devient la séquence ?

Elle se trouve dans le frame 3, mais a perdu le codon STOP qui est devenu un "Q" MALWMRLLPLLALLALWGPDPAAAFVNQHLCGSHLVEALYLVCGER GFFYTPKTRREAEDLQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLE NYCNQTQPAGSPPPAASCTERDGIKPLNQ

Si vous préférez travailler avec le code 3 lettres des acides aminés, vous pouvez utiliser l'outil convertisseur suivant: : One-to-three

Convertisseur code 1 lettre -> code 3 lettres des acides aminés : One -to-Three | Three to One
Tableau des Abbrév acides aminés à une lettre/ 3lettres

Pour calculer la poids moléculaire de la protéine:

Allez sur Expasy , choisissez dans Tools and software packages
"Primary structure analysis"

Cliquez sur "Compute pI and Mw tool ,

Collez la séquence ltrouvée plus haut (rigoureusement en aa à 1-lettre) et cliquez "Compute pI and Mw"

Résultat: Theoretical pI/Mw: 5.22 / 11980.91

pI : "point isoélectrique" : 5.22 = pH à laquelle la protéine n'est plus chargée (s'immobilise sur un gel d'électrophorèse "isoélectrofocusing" IEF)

Mw : pour "molecular weight" = 11980.91 dalton (1 acide aminé fait environ 100 dalton)
1 mole de cette protéine (= nombre Avogadro de molécules (6.023 x 10 23)) pèse 11980.91 grammes


Complément Scénario Additionel (complément du scénario 7)

Prédiction de gène (structure des gènes eucaryotiques, notion d’exons/introns, sens de la lecture, comprendre les difficultés actuels de prédire une protéine à partir d’une séquence ADN).

Les programmes utilisés ici sont ceux qui sont utilisés pour l’analyse des génomes complets et en particulier pour l’analyse du génome humain.

Ce scénario aide à mieux comprendre la complexité et les problèmes liés à l’après-séquençage (ère post-génomique)

 Voici une séquence génomique de C.elegans portant l’information pour coder une protéine (gène 1)

.

Approche 1 (Scénario 7):

Traduire directement la séquence ADN et essayer de trouver un ou plusieurs cadres de lectures ouverts (plus de 20 aa entre la Met et le Stop)

 

Copier la séquence (Ctrl C ou pomme-C)

Aller sur le serveur ExPASy http://www.expasy.org/

Cliquez sur DNA -> Protein (Translate)

Puis sur "Translate"

Coller la séquence à traduire et "Translate"

A vous de voir maintenant, parmi les 6 "phases de lectures", laquelle est la bonne:

  

Approche 2 : 

Utiliser les programmes de prédiction de gènes pour trouver la séquence du mRNA et de la protéine

Comparer les résultats des différents programmes

HMM ne propose pas de séquence de protéine : il faut découper la séquence manuellement pour éliminer les introns selon les résultats de la prédiction. C’est fastidieux, mais cela aide à comprendre la notion de l’épissage et des problèmes des cadres de lectures si on coupe mal (si on laisse un acide nucléique en trop).

Permet aussi de voir qu’un exon ne commence pas par ATG (1ère Met)

Le programme suivant permet de numéroter les séquences afin de les épisser plus facilement :

http://vvv.infobiogen.fr/services/analyseq/cgi-bin/readseq_in.pl

Choisir le format GCG

Copier coller la séquence en format GCG dans word et utiliser le caractère ‘courrier’ 10 pour conserver le format dans l’éditeur word.

Ensuite manuellement, utiliser le résultats du programme HMM pour construire votre ‘mRNA’

Donc : enlever les nucléotides 1 à 1002, 1084 à 1304, 1407 à 1451, 1662 à 1913

# SEQ: gene1 3061 (+) A:965 C:562 G:588 T:946
gene1       HMMgene1.1a       firstex       1003       1083       0.999       +       0       bestparse:cds_1
gene1       HMMgene1.1a       exon_1       1305       1406       0.982       +       0       bestparse:cds_1
gene1       HMMgene1.1a       exon_2       1452       1661       0.999       +       0       bestparse:cds_1
gene1       HMMgene1.1a       lastex       1914       2000       0.944       +       0       bestparse:cds_1
gene1       HMMgene1.1a       CDS       1003       2000       0.925       +       .       bestparse:cds_1
# SEQ: gene1 3061 (-) A:946 C:588 G:562 T:965
gene1       HMMgene1.1a       firstex       2443       2522       0.911       -       2       bestparse:cds_1
gene1       HMMgene1.1a       exon_1       1461       1650       0.416       -       0       bestparse:cds_1
gene1       HMMgene1.1a       lastex       1290       1418       0.524       -       0       bestparse:cds_1
gene1       HMMgene1.1a       CDS       1290       2522       0.368       -       .       bestparse:cds_1

Pour le fun :

Comparer les résultats d’une prédiction avec un programme spécifique aux eukaryotes et un programme spécifique aux procaryotes (GeneMark) http://opal.biology.gatech.edu/GeneMark/gmhmm2_prok.cgi

Le programme procaroytique trouve 2 protéines distinctes. Il ne tient absolument pas compte qu’il peut y avoir des introns.

 >gene1

aaaaaaaatttttttttaaaacttttctaaaaatttttatcaaagaaaca
acataactttgctcaacgtagagctacaagaaaactagtgcaaaaatcgg
ttttcttgtcaaattttaaccctaaaaccattaaaatacgtcaaattttc
caaatttcaaaaatgggtcgctgtggctcaagtgggaagagggatggcta
tggtgcaaaaggtcacgggttcgaacaccgggtagtggaaatattttttt
ctagttgaatgtgcattgtttctagaactttttttcgtaaattaacggta
atttaagagaaaaaaaatttttaaacacatttttttgaaattttgaaaat
tttcttttcaaaatttttttagaacccccataatttgggaaaaatactcg
gaaaccagtttattttcaacaataaaaaatattttcactactgggggttc
gaacccctgaccctcagagccacagccatccctctgcccacctgagccac
tgcgacccattctcaaaatttcgaaaaattgacgtatcttttagagtata
aattttcacttttttaacacaataagtcactaaattttcaaagaaacggg
attttggaaaaaaaaattgaaagaaaagaggtacaacgaaattcttccga
ctaatgcattacataggggcacacacgcagcgacacagagaaacaagtga
ttttggttaaattcgcacagccgaaacgagtgttaccgtactcttgctgc
gtagcgcccctatcttttgcattagaggagttttgaagagaggaaagaat
tttttcgtttttttttcgaggcctatcccaactccttgttcacgaatgtt
ttaattttgggaataattgattattggaaattaaattcgttatttttata
agctacaaacagatccttgataattgtcgttgattttactttatcctaaa
tttatctcaaaaatgttgaaattcagattcgtcaagcgagggcctatcaa
caatgaaggtcgaaacctgcgtttactccggatacaagatccacccagga
cacggaaagagacttgtccgtactgacggaaaggtgagttcagtttctct
ttgaaaggcgttagcatgctgttagagctcgtaaggtatattgtaatttt
acgagtgttgaagtattgcaaaagtaaagcataatcaccttatgtatgtg
ttggtgctatatcttctagtttttagaagttataccatcgttaagcatgc
cacgtgttgagtgcgacaaactaccgtttcatgatttatttattcaaatt
tcaggtccaaatcttcctcagtggaaaggcactcaagggagccaagcttc
gccgtaacccacgtgacatcagatggactgtcctctacagaatcaagaac
aagaaggtacttgagatccttaaacgcagttgaaaattggtaattttaca
gggaacccacggacaagagcaagtcaccagaaagaagaccaagaagtccg
tccaggttgttaaccgcgccgtcgctggactttcccttgatgctatcctt
gccaagagaaaccagaccgaagacttccgtcgccaacagcgtgaacaagc
cgctaagatcgccaaggatgccaacaaggctgtccgtgccgccaaggctg
ctgccaacaaggtaaactttctacaatatttattataaactttagcatgc
tgttagagcttgtaaggtatatgtgattttacgagtgttgaagtattgca
aaagcaaaggacgggcacaattgccatgtgttggtattattgcttcaagt
tatttgaagctgtaatatcaataagcatgtctcgtgtgaagtccgacaat
ttaccatatgcatgaaatttaaaaacaagttaattttgtcaattctttat
cattggttttcaggaaaagaaggcctctcagccaaagacccagcaaaaga
ccgccaagaatgtgaagactgctgctccacgtgtcggaggaaagcgataa
acgttctcggtcccgttattgtaataaattttgttgaccgttaaagtttt
aatgcaagacatccaacaagaaaagtattctcaaattattattttaacag
aactatccgaatctgttcatttgagtttgtttagaatgaggactcttcga
atagcccagtacagtgttcttactgttgggttcgccatttatatgtaccg
actgattgaagaaattccgatagacataaggaatttaaattcggattctc
tcgaggggatcatcaactccgatgaactatgtgatgtcaccgtcagcaat
aggaatcgtgggcttttagttcgaaacgactctttagatcttgatatttt
gaaagcaaaattcactacatttttcagcaaaagatagttagttttctgga
cttattaaaaaggataatatggtttcaaaaattcagtctcactcgatttc
taagcgaacaagttccttttctgcacgtgatcgatgaagctcttctcgtg
aaacgatttgtgatgtgtgcatgctttatggtattctgtttaacagtgat
ctggtttctggtgattcgaagaatgggaaatctcattaaaagattgtcag
tgctgaatcagctggaagatgcggaatctgttgaatgggcgagatgcatc
agagagtttacacaagaaaagctcgcagtactgtgcttttgcatagttcc
accgtttgcacagacggataagttagtttcagacaaaataaagttattcc
gggaacacaaaattctgagaattcgtagtgtgcaacatatttgacgcgca
aatacctcgtaacgaaaactacagttattctttaaatcactactgtagtg
cttgtgtcgattttcgaagtgaatttctttccgaattgtgacatcgatat
tctactttccttcgtttcttcgtaataagttttttttgctaagttttaat
attctgtaaattaaaaaaaaacgatttttactcatgtcgaaacccgagcc
cgtaaatcgacataaacgctacagtagtcatttaaatagttactgtagtt
ttcgctacaac

 

Conversion au format GCG



readline() on unopened filehandle at ./Exec_html.pm line 653.

gene1
    gene1  Length: 3061  (today)  Check: 4030  ..
    1  aaaaaaaatt tttttttaaa acttttctaa aaatttttat caaagaaaca
   51  acataacttt gctcaacgta gagctacaag aaaactagtg caaaaatcgg
  101  ttttcttgtc aaattttaac cctaaaacca ttaaaatacg tcaaattttc
  151  caaatttcaa aaatgggtcg ctgtggctca agtgggaaga gggatggcta
  201  tggtgcaaaa ggtcacgggt tcgaacaccg ggtagtggaa atattttttt
  251  ctagttgaat gtgcattgtt tctagaactt tttttcgtaa attaacggta
  301  atttaagaga aaaaaaattt ttaaacacat ttttttgaaa ttttgaaaat
  351  tttcttttca aaattttttt agaaccccca taatttggga aaaatactcg
  401  gaaaccagtt tattttcaac aataaaaaat attttcacta ctgggggttc
  451  gaacccctga ccctcagagc cacagccatc cctctgccca cctgagccac
  501  tgcgacccat tctcaaaatt tcgaaaaatt gacgtatctt ttagagtata
  551  aattttcact tttttaacac aataagtcac taaattttca aagaaacggg
  601  attttggaaa aaaaaattga aagaaaagag gtacaacgaa attcttccga
  651  ctaatgcatt acataggggc acacacgcag cgacacagag aaacaagtga
  701  ttttggttaa attcgcacag ccgaaacgag tgttaccgta ctcttgctgc
  751  gtagcgcccc tatcttttgc attagaggag ttttgaagag aggaaagaat
  801  tttttcgttt ttttttcgag gcctatccca actccttgtt cacgaatgtt
  851  ttaattttgg gaataattga ttattggaaa ttaaattcgt tatttttata
  901  agctacaaac agatccttga taattgtcgt tgattttact ttatcctaaa
  951  tttatctcaa aaatgttgaa attcagattc gtcaagcgag ggcctatcaa
 1001  caatgaaggt cgaaacctgc gtttactccg gatacaagat ccacccagga
 1051  cacggaaaga gacttgtccg tactgacgga aaggtgagtt cagtttctct
 1101  ttgaaaggcg ttagcatgct gttagagctc gtaaggtata ttgtaatttt
 1151  acgagtgttg aagtattgca aaagtaaagc ataatcacct tatgtatgtg
 1201  ttggtgctat atcttctagt ttttagaagt tataccatcg ttaagcatgc
 1251  cacgtgttga gtgcgacaaa ctaccgtttc atgatttatt tattcaaatt
 1301  tcaggtccaa atcttcctca gtggaaaggc actcaaggga gccaagcttc
 1351  gccgtaaccc acgtgacatc agatggactg tcctctacag aatcaagaac
 1401  aagaaggtac ttgagatcct taaacgcagt tgaaaattgg taattttaca
 1451  gggaacccac ggacaagagc aagtcaccag aaagaagacc aagaagtccg
 1501  tccaggttgt taaccgcgcc gtcgctggac tttcccttga tgctatcctt
 1551  gccaagagaa accagaccga agacttccgt cgccaacagc gtgaacaagc
 1601  cgctaagatc gccaaggatg ccaacaaggc tgtccgtgcc gccaaggctg
 1651  ctgccaacaa ggtaaacttt ctacaatatt tattataaac tttagcatgc
 1701  tgttagagct tgtaaggtat atgtgatttt acgagtgttg aagtattgca
 1751  aaagcaaagg acgggcacaa ttgccatgtg ttggtattat tgcttcaagt
 1801  tatttgaagc tgtaatatca ataagcatgt ctcgtgtgaa gtccgacaat
 1851  ttaccatatg catgaaattt aaaaacaagt taattttgtc aattctttat
 1901  cattggtttt caggaaaaga aggcctctca gccaaagacc cagcaaaaga
 1951  ccgccaagaa tgtgaagact gctgctccac gtgtcggagg aaagcgataa
 2001  acgttctcgg tcccgttatt gtaataaatt ttgttgaccg ttaaagtttt
 2051  aatgcaagac atccaacaag aaaagtattc tcaaattatt attttaacag
 2101  aactatccga atctgttcat ttgagtttgt ttagaatgag gactcttcga
 2151  atagcccagt acagtgttct tactgttggg ttcgccattt atatgtaccg
 2201  actgattgaa gaaattccga tagacataag gaatttaaat tcggattctc
 2251  tcgaggggat catcaactcc gatgaactat gtgatgtcac cgtcagcaat
 2301  aggaatcgtg ggcttttagt tcgaaacgac tctttagatc ttgatatttt
 2351  gaaagcaaaa ttcactacat ttttcagcaa aagatagtta gttttctgga
 2401  cttattaaaa aggataatat ggtttcaaaa attcagtctc actcgatttc
 2451  taagcgaaca agttcctttt ctgcacgtga tcgatgaagc tcttctcgtg
 2501  aaacgatttg tgatgtgtgc atgctttatg gtattctgtt taacagtgat
 2551  ctggtttctg gtgattcgaa gaatgggaaa tctcattaaa agattgtcag
 2601  tgctgaatca gctggaagat gcggaatctg ttgaatgggc gagatgcatc
 2651  agagagttta cacaagaaaa gctcgcagta ctgtgctttt gcatagttcc
 2701  accgtttgca cagacggata agttagtttc agacaaaata aagttattcc
 2751  gggaacacaa aattctgaga attcgtagtg tgcaacatat ttgacgcgca
 2801  aatacctcgt aacgaaaact acagttattc tttaaatcac tactgtagtg
 2851  cttgtgtcga ttttcgaagt gaatttcttt ccgaattgtg acatcgatat
 2901  tctactttcc ttcgtttctt cgtaataagt tttttttgct aagttttaat
 2951  attctgtaaa ttaaaaaaaa acgattttta ctcatgtcga aacccgagcc
 3001  cgtaaatcga cataaacgct acagtagtca tttaaatagt tactgtagtt
 3051  ttcgctacaa c

Liens :

 

counter

Retour à BIST | Swiss-Prot| M.C. Blatter | Projets Home de F. Lo