Objectif : A partir d'une séquence d'acides nucléiques, être capable de déterminer la bonne séquence d'a.a. prendre conscience des problèmes de phase et des difficultés de distinguer les séquences codantes.
Attention : ce scénario n'a pas été révisé depuis janvier. 2007 au rythme ou lees choses changent, il faut s'attendre à ce que certains liens ne fonctionnent plus ou que l'apparence voire la structure de certains sites aitent changés considérablement. Il nous parait toutefois largemetn utilisable pour qui veut bien faire l'effort de chercher un peu. |
Remarque : Ce scénario n’a pas pour but de faire de la prédiction de gène. Pour faire de la vraie "prédiction de gène" à partir d'une séquence génomique voir scénario 12 et les problèmes associés.
Nous allons
Prenez par exemple l'entrée NM_000207.1 dans EntrezGene (solution)
Mettez la séquence en format "FASTA": c'est le format compatible pour les programmes qui "travaillent" avec des séquences. Pour cela sélectionnez dans le menu DISPLAY le format"FASTA"
>gi|4557670|ref|NM_000207.1| Homo sapiens insulin (INS), mRNA
GCTGCATCAGAAGAGGCCATCAAGCACATCACTGTCCTTCTGCCATGGCCCTGTGGATGCGCCTCCTGCC
CCTGCTGGCGCTGCTGGCCCTCTGGGGACCTGACCCAGCCGCAGCCTTTGTGAACCAACACCTGTGCGGC
TCACACCTGGTGGAAGCTCTCTACCTAGTGTGCGGGGAACGAGGCTTCTTCTACACACCCAAGACCCGCC
GGGAGGCAGAGGACCTGCAGGTGGGGCAGGTGGAGCTGGGCGGGGGCCCTGGTGCAGGCAGCCTGCAGCC
CTTGGCCCTGGAGGGGTCCCTGCAGAAGCGTGGCATTGTGGAACAATGCTGTACCAGCATCTGCTCCCTC
TACCAGCTGGAGAACTACTGCAACTAGACGCAGCCCGCAGGCAGCCCCCCACCCGCCGCCTCCTGCACCG
AGAGAGATGGAATAAAGCCCTTGAACCAGC
Copier la séquence (Ctrl C ou pomme-C)
Aller sur le serveur ExPASy http://www.expasy.org/
Cliquez (colonne de droite) dans Tools and software packages sur DNA -> Protein (Translate)
Puis sur "Translate"
Coller la séquence à traduire , puis "Translate sequence"
Il faut maintenant déterminer, parmi les 6 "phases de lectures", laquelle est la bonne : indice: une protéine commence toujours par une méthionine et finit toujours par un codon STOP.
La seule possibilité est 5'->3' dans le frame 2
Met A L W Met R L L P L L A L L A L W G P D P A A A F V N Q H L C G S H L V E A L Y L V C G E R G F F Y T P K T R R E A E D L Q V G Q V E L G G G P G A G S L Q P L A L E G S L Q K R G I V E Q C C T S I C S L Y Q L E N Y C N Stop
On ne sait cependant pas quelle est la première Met.....
La question du frame séquence apparaît de manière plus claire si vous re-traduisez :
Après avoir choisi dans le menu "include DNA séquence", copiez (FASTA) la séquence protéique supposée.
Aller sur le serveur ExPASy-> Translate
Choisir Reverse Translate Coller la séquence virtuelle de protéine et cliquer submit
On obtient :
atggcgctgtggatgcgcctgctgccgctgctggcgctgctggcgctgtggggcccggat
ccggcggcggcgtttgtgaaccagcatctgtgcggcagccatctggtggaagcgctgtat
ctggtgtgcggcgaacgcggctttttttataccccgaaaacccgccgcgaagcggaagat
ctgcaggtgggccaggtggaactgggcggcggcccgggcgcgggcagcctgcagccgctg
gcgctggaaggcagcctgcagaaacgcggcattgtggaacagtgctgcaccagcatttgc
agcctgtatcagctggaaaactattgcaac
Pour vous amuser avec les différents codes génétiques:
Allez sur le serveur d'Infobiogen en France qui possède de nombreux outils: http://vvv.infobiogen.fr/services/menuserv.html
Choisissez "Traduction multiple"
et parmi les options, choisissez le code génétique du noyau des ciliés
Que devient la séquence ?
Elle se trouve dans le frame 3, mais a perdu le codon STOP qui est devenu un "Q" MALWMRLLPLLALLALWGPDPAAAFVNQHLCGSHLVEALYLVCGER GFFYTPKTRREAEDLQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLE NYCNQTQPAGSPPPAASCTERDGIKPLNQ
Si vous préférez travailler avec le code 3 lettres des acides aminés, vous pouvez utiliser l'outil convertisseur suivant: : One-to-three
Convertisseur code 1 lettre -> code 3 lettres des acides aminés : One -to-Three | Three to One
Tableau des Abbrév acides aminés à une lettre/ 3lettres
Allez sur Expasy , choisissez dans Tools and software packages
"Primary structure analysis"
Cliquez sur "Compute pI and Mw tool ,
Collez la séquence ltrouvée plus haut (rigoureusement en aa à 1-lettre) et cliquez "Compute pI and Mw"
Résultat: Theoretical pI/Mw: 5.22 / 11980.91
pI : "point isoélectrique" : 5.22 = pH à laquelle la protéine n'est plus chargée (s'immobilise sur un gel d'électrophorèse "isoélectrofocusing" IEF)
Mw : pour "molecular weight" = 11980.91 dalton (1 acide aminé fait environ 100 dalton)
1 mole de cette protéine (= nombre Avogadro de molécules (6.023 x 10 23)) pèse 11980.91 grammes
Prédiction de gène (structure des gènes eucaryotiques, notion d’exons/introns, sens de la lecture, comprendre les difficultés actuels de prédire une protéine à partir d’une séquence ADN).
Les programmes utilisés ici sont ceux qui sont utilisés pour l’analyse des génomes complets et en particulier pour l’analyse du génome humain.
Ce scénario aide à mieux comprendre la complexité et les problèmes liés à l’après-séquençage (ère post-génomique)
Voici une séquence génomique de C.elegans portant l’information pour coder une protéine (gène 1)
.
Approche 1 (Scénario 7):
Traduire directement la séquence ADN et essayer de trouver un ou plusieurs cadres de lectures ouverts (plus de 20 aa entre la Met et le Stop)
Copier la séquence (Ctrl C ou pomme-C)
Aller sur le serveur ExPASy http://www.expasy.org/
Cliquez sur DNA -> Protein (Translate)
Puis sur "Translate"
Coller la séquence à traduire et "Translate"
A vous de voir maintenant, parmi les 6 "phases de lectures", laquelle est la bonne:
Approche 2 :
Utiliser les programmes de prédiction de gènes pour trouver la séquence du mRNA et de la protéine
Comparer les résultats des différents programmes
HMM ne propose pas de séquence de protéine : il faut découper la séquence manuellement pour éliminer les introns selon les résultats de la prédiction. C’est fastidieux, mais cela aide à comprendre la notion de l’épissage et des problèmes des cadres de lectures si on coupe mal (si on laisse un acide nucléique en trop).
Permet aussi de voir qu’un exon ne commence pas par ATG (1ère Met)
Le programme suivant permet de numéroter les séquences afin de les épisser plus facilement :
http://vvv.infobiogen.fr/services/analyseq/cgi-bin/readseq_in.pl
Choisir le format GCG
Copier coller la séquence en format GCG dans word et utiliser le caractère ‘courrier’ 10 pour conserver le format dans l’éditeur word.
Ensuite manuellement, utiliser le résultats du programme HMM pour construire votre ‘mRNA’
Donc : enlever les nucléotides 1 à 1002, 1084 à 1304, 1407 à 1451, 1662 à 1913
# SEQ: gene1 3061 (+) A:965 C:562 G:588 T:946 gene1 HMMgene1.1a firstex 1003 1083 0.999 + 0 bestparse:cds_1 gene1 HMMgene1.1a exon_1 1305 1406 0.982 + 0 bestparse:cds_1 gene1 HMMgene1.1a exon_2 1452 1661 0.999 + 0 bestparse:cds_1 gene1 HMMgene1.1a lastex 1914 2000 0.944 + 0 bestparse:cds_1 gene1 HMMgene1.1a CDS 1003 2000 0.925 + . bestparse:cds_1 # SEQ: gene1 3061 (-) A:946 C:588 G:562 T:965 gene1 HMMgene1.1a firstex 2443 2522 0.911 - 2 bestparse:cds_1 gene1 HMMgene1.1a exon_1 1461 1650 0.416 - 0 bestparse:cds_1 gene1 HMMgene1.1a lastex 1290 1418 0.524 - 0 bestparse:cds_1 gene1 HMMgene1.1a CDS 1290 2522 0.368 - . bestparse:cds_1 |
Pour le fun :
Comparer les résultats d’une prédiction avec un programme spécifique aux eukaryotes et un programme spécifique aux procaryotes (GeneMark) http://opal.biology.gatech.edu/GeneMark/gmhmm2_prok.cgi
Le programme procaroytique trouve 2 protéines distinctes. Il ne tient absolument pas compte qu’il peut y avoir des introns.
>gene1
aaaaaaaatttttttttaaaacttttctaaaaatttttatcaaagaaaca
acataactttgctcaacgtagagctacaagaaaactagtgcaaaaatcgg
ttttcttgtcaaattttaaccctaaaaccattaaaatacgtcaaattttc
caaatttcaaaaatgggtcgctgtggctcaagtgggaagagggatggcta
tggtgcaaaaggtcacgggttcgaacaccgggtagtggaaatattttttt
ctagttgaatgtgcattgtttctagaactttttttcgtaaattaacggta
atttaagagaaaaaaaatttttaaacacatttttttgaaattttgaaaat
tttcttttcaaaatttttttagaacccccataatttgggaaaaatactcg
gaaaccagtttattttcaacaataaaaaatattttcactactgggggttc
gaacccctgaccctcagagccacagccatccctctgcccacctgagccac
tgcgacccattctcaaaatttcgaaaaattgacgtatcttttagagtata
aattttcacttttttaacacaataagtcactaaattttcaaagaaacggg
attttggaaaaaaaaattgaaagaaaagaggtacaacgaaattcttccga
ctaatgcattacataggggcacacacgcagcgacacagagaaacaagtga
ttttggttaaattcgcacagccgaaacgagtgttaccgtactcttgctgc
gtagcgcccctatcttttgcattagaggagttttgaagagaggaaagaat
tttttcgtttttttttcgaggcctatcccaactccttgttcacgaatgtt
ttaattttgggaataattgattattggaaattaaattcgttatttttata
agctacaaacagatccttgataattgtcgttgattttactttatcctaaa
tttatctcaaaaatgttgaaattcagattcgtcaagcgagggcctatcaa
caatgaaggtcgaaacctgcgtttactccggatacaagatccacccagga
cacggaaagagacttgtccgtactgacggaaaggtgagttcagtttctct
ttgaaaggcgttagcatgctgttagagctcgtaaggtatattgtaatttt
acgagtgttgaagtattgcaaaagtaaagcataatcaccttatgtatgtg
ttggtgctatatcttctagtttttagaagttataccatcgttaagcatgc
cacgtgttgagtgcgacaaactaccgtttcatgatttatttattcaaatt
tcaggtccaaatcttcctcagtggaaaggcactcaagggagccaagcttc
gccgtaacccacgtgacatcagatggactgtcctctacagaatcaagaac
aagaaggtacttgagatccttaaacgcagttgaaaattggtaattttaca
gggaacccacggacaagagcaagtcaccagaaagaagaccaagaagtccg
tccaggttgttaaccgcgccgtcgctggactttcccttgatgctatcctt
gccaagagaaaccagaccgaagacttccgtcgccaacagcgtgaacaagc
cgctaagatcgccaaggatgccaacaaggctgtccgtgccgccaaggctg
ctgccaacaaggtaaactttctacaatatttattataaactttagcatgc
tgttagagcttgtaaggtatatgtgattttacgagtgttgaagtattgca
aaagcaaaggacgggcacaattgccatgtgttggtattattgcttcaagt
tatttgaagctgtaatatcaataagcatgtctcgtgtgaagtccgacaat
ttaccatatgcatgaaatttaaaaacaagttaattttgtcaattctttat
cattggttttcaggaaaagaaggcctctcagccaaagacccagcaaaaga
ccgccaagaatgtgaagactgctgctccacgtgtcggaggaaagcgataa
acgttctcggtcccgttattgtaataaattttgttgaccgttaaagtttt
aatgcaagacatccaacaagaaaagtattctcaaattattattttaacag
aactatccgaatctgttcatttgagtttgtttagaatgaggactcttcga
atagcccagtacagtgttcttactgttgggttcgccatttatatgtaccg
actgattgaagaaattccgatagacataaggaatttaaattcggattctc
tcgaggggatcatcaactccgatgaactatgtgatgtcaccgtcagcaat
aggaatcgtgggcttttagttcgaaacgactctttagatcttgatatttt
gaaagcaaaattcactacatttttcagcaaaagatagttagttttctgga
cttattaaaaaggataatatggtttcaaaaattcagtctcactcgatttc
taagcgaacaagttccttttctgcacgtgatcgatgaagctcttctcgtg
aaacgatttgtgatgtgtgcatgctttatggtattctgtttaacagtgat
ctggtttctggtgattcgaagaatgggaaatctcattaaaagattgtcag
tgctgaatcagctggaagatgcggaatctgttgaatgggcgagatgcatc
agagagtttacacaagaaaagctcgcagtactgtgcttttgcatagttcc
accgtttgcacagacggataagttagtttcagacaaaataaagttattcc
gggaacacaaaattctgagaattcgtagtgtgcaacatatttgacgcgca
aatacctcgtaacgaaaactacagttattctttaaatcactactgtagtg
cttgtgtcgattttcgaagtgaatttctttccgaattgtgacatcgatat
tctactttccttcgtttcttcgtaataagttttttttgctaagttttaat
attctgtaaattaaaaaaaaacgatttttactcatgtcgaaacccgagcc
cgtaaatcgacataaacgctacagtagtcatttaaatagttactgtagtt
ttcgctacaac
Conversion au format GCG |
readline() on unopened filehandle at ./Exec_html.pm line 653.
gene1
gene1 Length: 3061 (today) Check: 4030 ..
1 aaaaaaaatt tttttttaaa acttttctaa aaatttttat caaagaaaca
51 acataacttt gctcaacgta gagctacaag aaaactagtg caaaaatcgg
101 ttttcttgtc aaattttaac cctaaaacca ttaaaatacg tcaaattttc
151 caaatttcaa aaatgggtcg ctgtggctca agtgggaaga gggatggcta
201 tggtgcaaaa ggtcacgggt tcgaacaccg ggtagtggaa atattttttt
251 ctagttgaat gtgcattgtt tctagaactt tttttcgtaa attaacggta
301 atttaagaga aaaaaaattt ttaaacacat ttttttgaaa ttttgaaaat
351 tttcttttca aaattttttt agaaccccca taatttggga aaaatactcg
401 gaaaccagtt tattttcaac aataaaaaat attttcacta ctgggggttc
451 gaacccctga ccctcagagc cacagccatc cctctgccca cctgagccac
501 tgcgacccat tctcaaaatt tcgaaaaatt gacgtatctt ttagagtata
551 aattttcact tttttaacac aataagtcac taaattttca aagaaacggg
601 attttggaaa aaaaaattga aagaaaagag gtacaacgaa attcttccga
651 ctaatgcatt acataggggc acacacgcag cgacacagag aaacaagtga
701 ttttggttaa attcgcacag ccgaaacgag tgttaccgta ctcttgctgc
751 gtagcgcccc tatcttttgc attagaggag ttttgaagag aggaaagaat
801 tttttcgttt ttttttcgag gcctatccca actccttgtt cacgaatgtt
851 ttaattttgg gaataattga ttattggaaa ttaaattcgt tatttttata
901 agctacaaac agatccttga taattgtcgt tgattttact ttatcctaaa
951 tttatctcaa aaatgttgaa attcagattc gtcaagcgag ggcctatcaa
1001 caatgaaggt cgaaacctgc gtttactccg gatacaagat ccacccagga
1051 cacggaaaga gacttgtccg tactgacgga aaggtgagtt cagtttctct
1101 ttgaaaggcg ttagcatgct gttagagctc gtaaggtata ttgtaatttt
1151 acgagtgttg aagtattgca aaagtaaagc ataatcacct tatgtatgtg
1201 ttggtgctat atcttctagt ttttagaagt tataccatcg ttaagcatgc
1251 cacgtgttga gtgcgacaaa ctaccgtttc atgatttatt tattcaaatt
1301 tcaggtccaa atcttcctca gtggaaaggc actcaaggga gccaagcttc
1351 gccgtaaccc acgtgacatc agatggactg tcctctacag aatcaagaac
1401 aagaaggtac ttgagatcct taaacgcagt tgaaaattgg taattttaca
1451 gggaacccac ggacaagagc aagtcaccag aaagaagacc aagaagtccg
1501 tccaggttgt taaccgcgcc gtcgctggac tttcccttga tgctatcctt
1551 gccaagagaa accagaccga agacttccgt cgccaacagc gtgaacaagc
1601 cgctaagatc gccaaggatg ccaacaaggc tgtccgtgcc gccaaggctg
1651 ctgccaacaa ggtaaacttt ctacaatatt tattataaac tttagcatgc
1701 tgttagagct tgtaaggtat atgtgatttt acgagtgttg aagtattgca
1751 aaagcaaagg acgggcacaa ttgccatgtg ttggtattat tgcttcaagt
1801 tatttgaagc tgtaatatca ataagcatgt ctcgtgtgaa gtccgacaat
1851 ttaccatatg catgaaattt aaaaacaagt taattttgtc aattctttat
1901 cattggtttt caggaaaaga aggcctctca gccaaagacc cagcaaaaga
1951 ccgccaagaa tgtgaagact gctgctccac gtgtcggagg aaagcgataa
2001 acgttctcgg tcccgttatt gtaataaatt ttgttgaccg ttaaagtttt
2051 aatgcaagac atccaacaag aaaagtattc tcaaattatt attttaacag
2101 aactatccga atctgttcat ttgagtttgt ttagaatgag gactcttcga
2151 atagcccagt acagtgttct tactgttggg ttcgccattt atatgtaccg
2201 actgattgaa gaaattccga tagacataag gaatttaaat tcggattctc
2251 tcgaggggat catcaactcc gatgaactat gtgatgtcac cgtcagcaat
2301 aggaatcgtg ggcttttagt tcgaaacgac tctttagatc ttgatatttt
2351 gaaagcaaaa ttcactacat ttttcagcaa aagatagtta gttttctgga
2401 cttattaaaa aggataatat ggtttcaaaa attcagtctc actcgatttc
2451 taagcgaaca agttcctttt ctgcacgtga tcgatgaagc tcttctcgtg
2501 aaacgatttg tgatgtgtgc atgctttatg gtattctgtt taacagtgat
2551 ctggtttctg gtgattcgaa gaatgggaaa tctcattaaa agattgtcag
2601 tgctgaatca gctggaagat gcggaatctg ttgaatgggc gagatgcatc
2651 agagagttta cacaagaaaa gctcgcagta ctgtgctttt gcatagttcc
2701 accgtttgca cagacggata agttagtttc agacaaaata aagttattcc
2751 gggaacacaa aattctgaga attcgtagtg tgcaacatat ttgacgcgca
2801 aatacctcgt aacgaaaact acagttattc tttaaatcac tactgtagtg
2851 cttgtgtcga ttttcgaagt gaatttcttt ccgaattgtg acatcgatat
2901 tctactttcc ttcgtttctt cgtaataagt tttttttgct aagttttaat
2951 attctgtaaa ttaaaaaaaa acgattttta ctcatgtcga aacccgagcc
3001 cgtaaatcga cataaacgct acagtagtca tttaaatagt tactgtagtt
3051 ttcgctacaa c
Retour à BIST | Swiss-Prot| M.C. Blatter | Projets Home de F. Lo