Ce scénario aide à mieux comprendre la complexité et les problèmes liés à l’après-séquençage (ère post-génomique)
Prédiction de gène (structure des gènes eucaryotiques, notion d’exons/introns, sens de la lecture, comprendre les difficultés actuels de prédire une protéine à partir d’une séquence ADN).
Voici une séquence génomique de C.elegans portant l’information pour coder une protéine (gène 1) Solution (Caenorhabditis elegans cosmid D1007)
Approche 1 (selon Scénario 7):
Traduire directement la séquence ADN et essayer de trouver un ou plusieurs cadres de lectures ouverts (plus de 20 aa entre la Met et le Stop)
Copier la séquence (Ctrl C ou pomme-C)
Aller sur le serveur ExPASy http://www.expasy.org/
Cliquez sur DNA -> Protein (Translate)
Puis sur "Translate"
Coller la séquence à traduire et "Translate"
A vous de voir maintenant, parmi les 6 "phases de lectures", laquelle est la bonne:
Conclusion : l'approche du Scénario 7 : traduire directement la séquence ADN et essayer de trouver un ou plusieurs cadres de lectures ouverts (plus de 20 aa entre la Met et le Stop) n'est pas du tout appropriée pour trouver la séquence correcte d'une protéine d'un organisme eucaryotique !
Les programmes utilisés ici sont ceux qui sont utilisés pour l’analyse des génomes complets et en particulier pour l’analyse du génome humain.
Approche 2 : Les programmes de prédiction
Utiliser les programmes de prédiction de gènes pour trouver la séquence du mRNA et de la protéine
Comparer les résultats des différents programmes
Ce programme prédit 2 protéines :
1.01 Init + 1003 1083 81 0 0 74 113 69 0.960 9.02
1.02 Intr + 1305 1406 102 2 0 74 75 81 0.966 4.85
1.03 Intr + 1452 1661 210 2 0 39 92 363 0.999 29.99
1.04 Term + 1914 2000 87 2 0 79 41 136 0.987 4.68
1.05 PlyA + 2023 2028 6 1.05
2.00 Prom + 2044 2083 40 -11.54
2.01 Init + 2136 2386 251 2 2 35 16 296 0.866 14.08
2.02 Term + 2437 2794 358 1 1 -23 48 252 0.384 3.10
2.03 PlyA + 2963 2968 6
Predicted peptide sequence(s):
>gene1|GENSCAN_predicted_peptide_1|159_aa
MKVETCVYSGYKIHPGHGKRLVRTDGKVQIFLSGKALKGAKLRRNPRDIRWTVLYRIKNK
KGTHGQEQVTRKKTKKSVQVVNRAVAGLSLDAILAKRNQTEDFRRQQREQAAKIAKDANK
AVRAAKAAANKEKKASQPKTQQKTAKNVKTAAPRVGGKR
>gene1|GENSCAN_predicted_peptide_2|202_aa
MRTLRIAQYSVLTVGFAIYMYRLIEEIPIDIRNLNSDSLEGIINSDELCDVTVSNRNRGL
LVRNDSLDLDILKAKFTTFFSKRYLTRFLSEQVPFLHVIDEALLVKRFVMCACFMVFCLT
VIWFLVIRRMGNLIKRLSVLNQLEDAESVEWARCIREFTQEKLAVLCFCIVPPFAQTDKL
VSDKIKLFREHKILRIRSVQHICe programme n’a pas été entraîné spécifiquement pour des invertébrés (voir les choix : vertébrés : maize et arabidopsis). La seule façon de savoir laquelle des 2 protéines est juste est de comparé avec d’autres programmes de prédiction (ici HMM) et/ou de faire des recherches de similarité pour voir laquelle des protéines existe chez d’autres espèces. C’est extrêmement rare qu’un même gène code pour 2 protéines dans des cadres de lectures différents (sauf chez les virus)
Ce programme prédit également 2 protéines : il est d’accord avec Genscan seulement pour la première protéine. D’autres vérifications seraient nécessaires, mais c’est déjà un bon indice.
# SEQ: gene1 3061 (+) A:965 C:562 G:588 T:946 gene1 HMMgene1.1a firstex 1003 1083 0.999 + 0 bestparse:cds_1 gene1 HMMgene1.1a exon_1 1305 1406 0.982 + 0 bestparse:cds_1 gene1 HMMgene1.1a exon_2 1452 1661 0.999 + 0 bestparse:cds_1 gene1 HMMgene1.1a lastex 1914 2000 0.944 + 0 bestparse:cds_1 gene1 HMMgene1.1a CDS 1003 2000 0.925 + . bestparse:cds_1 # SEQ: gene1 3061 (-) A:946 C:588 G:562 T:965 gene1 HMMgene1.1a firstex 2443 2522 0.911 - 2 bestparse:cds_1 gene1 HMMgene1.1a exon_1 1461 1650 0.416 - 0 bestparse:cds_1 gene1 HMMgene1.1a lastex 1290 1418 0.524 - 0 bestparse:cds_1 gene1 HMMgene1.1a CDS 1290 2522 0.368 - . bestparse:cds_1 |
HMM ne propose pas de séquence de protéine : il faut découper la séquence manuellement pour éliminer les introns selon les résultats de la prédiction. C’est fastidieux, mais cela aide à comprendre la notion de l’épissage et des problèmes des cadres de lectures si on coupe mal (si on laisse un acide nucléique en trop). Permet aussi de voir qu’un exon ne commence pas par ATG (1ère Met)
Le programme suivant permet de numéroter les séquences afin de les épisser plus facilement : http://vvv.infobiogen.fr/services/analyseq/cgi-bin/readseq_in.pl
Choisir le format GCG solution
Copier coller la séquence en format GCG dans un traitement de texte et utiliser une police ‘monospace' p. ex. courrier’ 10 pour conserver le format dans l’éditeur.
Ensuite manuellement, utiliser le résultat du programme HMM pour construire votre ‘mRNA’
Donc : enlever les nucléotides 1 à 1002, 1084 à 1304, 1407 à 1451, 1662 à 1913
Colorier les nucléotides à éliminer (en utilisant le format GCG):
nucléotides en rouge (intron) : 1 à 1002, 1084 à 1304, 1407 à 1451, 1662 à 1913 gene1 Length: 3061 (today) Check: 4030
1 aaaaaaaatt tttttttaaa acttttctaa aaatttttat caaagaaaca
51 acataacttt gctcaacgta gagctacaag aaaactagtg caaaaatcgg
101 ttttcttgtc aaattttaac cctaaaacca ttaaaatacg tcaaattttc
151 caaatttcaa aaatgggtcg ctgtggctca agtgggaaga gggatggcta
201 tggtgcaaaa ggtcacgggt tcgaacaccg ggtagtggaa atattttttt
251 ctagttgaat gtgcattgtt tctagaactt tttttcgtaa attaacggta
301 atttaagaga aaaaaaattt ttaaacacat ttttttgaaa ttttgaaaat
351 tttcttttca aaattttttt agaaccccca taatttggga aaaatactcg
401 gaaaccagtt tattttcaac aataaaaaat attttcacta ctgggggttc
451 gaacccctga ccctcagagc cacagccatc cctctgccca cctgagccac
501 tgcgacccat tctcaaaatt tcgaaaaatt gacgtatctt ttagagtata
551 aattttcact tttttaacac aataagtcac taaattttca aagaaacggg
601 attttggaaa aaaaaattga aagaaaagag gtacaacgaa attcttccga
651 ctaatgcatt acataggggc acacacgcag cgacacagag aaacaagtga
701 ttttggttaa attcgcacag ccgaaacgag tgttaccgta ctcttgctgc
751 gtagcgcccc tatcttttgc attagaggag ttttgaagag aggaaagaat
801 tttttcgttt ttttttcgag gcctatccca actccttgtt cacgaatgtt
851 ttaattttgg gaataattga ttattggaaa ttaaattcgt tatttttata
901 agctacaaac agatccttga taattgtcgt tgattttact ttatcctaaa
951 tttatctcaa aaatgttgaa attcagattc gtcaagcgag ggcctatcaa
1001 caatgaaggt cgaaacctgc gtttactccg gatacaagat ccacccagga
1051 cacggaaaga gacttgtccg tactgacgga aaggtgagtt cagtttctct
1101 ttgaaaggcg ttagcatgct gttagagctc gtaaggtata ttgtaatttt
1151 acgagtgttg aagtattgca aaagtaaagc ataatcacct tatgtatgtg
1201 ttggtgctat atcttctagt ttttagaagt tataccatcg ttaagcatgc
1251 cacgtgttga gtgcgacaaa ctaccgtttc atgatttatt tattcaaatt
1301 tcaggtccaa atcttcctca gtggaaaggc actcaaggga gccaagcttc
1351 gccgtaaccc acgtgacatc agatggactg tcctctacag aatcaagaac
1401 aagaaggtac ttgagatcct taaacgcagt tgaaaattgg taattttaca
1451 gggaacccac ggacaagagc aagtcaccag aaagaagacc aagaagtccg
1501 tccaggttgt taaccgcgcc gtcgctggac tttcccttga tgctatcctt
1551 gccaagagaa accagaccga agacttccgt cgccaacagc gtgaacaagc
1601 cgctaagatc gccaaggatg ccaacaaggc tgtccgtgcc gccaaggctg
1651 ctgccaacaa ggtaaacttt ctacaatatt tattataaac tttagcatgc
1701 tgttagagct tgtaaggtat atgtgatttt acgagtgttg aagtattgca
1751 aaagcaaagg acgggcacaa ttgccatgtg ttggtattat tgcttcaagt
1801 tatttgaagc tgtaatatca ataagcatgt ctcgtgtgaa gtccgacaat
1851 ttaccatatg catgaaattt aaaaacaagt taattttgtc aattctttat
1901 cattggtttt caggaaaaga aggcctctca gccaaagacc cagcaaaaga
1951 ccgccaagaa tgtgaagact gctgctccac gtgtcggagg aaagcgataa
2001 acgttctcgg tcccgttatt gtaataaatt ttgttgaccg ttaaagtttt
2051 aatgcaagac atccaacaag aaaagtattc tcaaattatt attttaacag
2101 aactatccga atctgttcat ttgagtttgt ttagaatgag gactcttcga
2151 atagcccagt acagtgttct tactgttggg ttcgccattt atatgtaccg
2201 actgattgaa gaaattccga tagacataag gaatttaaat tcggattctc
2251 tcgaggggat catcaactcc gatgaactat gtgatgtcac cgtcagcaat
2301 aggaatcgtg ggcttttagt tcgaaacgac tctttagatc ttgatatttt
2351 gaaagcaaaa ttcactacat ttttcagcaa aagatagtta gttttctgga
2401 cttattaaaa aggataatat ggtttcaaaa attcagtctc actcgatttc
2451 taagcgaaca agttcctttt ctgcacgtga tcgatgaagc tcttctcgtg
2501 aaacgatttg tgatgtgtgc atgctttatg gtattctgtt taacagtgat
2551 ctggtttctg gtgattcgaa gaatgggaaa tctcattaaa agattgtcag
2601 tgctgaatca gctggaagat gcggaatctg ttgaatgggc gagatgcatc
2651 agagagttta cacaagaaaa gctcgcagta ctgtgctttt gcatagttcc
2701 accgtttgca cagacggata agttagtttc agacaaaata aagttattcc
2751 gggaacacaa aattctgaga attcgtagtg tgcaacatat ttgacgcgca
2801 aatacctcgt aacgaaaact acagttattc tttaaatcac tactgtagtg
2851 cttgtgtcga ttttcgaagt gaatttcttt ccgaattgtg acatcgatat
2901 tctactttcc ttcgtttctt cgtaataagt tttttttgct aagttttaat
2951 attctgtaaa ttaaaaaaaa acgattttta ctcatgtcga aacccgagcc
3001 cgtaaatcga cataaacgct acagtagtca tttaaatagt tactgtagtt
3051 ttcgctacaa c
1001 aatgaaggt cgaaacctgc gtttactccg gatacaagat ccacccagga
1051 cacggaaaga gacttgtccg tactgacgga
1301 gtccaa atcttcctca gtggaaaggc actcaaggga gccaagcttc
1351 gccgtaaccc acgtgacatc agatggactg tcctctacag aatcaagaac
1401 aagaag
1451 ggaacccac ggacaagagc aagtcaccag aaagaagacc aagaagtccg
1501 tccaggttgt taaccgcgcc gtcgctggac tttcccttga tgctatcctt
1551 gccaagagaa accagaccga agacttccgt cgccaacagc gtgaacaagc
1601 cgctaagatc gccaaggatg ccaacaaggc tgtccgtgcc gccaaggctg
1651 ctgccaacaa g
1901 gaaaaga aggcctctca gccaaagacc cagcaaaaga
1951 ccgccaagaa tgtgaagact gctgctccac gtgtcggagg aaagcgataa
2001 acgttctcgg tcccgttatt gtaataaatt ttgttgaccg ttaaagtttt
2051 aatgcaagac atccaacaag aaaagtattc tcaaattatt attttaacag
2101 aactatccga atctgttcat ttgagtttgt ttagaatgag gactcttcga
2151 atagcccagt acagtgttct tactgttggg ttcgccattt atatgtaccg
2201 actgattgaa gaaattccga tagacataag gaatttaaat tcggattctc
2251 tcgaggggat catcaactcc gatgaactat gtgatgtcac cgtcagcaat
2301 aggaatcgtg ggcttttagt tcgaaacgac tctttagatc ttgatatttt
2351 gaaagcaaaa ttcactacat ttttcagcaa aagatagtta gttttctgga
2401 cttattaaaa aggataatat ggtttcaaaa attcagtctc actcgatttc
2451 taagcgaaca agttcctttt ctgcacgtga tcgatgaagc tcttctcgtg
2501 aaacgatttg tgatgtgtgc atgctttatg gtattctgtt taacagtgat
2551 ctggtttctg gtgattcgaa gaatgggaaa tctcattaaa agattgtcag
2601 tgctgaatca gctggaagat gcggaatctg ttgaatgggc gagatgcatc
2651 agagagttta cacaagaaaa gctcgcagta ctgtgctttt gcatagttcc
2701 accgtttgca cagacggata agttagtttc agacaaaata aagttattcc
2751 gggaacacaa aattctgaga attcgtagtg tgcaacatat ttgacgcgca
2801 aatacctcgt aacgaaaact acagttattc tttaaatcac tactgtagtg
2851 cttgtgtcga ttttcgaagt gaatttcttt ccgaattgtg acatcgatat
2901 tctactttcc ttcgtttctt cgtaataagt tttttttgct aagttttaat
2951 attctgtaaa ttaaaaaaaa acgattttta ctcatgtcga aacccgagcc
3001 cgtaaatcga cataaacgct acagtagtca tttaaatagt tactgtagtt
3051 ttcgctacaa c
>readseq.input(1), 1539 bases, 2ED1410E checksum.
aatgaaggtcgaaacctgcgtttactccggatacaagatccacccaggac
acggaaagagacttgtccgtactgacggagtccaaatcttcctcagtgga
aaggcactcaagggagccaagcttcgccgtaacccacgtgacatcagatg
gactgtcctctacagaatcaagaacaagaagggaacccacggacaagagc
aagtcaccagaaagaagaccaagaagtccgtccaggttgttaaccgcgcc
gtcgctggactttcccttgatgctatccttgccaagagaaaccagaccga
agacttccgtcgccaacagcgtgaacaagccgctaagatcgccaaggatg
ccaacaaggctgtccgtgccgccaaggctgctgccaacaaggaaaagaag
gcctctcagccaaagacccagcaaaagaccgccaagaatgtgaagactgc
tgctccacgtgtcggaggaaagcgataaacgttctcggtcccgttattgt
aataaattttgttgaccgttaaagttttaatgcaagacatccaacaagaa
aagtattctcaaattattattttaacagaactatccgaatctgttcattt
gagtttgtttagaatgaggactcttcgaatagcccagtacagtgttctta
ctgttgggttcgccatttatatgtaccgactgattgaagaaattccgata
gacataaggaatttaaattcggattctctcgaggggatcatcaactccga
tgaactatgtgatgtcaccgtcagcaataggaatcgtgggcttttagttc
gaaacgactctttagatcttgatattttgaaagcaaaattcactacattt
ttcagcaaaagatagttagttttctggacttattaaaaaggataatatgg
tttcaaaaattcagtctcactcgatttctaagcgaacaagttccttttct
gcacgtgatcgatgaagctcttctcgtgaaacgatttgtgatgtgtgcat
gctttatggtattctgtttaacagtgatctggtttctggtgattcgaaga
atgggaaatctcattaaaagattgtcagtgctgaatcagctggaagatgc
ggaatctgttgaatgggcgagatgcatcagagagtttacacaagaaaagc
tcgcagtactgtgcttttgcatagttccaccgtttgcacagacggataag
ttagtttcagacaaaataaagttattccgggaacacaaaattctgagaat
tcgtagtgtgcaacatatttgacgcgcaaatacctcgtaacgaaaactac
agttattctttaaatcactactgtagtgcttgtgtcgattttcgaagtga
atttctttccgaattgtgacatcgatattctactttccttcgtttcttcg
taataagttttttttgctaagttttaatattctgtaaattaaaaaaaaac
gatttttactcatgtcgaaacccgagcccgtaaatcgacataaacgctac
agtagtcatttaaatagttactgtagttttcgctacaac
Si on n’a pas fait d’erreur, on devrait retrouver la bonne séquence.
MKVETCVYSGYKIHPGHGKRLVRTDGKVQIFLSGKALKGAKLRRNPRDIRWTVLYRIKNK
KGTHGQEQVTRKKTKKSVQVVNRAVAGLSLDAILAKRNQTEDFRRQQREQAAKIAKDANK
AVRAAKAAANKEKKASQPKTQQKTAKNVKTAAPRVGGKR
Si on a fait une erreur (un nucléotide en plus ou en moins), la séquence sera fausse. 15 % de maladies génétiques sont dues à des problèmes au moment de l’épissage des RNAs (le plus souvent, une mutation qui modifie les sites d’épissage) qui modifient la séquence de la protéine et produisent le plus souvent des protéines qui ne sont pas fonctionnelles.
HMM prédit un mRNA, mais pas une protéine. Si on n’avait pas les indications données par Genscan, on pourrait encore hésiter sur le choix de la séquence en acides aminés : il y a plusieurs séquences relativement ‘longues’ entre une Met et un STOP.
Dans le frame 3, on retrouve toutefois la séquence proposée par Genscan :
5'3' Frame 3
X X X X X X X X X Met K V E T C V Y S G Y K I H P G H G K R L V R T D G V Q I F L S G K A L K G A K L R R N P R D I R W T V L Y R I K N K K G T H G Q E Q V T R K K T K K S V Q V V N R A V A G L S L D A I L A K R N Q T E D F R R Q Q R E Q A A K I A K D A N K A V R A A K A A A N K E K K A S Q P K T Q Q K T A K N V K T A A P R V G G K R Stop T F S V P L L Stop Stop I L L T V K V L Met Q D I Q Q E K Y S Q I I I L T E L S E S V H L S L F R Met R T L R I A Q Y S V L T V G F A I Y Met Y R L I E E I P I D I R N L N S D S L E G I I N S D E L C D V T V S N R N R G L L V R N D S L D L D I L K A K F T T F F S K R Stop L V F W T Y Stop K G Stop Y G F K N S V S L D F Stop A N K F L F C T Stop S Met K L F S Stop N D L Stop C V H A L W Y S V Stop Q Stop S G F W Stop F E E W E I S L K D C Q C Stop I S W K Met R N L L N G R D A S E S L H K K S S Q Y C A F A Stop F H R L H R R I S Stop F Q T K Stop S Y S G N T K F Stop E F V V C N I F D A Q I P R N E N Y S Y S L N H Y C S A C V D F R S E F L S E L Stop H R Y S T F L R F F V I S F F C Stop V L I F C K L K K N D F Y S C R N P S P Stop I D I N A T V V I Stop I V T V V F A T
Conclusions:
Il y a 2 étapes critiques: 1. la prédiction du mRNA et 2. retrouver la bonne séquence dans les différents cadres de lecture (frame) une fois le mRNA prédit traduit.
Les biologistes peuvent/doivent vérifier la séquence prédite en faisant des Blast par exemple…
Tant que la protéine n’aura pas été séquencée manuellement (ou localisée à l’aide d’anticorps, ou vue dans un complexe de protéine…), on aura aucune preuve de son existence.
Peu de biologistes sont conscients de ce problème : ils considèrent que si une protéine est dans une banque de données, elle existe forcément. Or beaucoup de protéines du génome humain, sont juste prédites. La comparaison entre les génomes reste pour l’instant une des seules voies rapide pour ‘prouver (à demi)’ l’existence d’une séquence en acide aminé (estimer qu’elle a une chance d’être exprimée dans une cellule….)
Pour le fun :
Comparer les résultats d’une prédiction avec un programme spécifique aux eukaryotes et un programme spécifique aux procaryotes (GeneMark) http://opal.biology.gatech.edu/GeneMark/gmhmm2_prok.cgi
Le programme procaroytique trouve 2 protéines distinctes. Il ne tient absolument pas compte qu’il peut y avoir des introns.
Dernière révision novembre 2009. Au rythme où les choses changent, il faut s'attendre à ce que certains liens ne fonctionnent plus ou que l'apparence voire la structure de certains sites aitent changé d'apparence. Le lecteur saura adapter |
Retour à BIST | Swiss-Prot| M.C. Blatter | Projets Home de F. Lo