barre de nav. TECFA F.Lo Ma page d'ccueilPublications F.LoRessources F.LoProjets F.LoPlanning F.LoDivers liensActivités Calvin de F.LoActivités CPTIC de F.LoActivités LME de F.LoTECFA Welcome Swiss-Prot Logo



Scénario 12 Prédiction de gènes


Objectif : Tenter de prédire la position de gènes, affiner les notions de structure des gènes eucaryotiques, d'introns(exons, de sens de lecture et de phase de lecture. Prendre la mesure des difficultés actuelles de prédire une protéine à partir d’une séquence ADN


Ce scénario aide à mieux comprendre la complexité et les problèmes liés à l’après-séquençage (ère post-génomique)

Prédiction de gène (structure des gènes eucaryotiques, notion d’exons/introns, sens de la lecture, comprendre les difficultés actuels de prédire une protéine à partir d’une séquence ADN).

Voici une séquence génomique de C.elegans portant l’information pour coder une protéine (gène 1) Solution (Caenorhabditis elegans cosmid D1007)

Pour un génome eucaryotique.

Approche 1 (selon Scénario 7):

Traduire directement la séquence ADN et essayer de trouver un ou plusieurs cadres de lectures ouverts (plus de 20 aa entre la Met et le Stop)

Copier la séquence (Ctrl C ou pomme-C)

Aller sur le serveur ExPASy http://www.expasy.org/

Cliquez sur DNA -> Protein (Translate)

Puis sur "Translate"

Coller la séquence à traduire et "Translate"

A vous de voir maintenant, parmi les 6 "phases de lectures", laquelle est la bonne:

Conclusion : l'approche du Scénario 7 : traduire directement la séquence ADN et essayer de trouver un ou plusieurs cadres de lectures ouverts (plus de 20 aa entre la Met et le Stop) n'est pas du tout appropriée pour trouver la séquence correcte d'une protéine d'un organisme eucaryotique !

Les programmes utilisés ici sont ceux qui sont utilisés pour l’analyse des génomes complets et en particulier pour l’analyse du génome humain.

Approche 2 :  Les programmes de prédiction

Utiliser les programmes de prédiction de gènes pour trouver la séquence du mRNA et de la protéine

Comparer les résultats des différents programmes


2a Prédiction de gène par Genescan

Ce programme prédit 2 protéines : 

 1.01 Init +   1003   1083   81  0  0   74  113    69 0.960   9.02
 1.02 Intr +   1305   1406  102  2  0   74   75    81 0.966   4.85
 1.03 Intr +   1452   1661  210  2  0   39   92   363 0.999  29.99
 1.04 Term +   1914   2000   87  2  0   79   41   136 0.987   4.68
 1.05 PlyA +   2023   2028    6                               1.05
 
 2.00 Prom +   2044   2083   40                             -11.54
 2.01 Init +   2136   2386  251  2  2   35   16   296 0.866  14.08
 2.02 Term +   2437   2794  358  1  1  -23   48   252 0.384   3.10
 2.03 PlyA +   2963   2968    6                             
 
Predicted peptide sequence(s):
>gene1|GENSCAN_predicted_peptide_1|159_aa
MKVETCVYSGYKIHPGHGKRLVRTDGKVQIFLSGKALKGAKLRRNPRDIRWTVLYRIKNK
KGTHGQEQVTRKKTKKSVQVVNRAVAGLSLDAILAKRNQTEDFRRQQREQAAKIAKDANK
AVRAAKAAANKEKKASQPKTQQKTAKNVKTAAPRVGGKR
 
>gene1|GENSCAN_predicted_peptide_2|202_aa
MRTLRIAQYSVLTVGFAIYMYRLIEEIPIDIRNLNSDSLEGIINSDELCDVTVSNRNRGL
LVRNDSLDLDILKAKFTTFFSKRYLTRFLSEQVPFLHVIDEALLVKRFVMCACFMVFCLT
VIWFLVIRRMGNLIKRLSVLNQLEDAESVEWARCIREFTQEKLAVLCFCIVPPFAQTDKL
VSDKIKLFREHKILRIRSVQHI
 Ce programme n’a pas été entraîné spécifiquement pour des invertébrés (voir les choix : vertébrés : maize et arabidopsis). La seule façon de savoir laquelle des 2 protéines est juste est de comparé avec d’autres programmes de prédiction (ici HMM) et/ou de faire des recherches de similarité pour voir laquelle des protéines existe chez d’autres espèces. C’est extrêmement rare qu’un même gène code pour 2 protéines dans des cadres de lectures différents (sauf chez les virus)

2 b  Prédiction de gène par HMM 

Ce programme prédit également 2 protéines : il est d’accord avec Genscan seulement pour la première protéine. D’autres vérifications seraient nécessaires, mais c’est déjà un bon indice.

# SEQ: gene1 3061 (+) A:965 C:562 G:588 T:946
gene1       HMMgene1.1a       firstex       1003       1083       0.999       +       0       bestparse:cds_1
gene1       HMMgene1.1a       exon_1       1305       1406       0.982       +       0       bestparse:cds_1
gene1       HMMgene1.1a       exon_2       1452       1661       0.999       +       0       bestparse:cds_1
gene1       HMMgene1.1a       lastex       1914       2000       0.944       +       0       bestparse:cds_1
gene1       HMMgene1.1a       CDS       1003       2000       0.925       +       .       bestparse:cds_1
# SEQ: gene1 3061 (-) A:946 C:588 G:562 T:965
gene1       HMMgene1.1a       firstex       2443       2522       0.911       -       2       bestparse:cds_1
gene1       HMMgene1.1a       exon_1       1461       1650       0.416       -       0       bestparse:cds_1
gene1       HMMgene1.1a       lastex       1290       1418       0.524       -       0       bestparse:cds_1
gene1       HMMgene1.1a       CDS       1290       2522       0.368       -       .       bestparse:cds_1

HMM ne propose pas de séquence de protéine : il faut découper la séquence manuellement pour éliminer les introns selon les résultats de la prédiction. C’est fastidieux, mais cela aide à comprendre la notion de l’épissage et des problèmes des cadres de lectures si on coupe mal (si on laisse un acide nucléique en trop). Permet aussi de voir qu’un exon ne commence pas par ATG (1ère Met)

Le programme suivant permet de numéroter les séquences afin de les épisser plus facilement : http://vvv.infobiogen.fr/services/analyseq/cgi-bin/readseq_in.pl

Choisir le format GCG solution

Copier coller la séquence en format GCG dans un traitement de texte et utiliser une police ‘monospace' p. ex. courrier’ 10 pour conserver le format dans l’éditeur.

Ensuite manuellement, utiliser le résultat du programme HMM pour construire votre ‘mRNA’

Donc : enlever les nucléotides 1 à 1002, 1084 à 1304, 1407 à 1451, 1662 à 1913  

Etape 1 :

Colorier les nucléotides à éliminer (en utilisant le format GCG):

nucléotides en rouge  (intron) : 1 à 1002, 1084 à 1304, 1407 à 1451, 1662 à 1913    gene1  Length: 3061  (today)  Check: 4030 

    1  aaaaaaaatt tttttttaaa acttttctaa aaatttttat caaagaaaca
   51  acataacttt gctcaacgta gagctacaag aaaactagtg caaaaatcgg
  101  ttttcttgtc aaattttaac cctaaaacca ttaaaatacg tcaaattttc
  151  caaatttcaa aaatgggtcg ctgtggctca agtgggaaga gggatggcta
  201  tggtgcaaaa ggtcacgggt tcgaacaccg ggtagtggaa atattttttt
  251  ctagttgaat gtgcattgtt tctagaactt tttttcgtaa attaacggta
  301  atttaagaga aaaaaaattt ttaaacacat ttttttgaaa ttttgaaaat
  351  tttcttttca aaattttttt agaaccccca taatttggga aaaatactcg
  401  gaaaccagtt tattttcaac aataaaaaat attttcacta ctgggggttc
  451  gaacccctga ccctcagagc cacagccatc cctctgccca cctgagccac
  501  tgcgacccat tctcaaaatt tcgaaaaatt gacgtatctt ttagagtata
  551  aattttcact tttttaacac aataagtcac taaattttca aagaaacggg
  601  attttggaaa aaaaaattga aagaaaagag gtacaacgaa attcttccga
  651  ctaatgcatt acataggggc acacacgcag cgacacagag aaacaagtga
  701  ttttggttaa attcgcacag ccgaaacgag tgttaccgta ctcttgctgc
  751  gtagcgcccc tatcttttgc attagaggag ttttgaagag aggaaagaat
  801  tttttcgttt ttttttcgag gcctatccca actccttgtt cacgaatgtt
  851  ttaattttgg gaataattga ttattggaaa ttaaattcgt tatttttata
  901  agctacaaac agatccttga taattgtcgt tgattttact ttatcctaaa
  951  tttatctcaa aaatgttgaa attcagattc gtcaagcgag ggcctatcaa
 1001  caatgaaggt cgaaacctgc gtttactccg gatacaagat ccacccagga
 1051  cacggaaaga gacttgtccg tactgacgga aaggtgagtt cagtttctct
 1101  ttgaaaggcg ttagcatgct gttagagctc gtaaggtata ttgtaatttt
 1151  acgagtgttg aagtattgca aaagtaaagc ataatcacct tatgtatgtg
 1201  ttggtgctat atcttctagt ttttagaagt tataccatcg ttaagcatgc
 1251  cacgtgttga gtgcgacaaa ctaccgtttc atgatttatt tattcaaatt
 1301  tcaggtccaa atcttcctca gtggaaaggc actcaaggga gccaagcttc
 1351  gccgtaaccc acgtgacatc agatggactg tcctctacag aatcaagaac
 1401  aagaaggtac ttgagatcct taaacgcagt tgaaaattgg taattttaca
 1451  gggaacccac ggacaagagc aagtcaccag aaagaagacc aagaagtccg
 1501  tccaggttgt taaccgcgcc gtcgctggac tttcccttga tgctatcctt
 1551  gccaagagaa accagaccga agacttccgt cgccaacagc gtgaacaagc
 1601  cgctaagatc gccaaggatg ccaacaaggc tgtccgtgcc gccaaggctg
 1651  ctgccaacaa ggtaaacttt ctacaatatt tattataaac tttagcatgc
 1701  tgttagagct tgtaaggtat atgtgatttt acgagtgttg aagtattgca
 1751  aaagcaaagg acgggcacaa ttgccatgtg ttggtattat tgcttcaagt
 1801  tatttgaagc tgtaatatca ataagcatgt ctcgtgtgaa gtccgacaat
 1851  ttaccatatg catgaaattt aaaaacaagt taattttgtc aattctttat
 1901  cattggtttt caggaaaaga aggcctctca gccaaagacc cagcaaaaga
 1951  ccgccaagaa tgtgaagact gctgctccac gtgtcggagg aaagcgataa
 2001  acgttctcgg tcccgttatt gtaataaatt ttgttgaccg ttaaagtttt
 2051  aatgcaagac atccaacaag aaaagtattc tcaaattatt attttaacag
 2101  aactatccga atctgttcat ttgagtttgt ttagaatgag gactcttcga
 2151  atagcccagt acagtgttct tactgttggg ttcgccattt atatgtaccg
 2201  actgattgaa gaaattccga tagacataag gaatttaaat tcggattctc
 2251  tcgaggggat catcaactcc gatgaactat gtgatgtcac cgtcagcaat
 2301  aggaatcgtg ggcttttagt tcgaaacgac tctttagatc ttgatatttt
 2351  gaaagcaaaa ttcactacat ttttcagcaa aagatagtta gttttctgga
 2401  cttattaaaa aggataatat ggtttcaaaa attcagtctc actcgatttc
 2451  taagcgaaca agttcctttt ctgcacgtga tcgatgaagc tcttctcgtg
 2501  aaacgatttg tgatgtgtgc atgctttatg gtattctgtt taacagtgat
 2551  ctggtttctg gtgattcgaa gaatgggaaa tctcattaaa agattgtcag
 2601  tgctgaatca gctggaagat gcggaatctg ttgaatgggc gagatgcatc
 2651  agagagttta cacaagaaaa gctcgcagta ctgtgctttt gcatagttcc
 2701  accgtttgca cagacggata agttagtttc agacaaaata aagttattcc
 2751  gggaacacaa aattctgaga attcgtagtg tgcaacatat ttgacgcgca
 2801  aatacctcgt aacgaaaact acagttattc tttaaatcac tactgtagtg
 2851  cttgtgtcga ttttcgaagt gaatttcttt ccgaattgtg acatcgatat
 2901  tctactttcc ttcgtttctt cgtaataagt tttttttgct aagttttaat
 2951  attctgtaaa ttaaaaaaaa acgattttta ctcatgtcga aacccgagcc
 3001  cgtaaatcga cataaacgct acagtagtca tttaaatagt tactgtagtt
 3051  ttcgctacaa c

 

Etape 2: Eliminer manuellement les nucléotides rouges (intron) Résultat:  

 
 1001  aatgaaggt cgaaacctgc gtttactccg gatacaagat ccacccagga
 1051  cacggaaaga gacttgtccg tactgacgga 
 1301  gtccaa atcttcctca gtggaaaggc actcaaggga gccaagcttc
 1351  gccgtaaccc acgtgacatc agatggactg tcctctacag aatcaagaac
 1401  aagaag 
 1451  ggaacccac ggacaagagc aagtcaccag aaagaagacc aagaagtccg
 1501  tccaggttgt taaccgcgcc gtcgctggac tttcccttga tgctatcctt
 1551  gccaagagaa accagaccga agacttccgt cgccaacagc gtgaacaagc
 1601  cgctaagatc gccaaggatg ccaacaaggc tgtccgtgcc gccaaggctg
 1651  ctgccaacaa g 
 1901  gaaaaga aggcctctca gccaaagacc cagcaaaaga
 1951  ccgccaagaa tgtgaagact gctgctccac gtgtcggagg aaagcgataa
 2001  acgttctcgg tcccgttatt gtaataaatt ttgttgaccg ttaaagtttt
 2051  aatgcaagac atccaacaag aaaagtattc tcaaattatt attttaacag
 2101  aactatccga atctgttcat ttgagtttgt ttagaatgag gactcttcga
 2151  atagcccagt acagtgttct tactgttggg ttcgccattt atatgtaccg
 2201  actgattgaa gaaattccga tagacataag gaatttaaat tcggattctc
 2251  tcgaggggat catcaactcc gatgaactat gtgatgtcac cgtcagcaat
 2301  aggaatcgtg ggcttttagt tcgaaacgac tctttagatc ttgatatttt
 2351  gaaagcaaaa ttcactacat ttttcagcaa aagatagtta gttttctgga
 2401  cttattaaaa aggataatat ggtttcaaaa attcagtctc actcgatttc
 2451  taagcgaaca agttcctttt ctgcacgtga tcgatgaagc tcttctcgtg
 2501  aaacgatttg tgatgtgtgc atgctttatg gtattctgtt taacagtgat
 2551  ctggtttctg gtgattcgaa gaatgggaaa tctcattaaa agattgtcag
 2601  tgctgaatca gctggaagat gcggaatctg ttgaatgggc gagatgcatc
 2651  agagagttta cacaagaaaa gctcgcagta ctgtgctttt gcatagttcc
 2701  accgtttgca cagacggata agttagtttc agacaaaata aagttattcc
 2751  gggaacacaa aattctgaga attcgtagtg tgcaacatat ttgacgcgca
 2801  aatacctcgt aacgaaaact acagttattc tttaaatcac tactgtagtg
 2851  cttgtgtcga ttttcgaagt gaatttcttt ccgaattgtg acatcgatat
 2901  tctactttcc ttcgtttctt cgtaataagt tttttttgct aagttttaat
 2951  attctgtaaa ttaaaaaaaa acgattttta ctcatgtcga aacccgagcc
 3001  cgtaaatcga cataaacgct acagtagtca tttaaatagt tactgtagtt
 3051  ttcgctacaa c 

Etape 3 Convertir en format fasta -> on obtient la séquence prédite du mRNA

>readseq.input(1), 1539 bases, 2ED1410E checksum.
aatgaaggtcgaaacctgcgtttactccggatacaagatccacccaggac
acggaaagagacttgtccgtactgacggagtccaaatcttcctcagtgga
aaggcactcaagggagccaagcttcgccgtaacccacgtgacatcagatg
gactgtcctctacagaatcaagaacaagaagggaacccacggacaagagc
aagtcaccagaaagaagaccaagaagtccgtccaggttgttaaccgcgcc
gtcgctggactttcccttgatgctatccttgccaagagaaaccagaccga
agacttccgtcgccaacagcgtgaacaagccgctaagatcgccaaggatg
ccaacaaggctgtccgtgccgccaaggctgctgccaacaaggaaaagaag
gcctctcagccaaagacccagcaaaagaccgccaagaatgtgaagactgc
tgctccacgtgtcggaggaaagcgataaacgttctcggtcccgttattgt
aataaattttgttgaccgttaaagttttaatgcaagacatccaacaagaa
aagtattctcaaattattattttaacagaactatccgaatctgttcattt
gagtttgtttagaatgaggactcttcgaatagcccagtacagtgttctta
ctgttgggttcgccatttatatgtaccgactgattgaagaaattccgata
gacataaggaatttaaattcggattctctcgaggggatcatcaactccga
tgaactatgtgatgtcaccgtcagcaataggaatcgtgggcttttagttc
gaaacgactctttagatcttgatattttgaaagcaaaattcactacattt
ttcagcaaaagatagttagttttctggacttattaaaaaggataatatgg
tttcaaaaattcagtctcactcgatttctaagcgaacaagttccttttct
gcacgtgatcgatgaagctcttctcgtgaaacgatttgtgatgtgtgcat
gctttatggtattctgtttaacagtgatctggtttctggtgattcgaaga
atgggaaatctcattaaaagattgtcagtgctgaatcagctggaagatgc
ggaatctgttgaatgggcgagatgcatcagagagtttacacaagaaaagc
tcgcagtactgtgcttttgcatagttccaccgtttgcacagacggataag
ttagtttcagacaaaataaagttattccgggaacacaaaattctgagaat
tcgtagtgtgcaacatatttgacgcgcaaatacctcgtaacgaaaactac
agttattctttaaatcactactgtagtgcttgtgtcgattttcgaagtga
atttctttccgaattgtgacatcgatattctactttccttcgtttcttcg
taataagttttttttgctaagttttaatattctgtaaattaaaaaaaaac
gatttttactcatgtcgaaacccgagcccgtaaatcgacataaacgctac
agtagtcatttaaatagttactgtagttttcgctacaac
 

Etape 4 Traduire ce mRNA virtuel en protéine:

Si on n’a pas fait d’erreur, on devrait retrouver la bonne séquence.

MKVETCVYSGYKIHPGHGKRLVRTDGKVQIFLSGKALKGAKLRRNPRDIRWTVLYRIKNK
KGTHGQEQVTRKKTKKSVQVVNRAVAGLSLDAILAKRNQTEDFRRQQREQAAKIAKDANK
AVRAAKAAANKEKKASQPKTQQKTAKNVKTAAPRVGGKR

Si on a fait une erreur (un nucléotide en plus ou en moins), la séquence sera fausse. 15 % de maladies génétiques sont dues à des problèmes au moment de l’épissage des RNAs (le plus souvent, une mutation qui modifie les sites d’épissage) qui modifient la séquence de la protéine et produisent le plus souvent des protéines qui ne sont pas fonctionnelles.

HMM prédit un mRNA, mais pas une protéine. Si on n’avait pas les indications données par Genscan, on pourrait encore hésiter sur le choix de la séquence en acides aminés : il y a plusieurs séquences relativement ‘longues’ entre une Met et un STOP.

Dans le frame 3, on retrouve toutefois la séquence proposée par Genscan :

5'3' Frame 3
X X X X X X X X X Met K V E T C V Y S G Y K I H P G H G K R L V R T D G V Q I F L S G K A L K G A K L R R N P R D I R W T V L Y R I K N K K G T H G Q E Q V T R K K T K K S V Q V V N R A V A G L S L D A I L A K R N Q T E D F R R Q Q R E Q A A K I A K D A N K A V R A A K A A A N K E K K A S Q P K T Q Q K T A K N V K T A A P R V G G K R Stop T F S V P L L Stop Stop I L L T V K V L Met Q D I Q Q E K Y S Q I I I L T E L S E S V H L S L F R Met R T L R I A Q Y S V L T V G F A I Y Met Y R L I E E I P I D I R N L N S D S L E G I I N S D E L C D V T V S N R N R G L L V R N D S L D L D I L K A K F T T F F S K R Stop L V F W T Y Stop K G Stop Y G F K N S V S L D F Stop A N K F L F C T Stop S Met K L F S Stop N D L Stop C V H A L W Y S V Stop Q Stop S G F W Stop F E E W E I S L K D C Q C Stop I S W K Met R N L L N G R D A S E S L H K K S S Q Y C A F A Stop F H R L H R R I S Stop F Q T K Stop S Y S G N T K F Stop E F V V C N I F D A Q I P R N E N Y S Y S L N H Y C S A C V D F R S E F L S E L Stop H R Y S T F L R F F V I S F F C Stop V L I F C K L K K N D F Y S C R N P S P Stop I D I N A T V V I Stop I V T V V F A T

Conclusions:

Il y a 2 étapes critiques: 1. la prédiction du mRNA et 2. retrouver la bonne séquence dans les différents cadres de lecture (frame) une fois le mRNA prédit traduit.

Les biologistes peuvent/doivent vérifier la séquence prédite en faisant des Blast par exemple…

Tant que la protéine n’aura pas été séquencée manuellement (ou localisée à l’aide d’anticorps, ou vue dans un complexe de protéine…), on aura aucune preuve de son existence.
Peu de biologistes sont conscients de ce problème : ils considèrent que si une protéine est dans une banque de données, elle existe forcément. Or beaucoup de protéines du génome humain, sont juste prédites. La comparaison entre les génomes reste pour l’instant une des seules voies rapide pour ‘prouver (à demi)’ l’existence d’une séquence en acide aminé (estimer qu’elle a une chance d’être exprimée dans une cellule….)


Pour le fun :

Comparer les résultats d’une prédiction avec un programme spécifique aux eukaryotes et un programme spécifique aux procaryotes (GeneMark) http://opal.biology.gatech.edu/GeneMark/gmhmm2_prok.cgi

Le programme procaroytique trouve 2 protéines distinctes. Il ne tient absolument pas compte qu’il peut y avoir des introns.

Dernière révision novembre 2009. Au rythme où les choses changent, il faut s'attendre à ce que certains liens ne fonctionnent plus ou que l'apparence voire la structure de certains sites aitent changé d'apparence. Le lecteur saura adapter

Liens :

counter

Retour à BIST | Swiss-Prot| M.C. Blatter | Projets Home de F. Lo