barre de nav. TECFA F.Lo Ma page d'ccueilPublications F.LoRessources F.LoProjets F.LoPlanning F.LoDivers liensActivités Calvin de F.LoActivités CPTIC de F.LoActivités LME de F.LoTECFA Welcome Swiss-Prot Logo



1000 génomes : les exploiter en classe.


Table des Matières :


Documents présentés durant le cours


Accéder aux génome(s) humain(s) entiers

L'ensemble de l'ADN d'une cellule est appelé génome. Une vidéo (en anglais: 'What is genomics?') pour mieux comprendre la notion de 'génome'.

En 2001, les revues Nature et Science publiaient respectivement une première analyse de la séquence 'complète' de 2 génomes humains (23 chromosomes; longueur totale: ~3'000'000'000 bp).

Où trouver les séquences?

Les séquences de ces 2 génomes ont été soumises aux banques de données publiques ( EMBL/GenBank/DDBJ : http://www.insdc.org/ ).

- Le génome humain de référence Ce génome est 'haploide': une séquence est disponible (mélange des chromosomes paternels et maternels de ~10 individus anonymes); un seul brin (forward strand);

* Séquence du chromosome X humain @ GenBank

* Séquence du génome de la mitochondrie (Homo sapiens; reference) @ GenBank

* Séquence (partielle) du chromosome 1 humain @ GenBank

- Le génome 'Celera' : 6 individus dont Craig Venter "DNA Donor Name: J. Craig Venter | Date of Birth: October 14, 1946 | Sex: Male | Ethnicity: Caucasian | Descent: European - England" Ce génome est 'diploide': la séquence des allèles respectivement paternel et maternel est connue; une seule séquence est disponible: les différences sont répertoriées.

* Séquence du chromosome X humain (Celera) @ GenBank

Info: ~3,213,401 polymorphismes (différences avec le génome complet de référence) ont été identifiés ( Levy et al., 2007 )

Ce site propose une bonne vue d'ensemble des séquences de génomes humains disponibles: Genomes @ NCBI (section genome)

Autres génomes humains

- Nouveaux projets:

séquencer différentes cellules d'un même individu (lymphocyte B, T, cellules sexuelles, melanocytes...). But: avoir une liste des mutations héritées et des mutations somatiques


Compléments sur la notion de polymorphisme

NB: Toutes les différences entre les séquences des génomes disponibles sont rapportées à la séquence du génome humain de référence.

Au niveau moléculaire, ces différences s’appellent des SNPs ( SNP: single nucleotide polymorphism ). Le terme « polymorphisme » désigne en général un locus avec plusieurs allèles ; dans ce cas, il désigne un site de l’ADN avec plusieurs nucléotides (ou site variable).

Il existe environ 10 millions de SNPs chez les humains; un nucléotide sur 1 200, en moyenne, varie d’une personne à l’autre (source: hapmap ). On parle plus spécifiquement de polymorphisme lorsqu’un SNP est présent dans au moins 1% de la population.

On appelle mutation le processus moléculaire produisant un changement ponctuel de nucléotide au niveau de la séquence d’ADN. Les mutations génèrent donc des SNPs.

Les mutations peuvent se produire dans des régions codantes (transcrites en ARN messager, et généralement traduites en protéines) ou non codantes . Elles peuvent donc induire, ou non, un changement au niveau de la séquence en acides aminés d’une protéine.

Les polymorphismes peuvent donc se situer dans des régions de l’ADN fonctionnellement importantes car elles codent pour des protéines essentielles à la survie ou au bon fonctionnement de l’organisme. Certains polymorphismes sont alors létaux ou associés à des maladies .

Mais la grande majorité des polymorphismes sont neutres : ils n’affectent pas l’individu. Une immense quantité de variation génétique neutre de notre ADN existe donc dans toutes les populations.

Les polymorphismes ou variants peuvent être dans des régions codantes ou non codantes (pour des protéines). Les polymorphismes peuvent être neutres ou induire un changement au niveau de la séquence en acides aminés par exemple.

On parle parfois de mutation , lorsque le polymorphisme est associé avec une maladie. Une mutation est en fait le processus qui génère les variants.

Nous ne parlerons pas dans ce TP des différences impliquant des délétions, insertions, duplications etc. qui sont notamment répertoriées dans dbVar


Des projets qui étudient les polymorphismes humains: 1000genomes, HapMap, ENCODE etc.

Plusieurs études sont en cours qui ont pour but d'étudier les polymorphismes des différentes populations humaines (1. faire la liste; 2 voir si ils sont associés à un phénotpye particulier).

Projet 1000genomes: http://www.1000genomes.org/

'A Deep Catalog of Human Genetic Variation'

'The goal of the 1000 Genomes Project is to find most genetic variants that have frequencies of at least 1% in the populations studied. This goal can be attained by sequencing many individuals lightly. To sequence a person's genome, many copies of the DNA are broken into short pieces and each piece is sequenced. The many copies of DNA mean that the DNA pieces are more-or-less randomly distributed across the genome. The pieces are then aligned to the reference sequence and joined together. To find the complete genomic sequence of one person with current sequencing platforms requires sequencing that person's DNA the equivalent of about 28 times (called 28X). If the amount of sequence done is only an average of once across the genome (1X), then much of the sequence will be missed, because some genomic locations will be covered by several pieces while others will have none. The deeper the sequencing coverage, the more of the genome will be covered at least once. Also, people are diploid; the deeper the sequencing coverage, the more likely that both chromosomes at a location will be included. In addition, deeper coverage is particularly useful for detecting structural variants, and allows sequencing errors to be corrected.'

3 études pilotes sont en cours:

Vous aurez accès aux données des 2 trios CEU et YRI.

Projet HapMap: www.hapmap.org/

'Le projet international HapMap est une initiative visant à relever et à cataloguer les similitudes et les différences génétiques entre les humains.... pour permettre aux chercheurs de découvrir les gènes qui jouent un rôle dans la santé, la maladie et la réponse des individus aux médicaments et aux facteurs environnementaux.' plus d'infos...

Projet ENCODE

ENCyclopedia Of DNA Elements: identifier les éléments fonctionels du génome humain. Une première étape à consister à reanalyser une partie du génome humain (1%) (séquence, expression des gènes, etc.).


Les banques de données de polymorphismes: dbSNP, OMIM, Alfred

Comme toutes les données dans le domaine des sciences de la vie, les informations liées aux polymorphismes sont stockées dans des banques de données spécialisées, dont la plupart sont libres d'accès sur internet.

dbSNP : http://www.ncbi.nlm.nih.gov/projects/SNP/

La banque de données dpSNP répertorie les polymorphismes humains. Les polymorphismes liés aux maladies sont rares dans les populations humaines (ouf !)....On ne trouve donc pas facilement des infos sur leur fréquence. dbSNP contient donc surtout des polymorphismes 'neutres', mais très peu de 'mutations'.
Chaque entrée (polymorphisme) de dbSNP a un numéro d'accession du type 'rs12913832'.

Exemple: rs12913832 un allèle HERC2 fortement impliqué dans la coloration bleue des yeux: Allèle ancestral: a Mutation a -> g Génotype possible: aa, ag, gg L'allèle g est plus fréquent dans les populations avec des yeux bleus (nord de l'Europe par exemple)

Ce polymorphisme se trouve proche du gène HERC2, l’un des "gènes" impliqués dans la pigmentation des yeux.

Attention au sens dans lequel le gène est lu par rapport à la séquence du génome de référence (un polymorphiosme T->G sur le brin forward peut être vu comme A-> C sur le brin reverse )!!!

OMIM : http://www.omim.org/

OMIM répertorie tous les gènes et maladies humaines, inclues les mutations.

Exemple: HERC2 , le 'gène' des yeux bleus.

Alfred : http://alfred.med.yale.edu/

On accède à cette banque de données depuis dbSNP (le lien est tout en bas de la page, mais il n'existe pas pour tous les polymorphismes). Chercher le mot 'Alfred' dans la page grâce à 'Ctrl/Cmd F'

Exemple: rs12913832 , l'allèle des yeux bleus.

On accède aussi directement depuis la banque de données Alfred (copier coller le no dbSNP, par exemple rs12913832)

Exemple: Alfred -> ce SNP rs12913832 Puis cliquer sur google map...


1) Visualiser des polymorphismes
Se ballader dans les génomes: utilisation des 'Genome Browsers'

Les 'genome browser' permettent de se balader dans les génomes et d'accéder à une montagne d'information, inclues les variations génétiques (un peu comme Google map).

Rappel: Toutes les différences entre les séquences des génomes disponibles sont rapportées à une séquence de référence du génome humain .

Il existe plusieurs 'Genome browser'

1A) Visualiser les polymorphismes du gène HERC2

Nous vous proposons de découvrir celui de UCSC

Copier coller le nom du gène HERC2 dans le champ 'gene' puis cliquer le bouton submit

Réglages :

Il y a beaucoup d'information disponible: c'est utile de choisir celles qui nous intéressent, comme par exemple:

Cliquer sur refresh (une fois sélectionnées, les sections restent visibles par défaut)

Vous voyez apparaître tous les polymorphismes connus pour ce gène (et présents dans plus de 1% de la population), inclus ceux de Craig Venter, James Watson et des 1000 génomes projects

On peut mettre en évidence que les polymorphismes sont répartis entre les régions codantes (exons) et non-codantes (introns)

Sur la ligne du haut on voit les positions sur le Chr 15. Sur la deuxième ligne, la structure du gène :les barres épaisses sont les exons ( ici très éparpillés) et les < ou > déterminent le sens de lecture. La troisième ligne indique la répartition des SNP.

1B) Visualiser un polymorphisme : exemple le polymorphisme 'yeux bleus' (près de HERC2)

Un SNP fortement impliqué dans la coloration bleue des yeux est situé à la position 15: 28365618 (sur le génome de référence)

introduire ce chiffre dans le champ 'position' en haut de la page : chr15:28365618

Remarque: vous pouvez aussi chercher directement avec le no 'rs12913832'; l'output ne sera toutefois pas tout-à-fait pareil.

Contexte biologique :

Vous voyez apparaître tous les polymorphismes connus pour ce gène (et présents dans plus de 1% de la population), inclus, par exemple, ceux de Craig Venter et des 1000 génomes projects.

Faire un zoom out 10x pour voir apparaître la séquence de l'ADN dans son voisinage. (Ou indiquer chr15:28,365,615-28,365,620)


1C) Visualiser la répartition géographique des allèles pour ce SNP rs12913832 "yeux bleus"

Dans la base de données ALFRED coller le numéro de SNP rs12913832

Solution ici, mais il faudra cliquer sur Google maps

Notez bien que l'allèle avec un G est associé au phénotype Bleu ... mais c'est l'allèle A qui est représenté sur la carte en bleu !
Très malencontreux.


1D) Sélection de gènes et polymorphismes pertinents à l'enseignement :

Sélection de gènes et polymorphismes pertinents pour l'enseignement :

Alicia Sanchez-Mazas rappelle que :
"A l'examen de ce tablaau on pourrait avoir l’impression que tout est qualitatif, déterminé par des mutations ponctuelles.
Or la plupart des caractères phénotypiques sont quantitatifs, déterminés par de nombreux gènes qui interviennent dans des régulations d’expression. On a aussi l’impression que tout est déterministe. Or l’environnement agit aussi de manière complexe dans l’expression. L’une des grandes voies de recherche actuelles est précisément d’identifier toutes ces régulations au niveau cellulaire. Cela nous éloigne beaucoup de la simple génétique de Mendel !"

)

Gene db SNP AC polymorphism (DNA) polymorphism (protein) N° chromosome et position * Fonction UniProtKB AC Alfred
HERC2 rs12913832 a->g non codant 15: 28365618 yeux bruns- > bleus (PubMed) O95714 Alfred (allèle yeux bleux plus fréquent au nord de l'Europe)
PAH pas de polymorphism neutre; pas de lien vers dbSNP plusieurs sites Plusieurs sites: annotations des variants dans UniProtKB/Swiss-Prot chr12:103232104-103311381 Phenylketonuria (PKU) OMIM P00439 pas disponible
MRP8 rs17822931 c->t sur le brin reverse

g->a sur fwd

G->R 16: 48258198 cire d'oreille humide -> sèche Q96J66 Alfred (allèle cire humide plus fréquent en Asie)
CYP2C9 rs28371686 c->g D->E 10: 96741058 'metaboliseur' lent -> rapide P11712 Alfred
CYP2C9 rs1799853
rs1057910
rs9923231
10 'metaboliseur' lent -> rapide (testé pour l'anti-coagulant warfarin) P11712 Alfred (rs1799853)
HBB rs334 a->c
a->t
E->A
E->V
11: 5248232 sickle cell anemia (anémie falciforme) P68871 non disponible (maladie); plus fréquent en Afrique et en Arabie Saoudite
CFTR rs35516286 t->c I->T 7: 117171122 Mucoviscidose P13569 non disponible (maladie)
KL (Klotho) (1) rs9536314 t->g F->V 13: 33628138 Homozygosity for KL-VS allele is associated with decreased longevity and increased cardiovascular disease risk. Q9UEF7 Alfred (?)
KL (Klotho) (2) rs9527025 t->g C->S 13: 33628193 Homozygosity for KL-VS allele is associated with decreased longevity and increased cardiovascular disease risk. Q9UEF7 non disponible
p53 rs1042522 g->c P->R 17: 7579472 frequent polymorphism in colonic cancer patients P04637 non disponible (maladie)
SLC24A5 rs1426654 a->g T->A 15: 48426484 coloration de la peau (variation continue*2) Q71RS6 non disponible
DARC rs12075 a -> g non codant (mutation in the promoter) 1: 159175354 malaria resistance (g) Q16570 non disponible
APOE rs429358
ApoE4 allele = rs429358(C) + rs7412(C) can raise the risk of Alzheimer's disease by more than 10x
(t -> c) + (t -> c) ApoE*4: 112: C -> R + 172: R -> C 19: 45411941 + 19: 45412079 Transport des lipides; E*4 -> Alzheimer précoce (MIM
'Craig Venter' est respectivement C/T et C/C ...
UniProtKB P02649 Alfred
ALDH2 rs671 g -> a ALDH 2*2: E -> K 12: 112241766 Sensibilité à l'alcool: Allele ALDH2*2 (a) is associated with a very high incidence of acute alcohol intoxication in Orientals and South American Indians, as compared to Caucasians.
Seong-Jin Kim est hétérozygote G/A: il ne doit pas trop bien supporter l'alcool....
UniProtKB P05091 Alfred
MCM6 rs4988235 c -> t (gène lu 'à l'envers') non codant; influence l'expression de la lactase (LCT) 2: 136608646 Intolérance au lactose (c/c) ; C. Venter n'est pas intolérant au lactose, par contre J. Watson l'est à moitié... UniProtKB P09848 Alfred

* Les positions en bases sur les chromosomes peuvent changer avec les nouvelles versions du génome (Releases ou Genome Build) de référence. L'entrée dbSNP permet de retrouver l'info actualisée. En janvier 2012 c'est 37.3 qui est actuel.

*2 Alicia Sanchez Mazas précise : On n’est pas noir ou blanc, on est plus ou moins foncé. Il s’agit d’un caractère quantitatif, à variation continue. La mutation dans SLC24A5 est l’une des mutations qui interviennent dans la régulation de la production de mélanine et la variation, quantitative, de ce caractère.

SNP populaires selon SNPedia

Ce document fait partie des formations continues BIST.


1E) Exemple d'exercice de type "enquête".

Exemple d'exercice de type "enquête" : des séquences ADN sont proposées et il faut retrouver les patients dont les phénotypes sont donnés. ici.pdf

1.F) Pour ceux qui en veulent encore...

Un site sur DNA ancestry (Généalogie génétique)

Une publication Mitochondrial DNA analysis of the putative heart of Louis XVII, son of Louis XVI and Marie-Antoinette. Vous pouvez aller voir les positions testées pour prouver la filiation sur la séquence de la mitochondrie (appelée chrM) à UCSC GeneTests


Activité 2 :
Diversité génétique et formes de sélection

2A) O bserver la différence de diversité génétique entre des régions du génome soumises à différentes formes de sélection

Comparer (en terme de nombre de polymorphismes connus) une région génomique de même longueur 200-300 pb avec des indices de diversités moléculaires très différents. Le nombre de polymorphismes SNP est visible grâce au genome browser UCSC ce qui permet d'estimer visuellement la diversité.

1- Région codante avec une diversité moléculaire ( sélection stabilisante , balancée); beaucoup de polymorphismes: maintient la diversité
Exemple: HLA-A (exons 2 et 3) impliqués dans la réponse immune:

exon 2: coller dans UCSC chr6:29,910,998-29,911,443 ;
exon 3: coller dans UCSC chr6:29,911,045-29,911,118

2- Région codante sous sélection adaptative (en fonction du milieu: une mutation peut être délétère). Ces gènes contiennent peu de polymorphisme:

Exemple: histone H4: coller dans UCSC chr1:149,804,221-149,804,615

3- Région non codante: accumulation de mutations au hasard (souvent utilisé pour reconstruire l'histoire d'une population)

Exemple: la région HVS1 (Hypervariable segment 1) de l'ADN de mitochondrie:coller dans UCSC chrM:16,024-16,365

NB: tous les polymorphismes connus ne sont pas répertoriés dans dbSNP (voir question suivante)

Voir aussi la diversité génétique des élèves genevois sur cette séquence HVS1 justement : Séquençage d’élèves dans Expériment@l !


2B) Mesurer la diversité exceptionnelle d'une région du HLA

Contexte biologique sur les HLA et la diversité génétique:

Banque de données spécialisées (IMGT/HLA Database) pour les séquences HLA humaines Elle répertorie tous les allèles connus (combinaison de polymorphismes) chez l'homme (mais pas leur fréquence...)

Select the feature to align : - HLA-A exon 2: région de l'exon 2 particulièrement polymorphique (impliquée dans la réponse immune)

On peut retrouver cette région @ UCSC aux positions: chr6:29,910,534-29,910,607

On observe qu'il y a un très grand nombre de polymorphismes connus

- HLA-A exon 3: région de l'exon 3 particulièrement polymorphique (impliquée dans la réponse immune)

On peut retrouver cette région @ UCSC aux positions: chr6:29,911,045-29,911,118

- HLA-DRA: région peu polymorphique :

On peut retrouver cette région @ UCSC aux positions: chr6:32,410,225-32,410,470

On observe qu'il y a très peu de polymorphismes connus

2C) Dérive génétique et taille d'une population.

  • Simulations de la dérive génétique en fonction de la taille d'une population ;

    En partant d'une fréquence de 0.5, on peut simuler plusieurs fois l'évolution de la fréquence en fonction des générations et observer la dérive génétique.

    On peut varier la taille de la population pour voir que la dérive est plus marquée avec une petite population.


  • Cette simulation est bien décrite dans Wikipedia sous Dérive génétique et érosion de la biodiversité

    2D) Visualiser la fréquence de chaque allèle HLA dans le monde,

    les cartes sont ici : HLA allele frequency maps: A , C , B , DRB1 , DQA1 and DQB1 , DPA1 and DPB1 .

    Certains de ces allèles sont associés à des maladies,

    2E) Explorer les fréquences d'allèles dans des populations. (Suggestion)

    Pour explorer au niveau des populations, GenAlex est ce qu'il y a de plus user-friendly . Avec cette macro pour Excel, on peut faire plusieurs exercices qui travaillent soit sur des fréquences d'allèles, soit sur des séquences, des choses très simples, mais assez parlantes.

    Alicia Sanchez-Mazas propose un exercice simple d’analyse de données génétiques :

    2G) Quiz développé par l'unité d'anthropologie de l'UniGe


    Autres liens utiles

    counter

    Retour à BIST | Swiss-Prot | M.C. Blatter | Projets Home de F. Lo