Test d'hypothèses

·  Echantillonnage
·  Distributions théoriques
·  Notions préliminaires
·  Test sur la moyenne
·  Test de différence de moyennes
·  Test sur la variance
·  Test sur le rapport de variances
 

Echantillonnage

 

 



  

· Echantillon

Echantillon: "Image" suffisamment précise d'une population (-mère)

    • Le but: obtenir une conclusion sur une caractéristique ou resumé (paramètre) de la population à partir de l'information de l'échantillon (inférence).
       
    • Quelques inférences possibles:
Résumé Echantillon Þ Population mère
Moyenne _
X
  m
Total ^
Y
  Y
Proportion  
p
  P
Variance  
s2
  s2
Corrélation  
r
  r
Coefficient de régression ^
b
  b

ñ Table des matières

· Types d'échantillon

L'inférence statistique est basée sur un échantillonnage aléatoire. Il y a plusieurs types d'échantillon.

    • Echantillon aléatoire (random sample): Chaque individu de la population-mère a la même probabilité de figurer dans l'échantillon. C'est le modèle/idéal de l'échantillon.
       
    • Echantillon aléatoire stratifié (stratified random sample): Dans ce type d'échantillon, chaque élément peut seulement appartenir à un stratus. Dans chacun des stratus, chaque individu a la même probabilité de figurer dans l'échantillon. Par exemple quand on est intéressé à étudier les opinions des citoyens de Genève, Fribourg, et Zurich on doit s'assurer qu'il y a des citoyens de chaque canton dans l'échantillon.
       
    • Echantillon par conglomérats (comglomerate sampling): Quelque fois, l'objective de l'analyse est par exemple la famille. L'unité de l'échantillon aura alors plusieurs individus. Pour chaque caractéristique analysée on aura plusieurs observations, tandis qu'avec un échantillon aléatoire ou stratifié on aura seulement une observation.

ñ Table des matières

· Taille de l'échantillon

La taille de l'échantillon dépend de:
     la précision des résultats qu'on veut obtenir, et
     des contraintes en termes de temps et des coûts

et la précision des résultats est fonction de:

    • la marge d'erreur (sampling error): d
      C'est l'erreur d'estimation qu'on est disposé à accepter ou contrôler. C'est un pourcentage de la valeur du paramètre étudié que nous fixons comme une erreur d'estimation raisonnable. Par exemple:
      • la moyenne d'âges de la population: si d=5, nous acceptons une marge d'erreur de (+ ou -) 5 ans.
      • le pourcentage de citoyens favorables à l'adhésion à la Communauté: si d=5, nous acceptons une marge d'erreur de (+ ou -) 5 pourcent.
      • le total de travailleurs au chômage, etc.: si d=5 nous acceptons une marge d'erreur de (+ ou -) 5 travailleurs (exprimé en termes de l'unité de mesure utilisée, par exemple, milliers).
      La notion de marge d'erreur n'est pas suffisante pour parler de précision parce que nous ne pouvons pas assurer que tous les échantillons de la population auront la même erreur. Les échantillons d'une même population peuvent avoir différentes erreurs de précision.
       
    • le seuil de signification:
      Pour contrôler la précision nous devons aussi contrôler le seuil de signification, c'est-à-dire fixer la probabilité que la marge d'erreur soit supérieure à d. Un seuil de signification égal à 5% signifie que de 100 échantillons, 5 des échantillons auront une marge d'erreur supérieure à d.

ñ Table des matières

· Problèmes (Biais)

    • Échantillons
      • Imperfections (modèle: aléatoire)
    • Exemples
      • Non-réponses
      • Influence de l'enquêteur
      • Sélection non aléatoire
      • etc.
    • Types de biais
      • Biais sytématiques
        • Correction possible si l'on les connaît (p.ex. pondération)
      • Biais non-sytématique

ñ Table des matières

· Illustration

Vous êtes chargé d'une enquête d'opinion pour estimer la proportion de citoyens qui sont favorables à l'adhésion à la communauté. La population de citoyens est de 100 mil habitants. Quelle serait la taille de l'échantillon pertinente pour l'étude?

    • D'abord vous devez sélectionner le type d'échantillon. Dans ce cas nous choisissons un échantillon aléatoire, où chaque citoyen à la même possibilité d'être sélectionné. Si l'objective aurait été d'estimer la proportion de citoyens favorables par quartier, ou classe sociale ou intervalle d'âge, on aurait préféré un autre type d'échantillon.
       
    • Ensuite, nous faisons deux choix:
      • Nous fixons une marge d'erreur raisonnable. Dans ce cas nous fixons d=5%.
      • Nous fixons un seuil de signification égal à 5%.
         
    • Finalement nous appliquons la formule statistique de la taille de l'échantillon pour les proportions. La taille de l'échantillon est de 400 citoyens.
       
    • Nous observons que ce n'est pas nécessaire d'avoir une taille de l'échantillon élevée pour obtenir une précision raisonnable. On peut vérifier facilement que pour un seuil de signification donné une diminution de la marge d'erreur impliquera une augmentation de la taille de l'échantillon (voir tableau).
       

ñ Table des matières