L’objectif de cet cours est de rendre accessible au plus grand nombre une des méthodes les plus utilisées de la statistique : la régression. Nous souhaitons aborder de manière simultanée les fondements théoriques et les questions inévitables que l’on se pose lorsque l’on modélise des phénomènes réels. En effet, comme pour toute méthode statistique, il est nécessaire de comprendre précisément la méthode et de savoir la mettre en œuvre
Population
La population désigne un ensemble d’unités statistiques. Les unités statistiques, auss appelées individus, sont les entités abstraites qui représentent des personnes, des animaux ou des objets. La statistique sert à décrire l’ensemble des unités statistiques qui composent la population
Modélisation statistique
Dans l’exemple de l’ozone, nous supposons donc un modèle où la concentration d’ozone dépend linéairement de la température. Nous savons pertinemment que toutes les observations mesurées ne sont pas sur la droite. D’une part, il est irréaliste de croire que la concentration de l’ozone dépend linéairement de la température et de la température seulement. D’autre part, les mesures effectuées dépendent de la précision de l’appareil de mesure, de l’opérateur et il arrive souvent que, pour des valeurs identiques de la variable X, nous observions des valeurs différentes pour Y
Représentation des individus
Pour chaque individu, ou observation, nous mesurons une valeur x et une valeur y. Une observation peut donc être représentée dans le plan, nous dirons alors que 2 est l’espace des observations. β correspond à l’ordonnée à l’origine alors que β représente la pente de la droite ajustée. Cette droite minimise la somme des carrés des distances verticales des points du nuage à la droite ajusté
Inférence statistique
Jusqu’à présent, nous avons pu, en choisissant une fonction de coût quadratique, ajuster un modèle de régression, à savoir calculer β et β. Grâce aux coefficients estimés, nous pouvons donc prédire, pour chaque nouvelle valeur x une valeur de la variable à expliquer y qui est tout simplement le point sur la droite ajustée correspondant à l’abscisse x. En ajoutant l’hypothèse H, nous avons pu calculer l’espérance et la variance des estimateurs. Ces propriétés permettent d’appréhender de manière grossière la qualité des estimateurs
Lois des estimateurs
Ces dernières propriétés nous permettent de donner des intervalles de confiance (IC) ou des régions de confiance (RC) des paramètres inconnus. En effet, la valeur ponctuelle d’un estimateur est en général insuffisante et il est nécessaire de lui adjoindre un intervalle de confiance. Nous parlerons d’intervalle de confiance quand un paramètre est univarié et de région de confiance quand le paramètre est multivarié.