Statistique
Statistique
Sous-classe de | |
---|---|
Partie de | |
Pratiqué par | |
Champ | |
Objets | |
Histoire |
La statistique est la discipline qui étudie des phénomènes à travers la collecte de données, leur traitement, leur analyse, l’interprétation des résultats et leur présentation afin de rendre ces données compréhensibles par tous. C’est à la fois une branche des mathématiques appliquées1, une méthode et un ensemble de techniques.
Remarquons que la statistique est parfois notée2 « la Statistique » (avec une majuscule), ce qui permet de différencier ses applications mathématiques avec une statistique (avec une minuscule). Le pluriel est également souvent utilisé3 pour la désigner : « les statistiques », cela permet de montrer la diversité de cette science[réf. nécessaire].
La statistique est un domaine des mathématiques et de plus en plus, elle fait partie de ce que l’on appelle aujourd’hui la science des données (en anglais : Data Science). L’analyse applique des lois mathématiques plus générales (ensembles, groupes, inclusion, exclusion). Elle possède une composante théorique ainsi qu’une composante appliquée. La composante théorique s’appuie sur la théorie des probabilités et forme avec cette dernière, l’analyse de phénomènes aléatoires. La statistique appliquée est utilisée dans presque tous les domaines de l’activité humaine4 : ingénierie, management, économie, biologie, informatique, la physique (fondamentaux de la physique quantique, par exemple). La statistique utilise des règles et des méthodes sur la collecte des données, pour que celles-ci puissent être correctement interprétées, souvent comme composante d’une aide à la décision. Le statisticien a pour profession la mise au point d’outils statistiques, dans le secteur privé ou le secteur public, et leur exploitation généralement dans un domaine d’expertise.
Histoire
Bien que le nom de statistique soit relativement récent – on attribue en général l’origine du nom au xviiie siècle, de l’allemand Staatskunde – cette activité semble exister dès la naissance des premières structures sociales. D’ailleurs, les premiers textes écrits retrouvés sont des recensements du bétail, des informations sur son cours et des contrats divers. On a ainsi tracé des recensements en Chine ou en Égypte, au xviiie siècle av. J.-C. Ce système de recueil de données se poursuit jusqu’au xviie siècle. En Europe, le rôle de collecteur de données est souvent tenu par des guildesmarchandes, puis par les intendants de l’État.
Ce n’est qu’au xviiie siècle que l’on voit apparaître le rôle prévisionnel des statistiques, avec la construction des premières tables de mortalité. Antoine Deparcieux écrit en 1746 l’Essai sur les probabilités de la durée de vie humaine. Elles vont d’abord servir aux compagnies d’assurances sur la vie, qui se créent alors5.
La statistique est aussi un appui pour l’histoire prospective ou rétrospective, de la démographie notamment. Ainsi en 1842, le Baron de Reiffenberg présentait-il6 à l’Académie ses calculs rétrospectifs de population chez des peuples gaulois, d’après des données chiffrées laissées par Jules Césardans ses Commentaires sur la Guerre des Gaules (De bello Gallico, v.).
Les statistiques mathématiques s’appuyaient sur les premiers travaux concernant les probabilités, développés par Fermat et Pascal. C’est probablement chez Thomas Bayes que l’on vit apparaître un embryon de statistique inférentielle. Condorcet et Laplace parlaient encore de probabilité, là où l’on parlerait aujourd’hui de fréquence. Mais c’est à Adolphe Quetelet que l’on doit l’idée que la statistique est une science s’appuyant sur les probabilités.
Le xixe siècle voit cette activité prendre son plein essor. Des règles précises sur la collecte et l’interprétation des données sont édictées. La première application industrielle des statistiques eut lieu lors du recensement américain de 1890, qui mit en œuvre la carte perforée inventée par le statisticien Herman Hollerith. Celui-ci avait déposé un brevet au bureau américain des brevets.
Au xxe siècle, ces applications industrielles se développèrent, d’abord aux États-Unis, qui étaient en avance sur les sciences de gestion, puis seulement après la Première Guerre mondiale en Europe. Le régime nazi employa des méthodes statistiques à partir de 1934 pour le réarmement. En France, on était moins au fait de ces applications.
L’application industrielle des statistiques en France se développe avec la création de l’Insee, qui remplaça le Service National des Statistiques créé par René Carmille.
L’avènement de l’informatique, dans les années 1940 (aux États-Unis), puis en Europe (dans les années 1960), permit de traiter un plus grand nombre de données, mais surtout de croiser entre elles des séries de données de types différents. C’est le développement de ce qu’on appelle l’analyse multidimensionnelle. Au cours du siècle, plusieurs courants de pensée vont s’affronter :
- les objectivistes ou fréquentistes, qui pensent que les probabilités fournissent un modèle permettant d’idéaliser la distribution en fréquence, et que là s’arrête leur rôle ;
- les subjectivistes, qui voient les probabilités comme un moyen de mesurer la confiance que l’on peut avoir dans une prévision ;
- les néo-bayesiens, qui soutiennent que les données statistiques seules ne permettent pas de donner le modèle probabiliste idéalisant la distribution en fréquence: il est nécessaire de proposer au départ une forme générale du modèle.
Définition
Commençons par préciser que donner une définition de la statistique n’est pas chose facile : comme expliqué dans la section précédente, les définitions de la statistique évoluent en fonction de l’époque ou de son utilisation. En 1935, le statisticien Walter F. Willcox dénombrait entre 100 et 120 définitions différentes7.
« Parmi les thèmes à propos desquels les statisticiens ne sont pas d’accord, se trouve la définition de leur science8. »
Donnons en premier lieu, la définition la plus classique actuellement utilisée, au moins depuis 1982 : « La statistique est l’ensemble des méthodes qui ont pour objet la collecte, le traitement et l’interprétation de données d’observation relatives à un groupe d’individus ou d’unités. » Par cette définition, la statistique apparaît comme une science autonome, orientée vers les données, comme la physique l’est vers la matière et la biologie vers la vie. Mais comme elle s’appuie sur la théorie des probabilités, étant elle-même une science de l’aléatoire, (voir Interconnexions entre la théorie des probabilités et la statistique pour plus de détails), elle apparaît souvent, en particulier d’un point de vue universitaire, comme une branche des mathématiques appliquées. Aujourd’hui, elle s’inscrit dans un champ disciplinaire plus transverse que les anglo-saxons nomment « Data Science » et dans lequel par ailleurs, l’informatique a elle aussi une place importante. Les différents aspects de la statistique sont regroupés en différents domaines ou concepts : la statistique descriptive, plus couramment appelée aujourd’hui statistique exploratoire, l’inférence statistique, la statistique mathématique, l’analyse des données, l’apprentissage statistique, etc.
John Tukey prétend qu’il y a deux approches en statistiques, entre lesquelles on jongle constamment : les statistiques exploratoires et les statistiques confirmatoires (exploratory and confirmatory statistics) :
- on explore d’abord les données pour avoir une idée experte du fonctionnement du système qu’elles représentent, ce qui permet de formuler des hypothèses cognitives sur les phénomènes mis en jeu, de leurs propriétés ;
- puis à partir de ces hypothèses de comportement, on élabore des expériences permettant de les confirmer ou de les infirmer en recourant à d’autres techniques statistiques.
Domaines d’application
En 1982, le statisticien Pierre Dagnelie propose trois grandes tendances de la statistique7 :
- la statistique qualifiée d’« administrative » ou « gouvernementale » faite dans les instituts de statistique à propos de grands ensembles de données, ;
- la statistique dite « mathématique » ou « universitaire » faite avec peu de données et qui a pour but la novation ;
- enfin la statistique « appliquée » ou « de terrain » faite dans les instituts de sondage d’opinion ou les facultés de médecine pour des problèmes concrets.
Dans la pratique, les méthodes et outils statistiques sont utilisés dans des domaines tels que :
- géophysique, pour les prévisions météorologiques, la climatologie, la pollution, les études des rivières et des océans ;
- démographie : le recensement permet de faire une photographie à un instant donné d’une population et permettra par la suite des sondages dans des échantillons représentatifs ;
- sciences économiques et sociales, et en économétrie : l’étude du comportement d’un groupe de population ou d’un secteur économique s’appuie sur des statistiques. C’est dans cette direction que travaille l’Insee. Les questions environnementales s’appuient également sur des donnéesstatistiques ;
- sociologie : les sources statistiques constituent des matériaux d’enquête, et les méthodes statistiques sont utilisées comme techniques de traitement des données ;
- marketing : le sondage d’opinion devient un outil pour la décision ou l’investissement ;
- dans les jeux de hasard et les paris tels que le loto ou les paris équestres, pour « prévoir » les résultats ;
- physique : l’étude de la mécanique statistique et de la thermodynamique statistique (cf Physique statistique) permet de déduire du comportement de particules individuelles un comportement global (passage du microscopique au macroscopique) ;
- métrologie, pour tout ce qui concerne les systèmes de mesure et les mesures elles-mêmes ;
- production industrielle, avec des outils comme la Maîtrise Statistique des Procédés ;
- médecine et en psychologie, tant pour le comportement des maladies que leur fréquence ou la validité d’un traitement ou d’un dépistage ;
- archéologie, appliquée aux vestiges (céramologie, archéozoologie…) ;
- écologie, pour l’étude des communautés végétales et des écosystèmes ;
- assurance et en finance (calcul des risques, actuariat, etc.) ;
- informatique, surtout en algorithmique (anti-crénelage, interpolation numérique) ;
- génomique : le problème de détection de ruptures sert à étudier différents types de cancers.