Coordination Philippe Deubel et Baptiste Marsollat
L’ouvrage
La statistique tout entière peut se résumer dans la formule d’Emile Durkheim dans Les règles de la méthode sociologique (1895) : « Il faut traiter les faits sociaux comme des choses ». Cette formule peut être comprise de deux façons : soit comme une affirmation de réalité, soit comme un parti pris méthodologique. Si l’interprétation réaliste ne trouve guère de fondement épistémologique (il est évident que les faits sociaux ne sont pas des choses au sens usuel de ce terme), la lecture méthodologique invite à adopter une approche instrumentaliste et à comprendre la formule durkheimienne de la manière suivante : « il faut traiter les faits sociaux comme s’ils étaient des choses ». L’essentiel devient alors d’analyser la manière dont on appréhende les « choses » (et les conventions qui nous conduisent à les appréhender ainsi) afin de parvenir véritablement à faire « comme si ».
Il n’est cependant pas évident d’abandonner l’approche réaliste parce que le langage statistique s’appuie aujourd’hui sur des concepts bien formalisés (moyenne, écart-type, probabilité, classe d’équivalence, corrélation, régression, échantillon, revenu national, estimation, test, résidu, maximum de vraisemblance, équations simultanées…) qui sont exposés dans des formules concises et qui font l’objet d’un consensus. Or, ces outils, contrairement aux apparences, sont le produit d’une longue gestation historique traversée d’hésitations, de retraductions et de conflits d’interprétation. L’étude de leur histoire permet de faire comprendre comment les objets statistiques sont devenus des « choses » et comment on peut dire qu’ils sont à la fois réels et construits. Cette perspective ne relève pas de la curiosité érudite mais a pour but d’aider à la compréhension et à l’apprentissage des statistiques, puisque la mise en évidence des obstacles rencontrés par les innovateurs d’antan fournit indiscutablement un supplément d’âme à l’étudiant désireux d’acquérir des techniques formalisées. Tel est l’objectif majeur de ce livre.
La double origine de la statistique
La statistique moderne est la combinaison de deux outillages distincts, dont les trajectoires historiques n’ont convergé vers une construction robuste qu’au milieu de XXème siècle. Le premier est l’outillage politico-administratif des systèmes d’enregistrement, de codage, de tabulation et de publication de statistiques permettant une description chiffrée des différents aspects du monde social. Le second est l’outillage scientifique reposant sur le calcul des probabilités, destiné à appréhender par des outils mathématiques une diversité du réel supposée non maîtrisable au départ.
La statistique a d’abord pour origine l’ensemble des routines administratives nécessaires pour décrire un Etat et sa population. Même si le besoin de connaître la nation pour mieux l’administrer est fort ancien, c’est à partir du XVIIème siècle que se constituent des savoirs qui prennent des formes différentes selon les Etats et le rapport qu’ils entretiennent avec la société. A cet égard, on oppose souvent la statistique descriptive allemande et l’arithmétique politique anglaise. La statistique allemande, inspirée des travaux de Conring (1606-1681), puis d’Achenwald (1719-1772 – ce dernier étant considéré comme le créateur du mot « statistique ») et de Schlözer (1735-1809) a pour finalité de proposer au Prince un cadre d’organisation des multiples données disponibles sur un Etat. A cette fin, on utilise une nomenclature dont la logique, d’inspiration aristotélicienne, distingue la cause matérielle (le territoire et sa population), la cause formelle (le droit, la constitution, les lois, la coutume), la cause finale (le but de l’activité de l’Etat qui est généralement dans les sociétés modernes de rechercher la croissance) et la cause efficiente (qui recense les moyens dont dispose l’Etat).
Cette statistique, organisatrice et taxinomique, débouche sur la construction de tableaux croisés où les différents pays apparaissent en lignes et les éléments de la description en colonnes, ce qui permet d’embrasser dans un seul regard la diversité des organisations étatiques. Elle exprime une conception de l’Etat où celui-ci constitue la totalité de la société.
Au contraire de cette statistique classificatrice, l’arithmétique politique anglaise pense plutôt l’Etat comme une partie de la société, et refuse l’extériorité que supposent la construction et la lecture de tableaux.
L’arithmétique politique prend naissance avec les travaux de Graunt (1620-1674) sur les bulletins de décès, et surtout de Petty (1623-1687) et de Davenant (1656-1714). Elle repose sur des procédures précises d’objectivation : tenue de registres écrits, puis dépouillement et totalisation de ces registres à partir d’une grille fixée à l’avance, ce qui permet finalement leur interprétation. A la différence de la statistique allemande qui n’a fourni que des cadres formels de description de la puissance des Etats, l’arithmétique politique anglaise a donc mis l’accent sur les techniques quantitatives, débouchant sur la construction des tables de mortalité et de l’espérance de vie ainsi que sur l’estimation d’une population à partir d’un échantillon avec calcul d’une erreur à craindre. Quant à la statistique française, si elle n’a pas laissé comme ses homologues anglaise et allemande une tradition intellectuelle inscrite dans des traités, elle a cependant transmis une tradition administrative de mémoire et d’enquête aboutissant à la mise en place d’une institution spécifique de statistique (en 1800) et un bouillonnement érudit et savant de descriptions empiriques et de systèmes pour organiser celles-ci. La particularité française s’explique par le fait que la France dispose depuis le milieu du XVIIème siècle d’un pouvoir royal fort, doté d’une administration centralisée, qui débouche sur la collecte d’informations à des fins pratiques (exemples : les relevés annuels de naissances, mariages et décès de l’abbé Terray en 1772 ou le relevé des condamnations criminelles établi par Montyon entre 1775 et 1786).
La deuxième origine de la statistique réside dans le calcul des probabilités en tant que procédure visant à asseoir la rationalité des choix en situation d’incertitude – calcul qui apparaît entre 1650 et 1660 avec Huyghens et Pascal. Dès le départ, le calcul des probabilités est marqué par une dualité, à la fois prescriptive et descriptive, qui oppose le « motif de croire » et « l’aléa ». On trouve par exemple cette dualité dans le vocabulaire de Condorcet qui distingue le « motif de croire » et la « facilité », ou chez Cournot qui parle de « chance » et de « probabilité ». De nombreuses constructions intellectuelles oscilleront entre la perspective décisionnelle et la perspective descriptive. On citera bien sûr le théorème de Bayes (1765) qui propose de prendre en compte une information incomplète sur des événements antérieurs pour estimer une probabilité des causes permettant d’orienter une décision. On peut également évoquer les diverses formulations de la « loi des grands nombres », qui, à partir de Bernouilli (1713), lient la perspective épistémique (dans laquelle la probabilité est un degré de croyance) et la perspective fréquentiste (où l’aléa est conçu comme inscrit dans la nature elle-même), sous réserve que les événements aléatoires soient indéfiniment reproductibles dans des conditions identiques (tirage à pile ou face, jeu de dés…). Laplace et Gauss en proposeront une formulation achevée en 1810.
Naissance de la statistique moderne : moyenne et corrélation
Contrairement à ce que l’on pense généralement aujourd’hui, la notion de moyenne ne va pas de soi et a suscité des débats historiques importants avant de s’imposer : comment, en effet, obtenir de l’un à partir du multiple? La liberté des individus n’est-elle pas annulée par la fatalité statistique de la moyenne ? C’est Quételet qui a réussi le premier à nouer dans les années 1830-1840 le discours probabiliste et les observations statistiques à travers la notion d’homme moyen. Elle s’appuie d’un côté sur la généralité de la distribution gaussienne des probabilités (la future « loi normale ») et de l’autre côté sur les séries disponibles de statistique morale (mariages, crimes, suicides) élaborées par les bureaux de statistique.
Les « choses » qui naissent du calcul des moyennes sont dotées d’une stabilité qui introduit dans les sciences de l’homme les exigences et les méthodes des sciences de la nature. Quételet crée ainsi pour la première fois une langue nouvelle permettant de faire émerger des objets nouveaux ayant trait à la société et à sa stabilité plutôt qu’à des individus et à la rationalité de leurs décisions. On comprend l’enthousiasme que cette possibilité a suscité chez ceux qui ont mis en place les bureaux de statistique entre 1830 et 1860 et organisé les congrès internationaux destinés à propager ce nouveau langage universel.
Les questions d’hygiène publique, d’épidémiologie, de délinquance, appellent des mesures administratives et politiques qui trouvent désormais une justification dans des estimations quantitatives précises, grâce à l’alchimie qui transforme des actes individuels libres et aléatoires en agrégats déterminés et stables, fournissant ainsi au débat des points de référence et des objets transmissibles extérieurs aux personnes. La manière dont ont été traités les accidents du travail au cours du XIXème siècle en fournit une bonne illustration. Ceux-ci sont en effet passés de la responsabilité individuelle telle qu’elle a été définie par le Code civil à la responsabilité assurantielle de l’entreprise, assise sur des calculs de probabilités et de moyennes. Les nouveaux systèmes d’assurance et de protection sociale sont désormais fondés sur cette transformation de l’aléa individuel en objet stable collectif, susceptible d’être publiquement évalué et débattu. Même si la pensée de Quételet reste assez simple, puisque son « homme moyen » demeure une fiction parée de toutes les vertus, centriste prudent évitant tous les excès dans quelque sens que ce soit, c’est à partir de lui qu’apparaît l’idée de société, objectivée et vue de l’extérieur, dotée de lois autonomes par rapport aux individus, et qui va devenir l’objet d’étude initial de tous les pères fondateurs de la sociologie, qu’il s’agisse de Comte, de Marx , de Le Play, de Tocqueville, ou encore de Durkheim (malgré tout ce qui les sépare par ailleurs).
Cela dit, parce qu’elle est exclusivement centrée sur la moyenne sur laquelle peut porter une action maîtrisable, la pensée de Quételet ne permet pas de s’attarder sur les distributions et les ordres entre les individus. Dans la perspective de Quételet, les idées de dispersion statistique et de variations autour de la moyenne ne peuvent émerger. Il faut attendre Galton (1822-1911) pour qu’un intérêt relatif aux différences statistiques entre les hommes se manifeste, sur fond d’eugénisme. L’idéal de Galton n’est pas en effet l’homme moyen mais l’homme génial, et les questions qu’il se pose portent sur les façons d’améliorer la race humaine. Cette préoccupation le conduit à forger des outils de mise en équivalence entre des populations différentes, reliées partiellement par une corrélation statistique : la taille des fils est en partie « expliquée » par celle des pères. L’entreprise de Galton sera prolongée par Pearson, notamment dans La grammaire de la science (1892) avec la mise à l’honneur des notions de corrélation, de régression, de test du chi-deux et d’analyse multivariée, tout en restant dans une optique fondamentalement héréditariste et méritocratique, dont le but avoué est de favoriser la naissance des « plus aptes » et de limiter celle des « moins bien dotés par la nature », lesquels appartiennent bien souvent aux classes les plus pauvres de la société. Cependant, en ouvrant une voie nouvelle à l’objectivation de la causalité (causalité partielle et statistique), Galton et Pearson proposent une boîte à outils inédite qui contribuera, au XXème siècle, à instrumenter l’espace socio-technique de discussion sur les prévisions et les décisions orientant le monde social. Leur travail a en effet donné naissance à des concepts et un langage commun doté d’une grammaire élaborée et complexe – lesquels n’ont maintenant plus de rapport avec l’orientation politique du courant eugéniste.
Développements contemporains de la statistique
C’est à partir de la crise de 1929 que la causalité statistique, outillée à la fois par les enquêtes des bureaux de statistique (qui existent depuis les années 1830) et par les formulations mathématiques importées de la biométrie, devient progressivement la référence des débats sur les politiques économiques et sociales. La référence à un taux de chômage mesuré sur l’ensemble du territoire national apparaît vers 1930 dans le débat public américain et vers 1950 en France. De manière plus générale, Roosevelt, président élu aux Etats-Unis en 1932, met en place une politique d’intervention globale qui transforme l’organisation de la statistique fédérale. Les recensements de population et d’entreprises se développent alors tandis que les méthodes de statistique mathématique sont définitivement adoptées par les statisticiens et les économistes. C’est cette époque que commencent à s’agencer les trois outils essentiels de la statistique économique et sociale moderne : les enquêtes par sondage sur les échantillons représentatifs (la méthode des sondages aléatoires avait déjà été utilisée de façon expérimentale en Norvège et en Angleterre vers 1900 pour décrire les conditions de vie des diverses classes sociales), les calculs de comptabilité nationale et, un peu plus tard, les ordinateurs.
Des transformations analogues dans l’espace de l’information économique et sociale et de son usage dans le débat public interviennent en France dans les années 1950, même si la centralisation administrative avait de longue date préparé cette évolution. Ces transformations sont liées à la mise en place d’instances nationales de négociation des rapports salariaux et à leur uniformisation relative (qualifications ouvrières définies par les « décrets Parodi » en 1946, statut général de la fonction publique en 1947), à la création de la Sécurité sociale et des caisses nationales pour l’assurance-maladie, les allocations familiales et les retraites. En même temps, la politique économique de l’Etat change de nature, et l’équilibre macroéconomique décrit à travers les catégories keynésiennes de la comptabilité nationale est désormais considéré comme relevant d’actions publiques correctrices. C’est également l’époque où la planification indicative est supposée fournir aux agents économiques un cadre de référence pour les décisions microéconomiques engageant fortement l’avenir.
La constitution de tout cet espace public qui rend possible un débat contradictoire sur les orientations de la cité suppose l’émergence d’un langage qui ne préexiste pas au débat mais qui est négocié, inscrit, stabilisé puis déformé peu à peu – et qui n’est pas un système de signes reflétant des choses existant en dehors de lui. L’histoire du chômage, non seulement de sa définition mais aussi des institutions destinées à le réduire et à secourir les personnes qui en sont victimes, offre ainsi un exemple des interactions entre les mesures statistiques et les procédures institutionnelles d’identification et de codage des objets.
Cet espace de légitimité reposant sur celle de la science et sur celle de l’Etat – et à l’intérieur duquel prennent place un grand nombre de débats et d’études techniques précédant ou accompagnant les décisions de politique économique – est entré en crise depuis le début des années 1980. S’il n’y a pas d’explication générale et unique de cette évolution, plusieurs facteurs peuvent entrer en compte. On peut citer le ralentissement de la croissance qui rend désormais difficile la réunion des partenaires sociaux pour débattre, non plus du partage des bénéfices, mais des effets de la crise. On peut citer aussi l’intégration plus grande de l’économie française dans les échanges mondiaux qui rend obsolète ou moins pertinent l’usage de modèles keynésiens valables en économie fermée. Mais on peut également évoquer : la baisse de la représentativité des organisations syndicales et politiques qui modifie la nature de l’espace public de négociation, l’affaiblissement de l’Etat-nation, tiraillé entre la montée en puissance des collectivités locales consécutive aux lois de décentralisation et l’émergence des institutions et réglementations européennes, ou encore la gestion des entreprises, qui s’éloigne des principes tayloriens et fordistes et tend à se décentraliser (conformément au modèle japonais) et à s’appuyer sur une circulation locale de l’information qui diminue la pertinence et l’intérêt des synthèses statistiques antérieures.
Conclusion : comment dépasser les controverses à propos de la statistique
Les controverses à propos de la statistique s’inscrivent soit dans le registre de la description et de la science (il y a), soit dans le registre de la prescription et de l’action (il faut). A l’intérieur du langage scientifique de la description, on oppose la position réaliste qui postule qu’il y a des choses objectives indépendantes des observateurs et dépassant les contingences singulières (c’est le cas de la position de Quételet) et la position nominaliste, qui s’attache à reconstruire les pratiques sociales qui ont conduit à l’apparition d’un objet statistique et qui cherche à montrer comment les faits sociaux deviennent des choses (sociologie constructiviste de la connaissance). Au sein du langage de l’action, on trouve aussi deux attitudes opposées qui sont celle du langage politique et administratif réaliste qui voit les objets statistiques comme des catégories d’action (il faut qu’il existe des choses comme l’inflation, la pauvreté ou le chômage, pour pouvoir agir sur elles) et celle du langage relativiste qui dénonce la production statistique comme résultant de rapports de forces. Pour dépasser cette opposition, et pour sortir de la controverse opposant le réalisme et le nominalisme, il est nécessaire de penser que la statistique est certes conventionnelle mais qu’elle fait cependant naître des objets correspondant à des réalités : si la statistique est un langage dont le vocabulaire peut naturellement être débattu, elle repose néanmoins sur des conventions d’équivalence et de permanence des objets qui fondent les pratiques statistiques, et qui sont le produit d’investissements politiques, sociaux et techniques fort coûteux. La raison statistique est donc nécessairement discutable puisqu’il existe des « investissements de forme » qui la fondent, mais elle est en même temps indiscutée, puisqu’il faut bien que les choses aient une certaine permanence pour que la vie puisse suivre son cours.
L’auteur
Alain Desrosières est administrateur de l’INSEE et membre du centre Alexandre Koyré d’histoire des sciences (EHESS-CNRS). Il est notamment l’auteur de Les Catégories socioprofessionnelles (avec Laurent Thévenot, La Découverte, Repères, 5ème éd., 2002), Pour une sociologie historique de la quantification et Gouverner par les nombres (Presses de l’Ecole des mines, 2008).
Quatrième de couverture
Cet ouvrage magistral, devenu un classique depuis sa première publication en 1993, rassemble plusieurs domaines jamais connectés auparavant de l’histoire des sciences et de la politique : il retrace à la fois l’histoire de l’Etat, des statistiques, des bureaux de l’administration et de la modélisation de l’économie, domaines dont le rapprochement ne s’est fait que très progressivement. Ainsi, la statistique, qui était au XVIIIème siècle la « science de l’Etat », ignorait les probabilités : elles n’y ont été associées qu’au XIXème siècle. Au fur et à mesure que la « politique des grands nombres » s’enrichit, elle brasse les jeux de hasard, les risques de la vaccination, les assurances sur la vie, la fixation des tarifs douaniers, la fiabilité des jurys, puis, plus récemment, les effets catastrophiques des cycles économiques et les sondages d’opinion, dont l’auteur propose une analyse fort stimulante. En reconstruisant les hésitations, les contingences et les controverses qui définissent la « raison statistique », ce livre ne s’adresse pas seulement aux historiens des sciences, aux économistes ou aux spécialistes de science politique, mais veut ouvrir un débat avec le grand public ausculté par ces appareils statistiques.