La statistique vérité ou mensonge ?

LA STATISTIQUE : VÉRITÉ OU MENSONGE ?

La statistique La statistique est un outil indispensable à la recherche en sociologie. Les méthodes modernes, fondées sur des algorithmes et des hypothèses mathématiques, donnent l’impression de décrire complètement la réalité sociale de façon irréfutable et incitent à une analyse intuitive et rapide de leurs résultats. La difficulté de respecter les conditions indispensables à leur scientificité et l’objectivité apparente des chiffres et graphiques renforcent au contraire la nécessité d’un examen critique et d’une interprétation prudente des propriétés qu’elles mettent en évidence.

 I. STATISTIQUE DESCRIPTIVE

A. La méthode

Durkheim est l’exemple type du sociologue qui, en consultant les registres administratifs et religieux, a compilé des informations sur l’âge, la religion, le sexe, la région, la situation familiale et la profession des suicidés (Durkheim, 1897). Il a montré l’importance des facteurs sociaux dans l’acte suicidaire et en a déduit une typologie bien connue. La méthode exige un très gros travail de recueil de données, de contrôle des informations, de tris et de classements et une connaissance approfondie de la psychologie, de l’histoire, des religions, des cultures. Sa démarche est différente de celle de Tocqueville qui se méfiait de la statistique (Tocqueville, 1991, p. 310) : « Quand la statistique n’est pas fondée sur des calculs rigoureusement vrais, elle égare au lieu de diriger. L’esprit se laisse prendre aisément aux faux airs d’exactitude qu’elle conserve jusque dans ses écarts, et il se repose sans trouble sur des erreurs qu’on revêt à ses yeux des formes mathématiques de la vérité. Abandonnons donc les chiffres, et tâchons de trouver nos preuves ailleurs. » Ces deux auteurs ont chacun leur propre conception des faits sociaux. Durkheim suit une démarche descriptive, fondée sur des données nombreuses, tandis que Tocqueville analyse la société en observant le comportement humain.

B. Erreurs courantes en statistique descriptive

Les applications de la statistique descriptive présentent des risques d’erreurs malgré sa simplicité méthodologique. La fiabilité des données est souvent implicite, surtout lorsqu’elles sont informatisées. C’est parfois complètement faux. Certaines sont inventées par des enquêteurs qui ont des quotas à respecter, d’autres sont créées de toutes pièces pour augmenter la taille des échantillons, les questionnaires sont parfois rédigés de façon orientée. Dans les administrations, l’Éducation nationale en particulier, quasiment tous les chiffres officiels sont faussés par la nécessité d’atteindre les objectifs fixés par les ministères. Il a fallu les enquêtes internationales du programme PISA, qui échappent au contrôle administratif national, pour révéler l’échec du système éducatif français. Une erreur d’interprétation fréquente consiste à ne pas tenir compte des probabilités a priori. Raymond Boudon (Boudon, 2006) en donne des exemples chez des professionnels (médecins et infirmières), lorsque la conclusion apparaît comme une évidence. Hans-Georg Gadamer (Gadamer, 1976, p. 104) met en garde contre la facilité lorsque les résultats coïncident avec l’intuition du chercheur : « Toute interprétation juste doit se garantir contre l’arbitraire d’idées de rencontre et contre la limitation qui dérive d’habitudes de pensées non décelées et diriger son regard “sur les choses mêmes”. » On trouve aussi des raisonnements qui ne sont que des sophismes ou des lapalissades. Par exemple (Garin, 1991, p. 14) : « Plus on redouble tôt, moins on a de chances de faire des études longues. Ainsi 1 % des élèves de Première S ont redoublé le cours préparatoire, alors que c’est le cas de 5 % de ceux qui sont en classe de bac professionnel et 11 % de ceux qui préparent un CAP. » La première phrase montre seulement que plus on est faible, moins on est fort. L’erreur de logique consiste à constater que le redoublement ne permet pas de rattraper le retard scolaire et à en déduire son inutilité. Elle devient évidente dès que l’on imagine de faire redoubler les meilleurs élèves de cours préparatoire : la quasi-totalité des élèves parvenus en Première S dix ans plus tard auront alors redoublé le cours préparatoire, montrant ainsi l’efficacité du redoublement suivant ce raisonnement. Une autre erreur classique consiste à interpréter directement une relation entre deux facteurs comme une relation causale. C’est cette erreur qui a conduit l’éminent statisticien Karl Pearson à soutenir l’eugénisme de Francis Galton au début du XXe siècle. La causalité ne peut être établie que par une explication relevant du champ scientifique concerné, même si la relation est forte. Certains coefficients sont interprétés de façon abusive. C’est le cas, en particulier, du coefficient de concentration de Gini, souvent utilisé à des fins idéologiques. La non-transitivité de la corrélation (si A et B sont fortement corrélés, de même que B et C, cela n’implique pas que A et C le soient) est aussi une propriété très mal connue, et peut être une source d’erreur. La statistique

II. STATISTIQUE INFÉRENTIELLE

A. Application de la théorie des probabilités

La statistique inférentielle est une application de la théorie des probabilités. Elle a deux objectifs principaux. Le premier est l’estimation : il s’agit de calculer approximativement, à partir d’observations, la valeur théorique d’un paramètre d’une loi de probabilité et un intervalle de confiance contenant cette valeur avec un degré de confiance fixé. Il existe plusieurs critères pour la calculer, dont les plus connus sont les moindres carrés et le maximum de vraisemblance. Le second est la théorie des tests : il consiste à contrôler une hypothèse nulle, supposée vraie a priori (par exemple l’indépendance de deux critères) et à accepter une hypothèse alternative (une relation non due au hasard) en cas de rejet de la première. La région critique est l’ensemble des valeurs provoquant le rejet de l’hypothèse nulle. La p-value et le risque de première espèce sont les critères numériques qui déterminent la décision. Ces deux objectifs sont liés : l’intervalle de confiance d’un paramètre est l’ensemble des valeurs acceptées par le test d’égalité sur ce paramètre. La statistique inférentielle est fondée sur les lois de probabilité des variables considérées. Les données sont obtenues par tirage aléatoire indépendant dans une population déterminée. Les méthodes supposent, la plupart du temps, que ces observations sont distribuées suivant la loi normale.

B. Les hypothèses et leurs conséquences

Les résultats obtenus par une méthode inférentielle ne sont rigoureux que si les hypothèses sur lesquelles elle est fondée sont vérifiées. Le tirage au hasard indépendant dans une population fixée est la seule procédure de constitution d’un échantillon qui garantisse l’absence d’intervention humaine. Il est beaucoup plus difficile à mettre en œuvre qu’on ne l’imagine généralement : il ne suffit pas d’interroger les passants que l’on rencontre dans la rue, de faire appel à des étudiants volontaires, ni de questionner son entourage. Il faut utiliser des procédures particulières, comme un générateur de nombres pseudo-aléatoires sur ordinateur, et extraire l’échantillon d’une population répertoriée. Faire « comme si » l’échantillon observé était issu d’un tirage au hasard, c’est ignorer que tout échantillon non aléatoire est biaisé par la procédure de sélection. C’est l’erreur commise en 1936 par la revue Literary Digest qui avait déduit d’un sondage effectué auprès de deux millions quatre cent mille personnes l'élection à la présidence des États-Unis d’Alf Landon devant Franklin Roosevelt. Gallup avait estimé par un sondage empirique auprès de cinquante mille électeurs le pourcentage de voix en faveur de Roosevelt à 56 %. Faire « comme si » cet échantillon avait été obtenu de façon aléatoire donne [55,8 % ; 56,2 %] comme intervalle de confiance à 95 % du pourcentage de suffrages recueillis par Roosevelt, alors que l’élection lui en a donné 61 %. Dans le cas d’un tirage aléatoire de mille électeurs, l’estimation d’un pourcentage égal à 61 % aurait donné une valeur comprise entre 58 % et 64 % dans 95 % des cas. L’hypothèse de la loi normale est nécessaire à la validité de nombreux tests, en particulier ceux qui font intervenir l’estimateur de la variance. Par exemple, la statistique F utilisée pour tester la nullité du coefficient de corrélation linéaire ne suit la loi de Fisher que si cette hypothèse est vérifiée, et que si l’hypothèse alternative est l’existence d’une liaison linéaire. Dans le cas contraire, la p-value et la région critique sont incorrectes. Une autre limite concerne la valeur du coefficient de corrélation, souvent négligée dans l’interprétation. Une valeur égale à 0,14 calculée sur 200 observations suffit pour rejeter l’hypothèse d’indépendance. Mais on oublie que cette valeur ne montre qu’une très faible relation entre les facteurs, bien difficile à expliquer. Dans le cas où les données sont très nombreuses, les hypothèses nulles classiques (normalité d’une distribution, indépendance de deux facteurs…) sont systématiquement rejetées par les tests statistiques parce qu’elles sont théoriques : la statistique inférentielle n’est pas adaptée à l’analyse de données très nombreuses. La plupart des revues de sciences humaines imposent à leurs auteurs un risque de première espèce égal à 5 %. C’est oublier que ce risque doit être choisi en fonction de la vraisemblance de l’hypothèse nulle et de la nature de l’hypothèse alternative. Cette exigence peut conduire à rejeter des hypothèses nulles très vraisemblables et à accepter des hypothèses alternatives qui le sont très peu. Elle s’explique par la difficulté des expertises préalables à toute publication et empêche la diffusion d’articles dont l’intérêt peut être par ailleurs indiscutable, créant ainsi un biais de publication. Elle ouvre aussi la porte à des abus consistant à sélectionner des données pour obtenir un résultat significatif. Il existe d’autres risques d’erreurs (Poitevineau, 2004), entre autres : l’acceptation de l’hypothèse nulle ne prouve pas qu’elle est vraie, mais seulement qu’elle n’est pas contredite par les données ; une succession d’hypothèses affaiblit la vraisemblance de l’ensemble ; la présence de valeurs extrêmes dans un échantillon est d’autant plus vraisemblable que l’effectif est élevé. La statistique

III. MODÉLISATION

A. Le principe

Un modèle mathématique est une représentation théorique du fonctionnement d’un ensemble de variables liées entre elles et qui forment un système. Pour Max Weber, la justification épistémologique de la modélisation en sociologie est la nécessité de simplifier la réalité pour la rendre intelligible (Ferréol et Noreck, 1990). Les modèles statistiques les plus utilisés sont l’analyse de la régression et l’analyse de variance : une variable est “expliquée”, c’est-à-dire reconstruite, par des équations la liant à d’autres variables appelées “explicatives”. Ces modèles ne sont valides que sous des hypothèses mathématiques complexes : nature des relations, indépendance et répartition normale des erreurs. En principe, on choisit le modèle le plus simple parmi ceux qui donnent une explication satisfaisante du fonctionnement du système (c’est le « rasoir d’Occam », ou principe de parcimonie). Il peut en exister plusieurs : le choix est effectué par le chercheur.

B. Les limites

La simplification de la réalité par un modèle est compensée par des hypothèses mathématiques contraignantes. Le modèle multilinéaire, très souvent utilisé, s’exprime de la façon suivante, dans le cas d’une variable expliquée Y et de cinq variables explicatives X1, … X5 : Y = 0 + 1 X1 + 2 X + 3 X + 4 X + 5 X +  Les coefficients de régression 0, 1, … 5 sont estimés suivant le critère des moindres carrés. Le terme  désigne une variable d’erreur suivant la loi normale de moyenne nulle et de variance ². Un échantillon aléatoire de taille 1000 peut être considéré comme suffisant pour effectuer les estimations des paramètres du modèle. Il serait très insuffisant pour analyser toutes les répartitions croisées des cinq variables explicatives. Ce gain de taille est obtenu en admettant que le modèle est acceptable, en l’occurrence que les effets des variables explicatives s’ajoutent et que la relation entre chacune d’elles et la variable expliquée est linéaire. Cette linéarité est une hypothèse très contraignante qui n’est souvent acceptable que si les valeurs varient relativement peu, et qui est bien rarement vérifiée. Le premier test consiste à comparer la variance ² de la variable d’erreur à celle de la variable expliquée pour vérifier que le modèle global apporte une information significative. Le second consiste à contrôler successivement les hypothèses 1 = 0, …5 = 0. Ces tests sont fondés sur l’hypothèse d’une répartition gaussienne des erreurs, sans laquelle ils ne sont pas statistiquement justifiés. Cette hypothèse est rarement contrôlée. Il existe des moyens de vérifier un modèle, comme la validation croisée : on calcule le modèle sur la moitié de l’échantillon, et on l’applique à l’autre moitié pour calculer les valeurs estimées de Y. Si ces dernières sont proches des valeurs observées, on peut en déduire que le modèle est correct sur l’échantillon. C’est une vérification simple qui devrait être systématique, mais le résultat de cette procédure est souvent décevant, même sur des données simulées qui vérifient toutes les hypothèses théoriques. D’autres difficultés apparaissent lorsque l’on sélectionne les variables explicatives. Des modèles réduits à trois ou quatre des cinq variables précédentes peuvent être autant significatifs que le modèle complet, et la présence de colinéarités entre les variables explicatives, difficiles à déceler, peut rendre les estimations très imprécises. La statistique

IV. RECHERCHE EXPLORATOIRE

A. Classification automatique et analyse factorielle

L’analyse des données est différente de la modélisation par l’absence d’idées a priori du chercheur sur le fonctionnement du système observé et sur les lois de probabilité mises en jeu. L’objectif est d’analyser les observations sans utiliser les méthodes de la statistique inférentielle : c’est une démarche descriptive. Les méthodes factorielles font émerger les propriétés principales des données observées, appelées facteurs ou composantes principales, et donnent des représentations graphiques optimales planes des individus et des variables. Elles visualisent des propriétés (liaisons entre variables et groupes d’individus), qui ne peuvent être directement détectées par le chercheur du fait de la nature multidimensionnelle des données. La classification automatique rassemble des méthodes informatiques, le rôle du chercheur consistant à choisir le bon algorithme de tri et une bonne “distance” entre les observations. Les groupes d’individus ou de variables sont constitués automatiquement par l’ordinateur. Les résultats sont souvent présentés sous la forme d’une arborescence.

B. Les risques de l’analyse de données

L’analyse de données prétend extraire d’une grande quantité d’informations « la substantifique moëlle » chère à Rabelais. Pour cela, elle définit des objets difficiles à comprendre et à réifier. Une conséquence est le désarmement et la méfiance des spécialistes des sciences humaines et sociales devant les classements, les graphiques et les paramètres numériques obtenus par une analyse qu’ils ne maîtrisent pas. Stephen Jay Gould parle même de « l’anxiété que suscitent les chiffres chez les commentateurs non scientifiques » (Gould, 1997, p. 383). Une autre réaction possible est l’illusion de la toute-puissance de l’analyse des données devant des résultats obtenus par ordinateur et la priorité accordée à la statistique sur la réflexion sociologique : « Cette suprématie de la statistique va trop souvent conduire à privilégier l'instrument par rapport à l'objet. C'est alors la technologie qui commande la problématique : on fera une analyse factorielle sur tel ensemble de données plutôt que d'étudier tel problème en utilisant [cette] analyse » (Derivry, 1990). Cette illusion provoque parfois des craintes, comme celle de l’individualisation d’une prime d’assurance à partir d’une masse considérable de données qui ferait disparaître la mutualisation du risque (Sadin, 2015). L’absence de modèle ne supprime pas la subjectivité du chercheur qui choisit les observations et les variables suivant sa perception du fait étudié. L’augmentation du nombre d’observations rapproche le modèle du fait social, tel qu’il est perçu par le chercheur, et non du fait réel. La statistique

V. HYPOTHÈSES ET DÉMARCHES CONTESTABLES

A. Hypothèse « toutes choses égales par ailleurs »

Il est assez facile d’utiliser l’hypothèse « toutes choses égales par ailleurs » en histoire. La guerre de 14-18 aurait-elle éclaté si la tentative d’assassinat à Sarajevo de l’archiduc d’Autriche François Ferdinand avait échoué ? Cette question a un sens parce que les causes de cet attentat précèdent l’évènement et sont donc indépendantes de sa réussite ou de son échec : l’hypothèse « toutes choses égales par ailleurs » est donc satisfaite. Le modèle linéaire se prête apparemment à cette démarche dans les sciences de l’homme et de la société. Toutefois, comparer deux personnes sous cette hypothèse pour évaluer l’effet propre d’un facteur sur la variable expliquée peut être complètement illusoire puisque cette hypothèse réduit l’individu aux facteurs explicatifs considérés et exclut toute explication par un facteur non pris en compte. Pour détecter une discrimination sexuelle, on identifie souvent l’individu à un profil défini par cinq facteurs : sexe, niveau de formation, expérience, catégorie socio-professionnelle et âge. C’est très limité. On peut multiplier les facteurs de contrôle, ajouter par exemple la durée du travail, l’ancienneté dans l’entreprise, la situation familiale, la profession du conjoint : on contrôle théoriquement mieux les “profils”, mais il y a de moins en moins de personnes de chaque profil et l’analyse statistique donne des résultats de plus en plus discutables. En fait, un profil complet correspond à un individu unique : il n’y a plus de comparaison possible. Cette démarche comporte même une contradiction interne : considérer une femme et un homme « toutes choses égales par ailleurs », c’est considérer qu’ils ont des conjoints égaux. Si la conclusion de l’analyse est que le sexe est discriminant, les conjoints ne sont pas égaux, et l’hypothèse est invalidée. En fin de compte, l’effet propre sur un facteur comme le salaire n’est pas mesurable statistiquement. Thierry Troncin (Troncin, 2005) propose une analyse du redoublement du cours préparatoire à l’école primaire : tous les raisonnements dans les articles qu’il cite sont fondés sur cette hypothèse qu’il énonce d’ailleurs parfois lui-même sous une forme plus prudente (« toutes choses égales par ailleurs incluses dans le modèle », « autant que faire se peut »). Il considère des binômes d’élèves dont l’un redouble et l’autre non, mais dont les résultats en CP sont les mêmes. Cela ne suffit pas pour que leurs situations ne diffèrent que par ce critère. On ne connaît pas leur quotient intellectuel, certains regardent tard la télévision, d’autres se couchent tôt, ont leur propre chambre, leurs parents sont divorcés, etc. Chaque redoublement n’a pas été décidé au hasard, “en aveugle” comme pour tester un médicament ou un engrais, mais suivant d’autres critères non inclus dans le modèle, après un entretien avec les parents par exemple. Les meilleurs résultats des élèves qui n’ont pas redoublé justifient alors les décisions de redoublement des autres. Enfin, aucune étude ne mesure l’effet du redoublement d’un élève sur la classe. On ne peut déduire de ces observations ni l’inefficacité du redoublement, ni l’inverse. Cette hypothèse est régulièrement contestée depuis de nombreuses années (Simiand, 1932). Elle reste malgré tout largement présente : son utilité est telle qu’elle est devenue indispensable (Vilfredo Pareto, d’après Boudon, 2006). La statistique

B. Méta-analyses et comparaisons

Une méta-analyse (ou méta-enquête) consiste à collecter toutes les enquêtes effectuées sur une même question pour en comparer les résultats et établir une synthèse. Cette comparaison présente beaucoup d’inconvénients. L’INSERM (INSERM, 2004) a effectué une méta-analyse pour comparer l’efficacité des psychothérapies, classées en techniques psychodynamiques (TP) regroupant les psychothérapies analytiques et les psychanalyses, et les techniques cognitivo-comportementalistes (TCC). L’indépendance des thérapies par rapport aux cultures des pays dans lesquels les enquêtes ont été effectuées est très contestable. Les systèmes de santé et les critères de remboursement ne sont pas les mêmes partout, ni les formations des psychothérapeutes. Cette différence introduit un biais culturel dans la méta-analyse. On suppose aussi que les patients traités par les TP ont les mêmes pathologies que ceux qui sont traités par les TCC, et que l’efficacité du traitement ne dépend ni du patient ni du thérapeute. Enfin, les observations des enquêtes ne constituent pas un échantillon représentatif de l’ensemble de la population : la plupart des investigations sont américaines et concernent des TCC, tandis que celles sur l’efficacité des TP sont plutôt européennes. La compilation des enquêtes d’évaluation des psychothérapies ne garantit pas, en fin de compte, la scientificité du résultat final dont l’intérêt est d’ailleurs limité : un résultat général comme un taux moyen d’améliorations ne donne aucune indication sur la meilleure démarche à suivre pour soigner un individu particulier. Un autre exemple est donné par des études concernant l’apprentissage de la lecture, suivant deux approches différentes (méthodes d’inspiration globale et méthodes alphabétiques) (Dehaene, 2013 ; Goigoux, 2013). Pour savoir quelle est la meilleure des deux approches, on compare leurs résultats sur deux échantillons d’élèves correspondant à chaque méthode. Ce ne sont ni les mêmes élèves, ni les mêmes enseignants, et on suppose pourtant que leurs aptitudes et compétences sont les mêmes. Les observations ne sont pas tirées au hasard. Pour comparer les résultats de deux études, on effectue un test de comparaison des moyennes qui semble montrer que la meilleure approche est la seconde, pour un risque de première espèce de 5 %. Que va-t-on déduire de ces analyses ? Va-t-on imposer à tous la “meilleure” des deux méthodes, alors que le test est scientifiquement très contestable, qu’on ne peut en généraliser les résultats puisque les données n’ont pas été tirées au hasard et que la moyenne ne donne aucune information sur ce qui conviendrait le mieux à chaque élève ?

C. Quantification d’observations qualitatives

Le traitement statistique de données qualitatives impose de les répartir dans des catégories ou de leur attribuer une mesure quantitative. Ce passage du qualitatif au quantitatif provoque souvent une perte d’informations, mais rendent celles-ci parfois plus robustes. Il crée aussi parfois des effets indésirables. On évalue, par exemple, le coût pour des parents de garder leurs enfants par le revenu qu’ils auraient pu avoir en travaillant. L’enfant d’un milieu favorisé revient immédiatement beaucoup plus cher à ses parents que les enfants de famille pauvre si c’est la mère qui les garde (Lewis, 2001). La mesure financière est très discutable, parce qu’elle laisse entendre qu’une mère qui s’arrête de travailler pour s’occuper de son bébé l’aime plus si elle est riche que si elle est pauvre, et inversement si la famille fait appel à une gardienne qui coûte relativement moins cher à une famille favorisée. Elle ignore aussi complètement la nature de la relation entre l’enfant et la personne qui le garde. La quantification d’un facteur transfère l’ordre existant entre les nombres sur les données qualitatives. Considérons les loisirs : on peut mesurer le plaisir donné par le vélo et le golf par l’argent qu’on y consacre. Le golf coûtant évidemment plus cher que le vélo, la pratique du golf apporterait plus de plaisir que celle du vélo. La statistique transforme ici des préférences individuelles en échelle collective. Hayek considère la recherche systématique de la mesure comme « la source des pires aberrations et absurdités produites par le scientisme dans les sciences sociales » (Hayek, 1953, p. 77). En 1730, Buffon critique la référence à l’argent : « La raison de cette contrariété entre le calcul mathématique et le bon sens, me semble consister dans le peu de proportion qu'il y a entre l'argent et l'avantage qui en résulte. Un mathématicien dans son calcul, n'estime l'argent que par sa quantité, c'est-à-dire par sa valeur numérique ; mais l'homme moral doit l'estimer autrement et uniquement par les avantages ou le plaisir qu'il peut procurer » (Weil, 1961, p. 116).

D. Des interprétations polémiques

Richard Herrnstein et Charles Murray, se fondant sur des analyses statistiques nombreuses et relativement complexes comme des régressions linéaires multiples et des analyses factorielles effectuées sur un grand nombre d’observations, interprètent les résultats de leurs enquêtes sur la réussite sociale aux États-Unis comme la preuve scientifique de l’infériorité de certaines races humaines sur d’autres : les Américains d’origine africaine réussissent moins bien que ceux d’origine européenne et asiatique toutes choses égales par ailleurs, et la seule explication possible selon les auteurs est l’existence d’une hiérarchie raciale (Herrnstein et Murray, 1994). La contestation de cette thèse ne peut guère être le fait que de scientifiques bien au courant de ces méthodes. Gould (Gould, 1997), en montrant les limites épistémologiques des méthodes utilisées par Murray et Herrnstein, contredit totalement leur raisonnement et les accuse de racisme. Au lieu de déduire de leurs analyses l’existence d’une hiérarchie raciale, Murray et Herrnstein auraient pu interpréter leur résultat comme la contradiction de l’hypothèse toutes choses égales par ailleurs, les comportements racistes ne pouvant être observés. Une conclusion est alors la persistance d’un racisme latent aux États-Unis. On pourrait aussi conclure par la lenteur des évolutions sociales depuis la suppression de l’esclavage (1865). Inversement, plusieurs scientifiques (Labbé et Labbé, 2003 ; Marusenko et Rodionova, 2008) ont défini une “distance” entre deux textes, en comparant leurs caractéristiques linguistiques et lexicographiques. La classification automatique, testée sur un grand nombre d’œuvres, a toujours regroupé ceux d’un même auteur. Elle a regroupé aussi certaines pièces de Molière avec celles de Corneille, au point que les chercheurs ont conclu que leur véritable auteur était très vraisemblablement Corneille. Cette hypothèse avait déjà été évoquée au début du XXe siècle (Louÿs, 1938) et très contestée par les spécialistes de l’époque. La contestation actuelle est tout aussi violente. La statistique  Le manque de rigueur, souvent inévitable dans l’analyse statistique de données humaines et sociales, renforce l’exigence d’une réflexion qui ne se limite pas à l’observation des apparences ni à la constatation des coïncidences, mais cherche à les expliquer par une approche sociologique et philosophique traditionnelle, analogue à celles de Durkheim et Tocqueville. Thierry FOUCART * La statistiqueExtrait de l’ouvrage Fictions et savoir, sous la direction de Gilles Ferréol, à paraître en février/mars prochain aux éditions EME, Louvain la Neuve, Belgique. Extrait de l’ouvrage Fictions et savoir, sous la direction de Gilles Ferréol, à paraître en février/mars prochain aux éditions EME, Louvain la Neuve, Belgique. RÉFÉRENCES BIBLIOGRAPHIQUES BOUDON Raymond (2006), Renouveler la démocratie, ou éloge du sens commun, Paris, Plon. DEHAENE Stanislas (2013), « Enseigner est une science », Lemonde.fr, 20 décembre [en ligne]. DERIVRY Daniel (1990), « Sociologie – les méthodes », t. 21, Encyclopædia Universalis, Paris, pp. 214-216. FERRÉOL Gilles et NORECK Jean-Pierre (1990), Introduction à la sociologie, Paris, Armand Colin (1re éd. : 1989). GADAMER Hans-Georg, (1976), Vérité et Méthode, trad. fr., Paris, Seuil (1re éd. en allemand : 1960). GARIN Christine (1991), « La prime au parcours sans faute », Le Monde, 30 mai, p. 14. GOIGOUX Roland (2013), « Apprentissage de la lecture, opposer méthode syllabique et méthode globale est archaïque », Lemonde.fr, 31 décembre [en ligne]. GOULD Stephen Jay (1997), La Mal-mesure de l’homme, trad. fr., Paris, Odile Jacob (2e éd. en anglais : 1996). HAYEK Friedrich (1953), Scientisme et sciences sociales, trad. fr., Paris, Plon (1re éd. en anglais : 1952). HERRNSTEIN Richard et Charles MURRAY (1994), The Bell Curve, New York, The Free Press. INSERM (2004), Psychothérapie. Trois approches évaluées. Rapport, Paris. LABBÉ Cyril et LABBÉ Dominique (2004), « La distance intertextuelle », Corpus, n° 2, 15 décembre [en ligne]. LEWIS Jane (2001), « Les femmes et le Workfare de Tony Blair », Esprit, n° 3-4, mars-avril, pp. 174-186. LOUŸS Pierre (2004), Broutilles suivies de Le problème Corneille-Molière, textes recueillis par Frédéric LACHEVRE, Paris, À l’écart (1re éd. : 1938). MARUSENKO Mikhail et RODIONOVA Elena (2010), « Mathematical methods for attributing literary works when solving the "Molière-Corneille" problem », Journal of Quantitative Linguistics, vol. 17, n° 1, février, pp. 30-54. POITEVINEAU Jacques (2004), « L’usage des tests statistiques par les chercheurs en psychologie, aspects normatif, descriptif et prescriptif », Mathématiques et Sciences humaines, vol. 42, n° 167, automne, pp. 5-25. SADIN Éric (2015), La Vie algorithmique, critique de la raison numérique, Paris, L’Échappée. SIMIAND François (1932), Le Salaire, l'évolution sociale et la monnaie, tome I, Paris, Alcan. TOCQUEVILLE Alexis (1991), De la démocratie en Amérique, tome 1, Paris, Garnier- Flammarion (1re éd. : 1835). TRONCIN Thierry (2005), Le Redoublement, radiographie d’une décision à la recherche de sa légitimité, Thèse en Sciences de l’Éducation, sous la direction de Jean-Jacques PAUL, Université de Bourgogne. WEIL Françoise (1961), « La correspondance Buffon-Cramer », Revue d’histoire des sciences et de leurs applications, t. 14, n° 2, avril-juin, pp. 97-136.

La statistique vérité ou mensonge ?