Cercle Frédéric Bastiat

2016-12-09 19:18:04

Le mirage statistique dans les sciences sociales

, par Thierry Foucart

La statistique est une science ancienne puisqu’elle était déjà utilisée à l’époque des Pharaons (et même des Sumériens). Elle est restée très longtemps purement descriptive, et consistait essentiellement à mesurer les productions agricoles, jusqu’à l’époque moderne où elle a été reliée à la théorie des probabilités apparue au 17e siècle (Bernoulli, Pascal etc.). Elle est utilisée maintenant dans toutes les sciences appliquées : sciences de la nature, sciences sociales, sciences économiques. J’aborde ici l’utilisation de la statistique dans les sciences sociales.

Galton et Pearson

Les premières applications de la statistique appliquée dans les sciences sociales date de la fin du 19e siècle et du début du 20e. Émile Durkheim, en 1897, a utilisé les statistiques administratives pour analyse le suicide (1897). La démarche est uniquement descriptive, et sa recherche des causalités sociologiques du suicide est fondée sur des analyses sociologiques et psychologiques. Son ouvrage Le suicide a fait date par la qualité de ses interprétations toujours d’actualité. Une autre approche est celle de Karl Pearson, un des fondateurs de la statistique moderne : avec Galton, il mesure la liaison entre deux facteurs par le coefficient de corrélation et invente un test statistique pour contrôler qu’une liaison entre deux caractères est significative, c’est-à-dire qu’elle ne peut provenir uniquement du hasard.
Les analyses de données sociales qu’il effectue avec Galton lui font observer une forme d’hérédité chez les familles socialement en difficulté ou handicapées. Il croit avoir trouvé la justification scientifique de l’idéologie eugéniste défendue par Galton, qui a inspiré la politique sociale de nombreux pays jusqu’à la seconde guerre mondiale (jusqu’en 1976 en Suède). Ajoutons que Karl Pearson était partisan « d’un socialisme planificateur, technocratique et réformiste, prônant la concentration de la totalité du capital entre les mains d’un État tout-puissant gouverné par l’élite intellectuelle. »
La vie de Karl Pearson donne l’exemple d’un scientifique éminent qui n’a pas su maîtriser l’interprétation des résultats obtenus par la méthode statistique qu’il a lui-même mise au point et dont la « foi » en la science lui faisait croire qu’elle pouvait tout résoudre. Ce n’était pas le seul, et la France a connu dans les années 1930 un mouvement de polytechniciens, l’X-crise, réclamant la transformation de la sociologie en une technologie sociale chargée de gérer l’homme et la société, la faisant ainsi passer du statut de science humaine à celui de science de la nature, et évidemment confiée à des ingénieurs. Cette illusion renait de ses cendres actuellement, du fait des progrès de l’informatique et de l’analyse des données (ou data mining).
Deux facteurs interviennent donc dans l’utilisation de la statistique en sciences sociales :
• la méthode statistique, fondée sur l’observation et le raisonnement.
• l’interprétation des résultats, effectuée dans le champ scientifique des données analysées et exprimée dans le langage correspondant.
Dans la pratique, ces deux facteurs sont liés : l’interprétation des résultats est d’autant plus difficile que la méthode est complexe, et inversement, le choix de cette dernière dépend de la réflexion initiale du sociologue sur le fait social qu’il étudie.

Les difficultés du raisonnement

Dans le cas général de deux hypothèses H1 et H2 représentant les deux seules réponses possibles à une question, le choix n’est pas toujours facile : on raisonne très souvent « par l’absurde ». Ainsi, une observation en contradiction avec H1 montrera que l’hypothèse H2 est la bonne : le raisonnement est totalement logique. Lorsque la contradiction avec l’hypothèse H1 n’est pas certaine, il y a un risque d’erreur, et c’est là qu’interviennent les probabilités et l’analyse critique des hypothèses et des conditions de l’expérience.
Un exemple très simple permet de bien situer le problème. On observe des traces de pas sur une plage : de deux choses l’une, ou ce sont les traces d’un homme (hypothèse H1) ou d’une femme (hypothèse H2). Ces traces montrent que la personne qui a marché sur le sable chausse du 39.
On peut en déduire raisonnablement que c’est une femme, compte tenu que le nombre d’hommes chaussant du 39 est faible. Une erreur est évidemment possible même si on peut la considérer comme rare. La question posée ne pose apparemment guère de difficulté : puisqu’il y a peu d’hommes chaussant du 39, l’hypothèse H1 est peu vraisemblable. Mais ce raisonnement est insuffisant : il n’a que l’apparence de la rigueur, et on ne s’en aperçoit pas immédiatement parce qu’il confirme ce qui paraît être une évidence, et qu’on recherche naturellement la facilité. En effet, imaginons que les traces de pas montrent une pointure 48 : il y a aussi très peu d’hommes chaussant du 48. En tenant strictement le même raisonnement que précédemment, on en déduit que la personne est une femme, ce qui est évidemment une absurdité. On retrouve ici la nécessité d’un esprit critique vigilant : méfions-nous de l’intuition immédiate !
On va donc comparer les « vraisemblances » des deux hypothèses homme/femme. Dans le premier, comme il y a plus de femmes chaussant du 39 que d’hommes, le choix d’une femme est justifié, et dans le second cas, comme il y a moins de femmes chaussant du 48 que d’hommes, on peut considérer que c’est un homme.
Nous sommes arrivés semble-t-il à un raisonnement correct. Mais ce n’est encore qu’une apparence : il repose sur l’hypothèse non explicitée toutes choses égales par ailleurs. Elle signifie ici que les personnes qui sont passées sur la plage ne diffèrent que par le sexe – il n’y a pas d’enfant – et que le nombre de femmes qui marchent sur la plage est égal au nombre d’hommes. Imaginons par exemple qu’il n’y ait que très peu de femmes et pas d’enfant passant sur la plage. Une pointure 39 devient alors plus fréquente chez un homme que chez une femme : le raisonnement précédent perd toute valeur et il faut utiliser les effectifs réels de la population concernée et non les proportions générales : c’est le pourcentage d’hommes et de femmes parmi les personnes passant sur la plage qu’il faut considérer pour déterminer s’il s’agit d’un homme ou d’une femme.
Ce n’est pas fini ! En réalité, c’est le pourcentage d’hommes et de femmes parmi les personnes passant sur la plage et chaussant du 39 qu’il faut considérer, et toujours supposer qu’il n’y a pas d’enfant.
La réponse à une question apparemment simple peut être bien compliquée !
Ce genre de difficultés de raisonnement est à l’origine d’erreurs d’interprétation nombreuses et difficilement détectables. R. Boudon (1997) cite une enquête américaine sur la prise en compte de ces probabilités a priori dans une population d’experts. Il s’agit de médecins à qui on pose la question suivante (in Boudon 1997, note 1, p. 25) : « if a test to detect a disease, whose prevalence is 1/1 000, has a false positive rate of 5%, what is the chance that a person found to have a positive result actually has the disease, assuming you know nothing about the person’s symptoms ? ». La plupart des médecins répondent 95%, tandis que la réponse correcte (2%) est donnée par 18% des médecins seulement. Pour aboutir à la bonne réponse, il suffit de dénombrer parmi 10 000 personnes le nombre de personnes positives malades (10), positives et non malades (9990 x 5% = 499,5). Il y a donc 509,5 personnes détectées positives et la probabilité qu’une personne détectée positive soit effectivement malade est donc 10/509,5 = 1,96%.
Il s’agit ci-dessus d’une erreur logique. En ce qui concerne l’interprétation des résultats des analyses statistiques, il est dit couramment que « la statistique, on peut lui faire dire ce que l’on veut. » En fait, ce que quelqu’un lui fait dire donne parfois plus d’informations sur lui-même que sur le fait observé.
Imaginons un homme perdu dans le Sahara. Il dispose d’une bouteille avec 50 cl d’eau. Cette donnée chiffrée est objective. Deux interprétations sont possibles : il ne lui reste que 50 cl d’eau (1) et il lui reste encore 50 cl d’eau (2). La première est celle d’un pessimiste réaliste, et la seconde d’un (très) optimiste. L’interprétation donne une indication sur la perception de la situation par celui qui en est l’auteur.
Cette difficulté de l’interprétation dans les sciences de l’homme et de la société est générale. La réponse scientifique pour le sociologue consiste à faire abstraction de ses convictions personnelles, à se placer dans une position de « neutralité axiologique » (Max Weber), alors que dans les sciences exactes, cette « neutralité axiologique » est obtenue par la répétition de l’expérience et le contrôle de ses résultats par d’autres scientifiques.

Les modèles statistiques modernes

Les exemples donnés dans le paragraphe précédent sont simples. Plus le modèle ou la démarche statistique est complexe, plus l’interprétation des résultats numériques qu’il produit est difficile. Ces difficultés sont de nature différente.
Le choix des observations est déjà le fait du sociologue : il a a priori une intuition sur le fait social qu’il analyse et cherche à la contrôler et à l’expliciter. Mais d’autres intuitions sont possibles, et les observations représentent donc la réalité sociale telle qu’elle est perçue par lui, en fonction du contexte scientifique et culturel dans lequel il travaille : plusieurs choix sont possibles pour une même réalité, ce qui montre qu’ils ne peuvent en donner l’image exacte et que les résultats numériques produits sont liés à la personnalité du sociologue. En principe, les spécialistes des sciences humaines sont conscients de cette subjectivité de leurs choix.
Les méthodes statistiques sont fondées sur des hypothèses d’autant plus nombreuses qu’elles sont complexes. Elles supposent un certain type de relation entre les variables observées. La linéarité de cette relation, couramment supposée parce que la plus simple, est bien plus contraignante qu’on ne le pense. Il y a des hypothèses sur les lois de probabilités, sur l’indépendance des variables mises en jeu, sur le caractère aléatoire des observations …. Mais elles donnent des résultats numériques et graphiques apparemment objectifs puisque fournis par l’ordinateur, et la subjectivité de l’analyse est oubliée. C’est l’erreur classique des mathématiciens qui maitrisent (pas toujours) les méthodes statistiques utilisées sans le recul nécessaire donné par l’étude des sciences de l’homme et de la société.
Enfin, l’interprétation des résultats statistiques consiste à les expliquer par des mots : au-delà du raisonnement parfois contestable, le choix des chiffres produits par une analyse statistique est lui-même porteur de sens, et le choix des mots pour les expliquer, jamais innocents, n’est pas sans effet sur le sens donné aux chiffres.
Les paragraphes qui suivent donnent des exemples d’analyses statistiques contestables.

The bell curve

Le premier exemple est donné dans l’ouvrage intitulé « The bell curve », dans lequel les auteurs Murray et Herrnstein , se fondant sur des analyses statistiques nombreuses et relativement complexes comme des analyses factorielles, interprètent des résultats d’une façon pourtant très contestable : ils donnent à leurs lecteurs l’impression d’apporter une preuve scientifique de l’infériorité de certaines races humaines sur d’autres.
Leurs analyses statistiques sont effectuées avec rigueur, et les résultats numériques et graphiques ne sont pas contestables au plan mathématique. C’est leur interprétation qui est pour le moins discutable : Murray et Herrnstein prétendent avoir montré qu’aux Etats-Unis les Noirs ont une moins bonne réussite sociale que les autres toutes choses égales par ailleurs, et la seule explication possible à leurs yeux est l’existence d’une hiérarchie raciale. Ces interprétations ont fait scandale, mais comment un humaniste convaincu de l’égalité des races peut-il contester les résultats d’un modèle linéaire et l’interprétation d’un coefficient de corrélation partielle ? Comment peut-il résister à la pléthore de données, d’analyses factorielles, de tests statistiques dont il ne connaît quasiment rien ? Les arguments dont il dispose relèvent des sciences « molles » et lui paraissent bien faibles – à tort – devant une argumentation relevant des sciences « dures ». Par suite, la contestation de cette thèse est surtout le fait de scientifiques : la plus connue a été publiée par S.J. Gould . En montrant les limites épistémologiques des méthodes statistiques utilisées par Murray et Herrnstein, il a pu contredire totalement leurs raisonnements et mettre en évidence l’idéologie raciste implicite des auteurs.
On peut contester les conclusions de Murray et Herrnstein beaucoup plus simplement : les résultats montrent une inégalité raciale toutes choses égales par ailleurs. Au lieu d’en déduire que cette inégalité raciale existe, on peut contester l’hypothèse toutes choses égales par ailleurs, et considérer que, malgré l’égalité des droits donnés à tous les Américains, la société n’a pas éliminé toutes les formes de racisme en son sein.

La vie ordinaire des enfants de parents homosexuels

Cet exemple est toujours d’actualité, et cette enquête a été largement utilisée pour promouvoir l’adoption d’enfants par des parents homosexuels .
On trouve dans le numéro daté du 28 octobre 2000 un article de Pascale Kremer intitulé « La vie ordinaire des enfants de parents homosexuels ». Cet article relate un mémoire de pédopsychiatrie soutenu par le docteur Stéphane Nadaud dont le travail a été effectué sous la direction du professeur Manuel Bouvard du CHU de Bordeaux. Ce dernier déclare : « nous avons abordé ce sujet encore tabou en France comme des explorateurs, en dehors de tout a priori scientifique, social ou culturel, avec la plus grande rigueur méthodologique possible ». Les titres des paragraphes de l’article sont les suivants : Le développement, trois questionnaires, conclusions rassurantes.
En lisant l’article, on apprend que cette rigueur méthodologique a consisté à analyser les résultats d’une enquête effectuée sur un échantillon de 58 couples, que ces couples sont tous membres de l’Association des parents et futurs parents gays et lesbiens, et qu’ils sont de bon niveau socio-économique (presque tous ont fait des études supérieures). On ne connait pas leur sexe. L’utilisation de pourcentages calculés sur cet échantillon cache la faiblesse de l’effectif : des pourcentages de 2%, 12% (cités dans le mémoire) correspondent à un et sept cas. On apprend aussi que ce sont les parents adoptifs qui ont rempli les trois questionnaires, et que ni le docteur Stéphane Nadaud ni le professeur Manuel Bouvard n’ont vu les enfants. Quand Stéphane Nadaud conclut que la population étudiée est « non pathologique », on peut se demander s’il diagnostique les psychoses infantiles en se limitant à questionner les parents.
La méthodologie utilisée est en totale contradiction avec les règles élémentaires du recueil de données médicales, psychologiques et sociales. Le journaliste évoque dans son article le biais évident de l’échantillon mais cela ne l’empêche pas de conclure de façon rassurante par l’absence de difficulté psychologique particulière chez les enfants adoptés par des couples homosexuels.
L’instrumentalisation de la statistique à des fins idéologiques est ici flagrante.

L’enquête nationale sur les violences envers les femmes en France

Citons aussi l’enquête nationale sur les violences envers les femmes en France (ENVEFF ), commanditée par le Secrétariat d’État aux Droits des femmes et à la formation professionnelle par suite de l’engagement du gouvernement français d’effectuer régulièrement ce type d’enquête, pris lors de la Conférence mondiale des femmes de Pékin en 1995.
La procédure utilisée pour recueillir les informations (un questionnaire très long administré par téléphone, éventuellement en plusieurs fois), est très discutable et la pertinence des réponses très loin d’être assurée. En n’interrogeant que des femmes, on n’accède qu’à la moitié des informations sur les conflits qui ont dégénéré en violences physiques ou psychologiques. On ignore toutes les violences subies par les hommes, en particulier les violences psychologiques, et on ne peut pas savoir si les violences subies par les femmes sont une réponse à celles qu’elles ont pu commettre envers les hommes . Cette enquête, limitée au discours de la femme, est orientée dès sa conception vers sa victimisation et par suite vers la criminalisation de l’homme, sans qu’il soit possible d’observer les relations familiales ni les motivations de celui qu’il faut bien appeler l’accusé. Les résultats ne peuvent être qu’à l’image de cette orientation initiale
Le statut du commanditaire donne enfin un caractère officiel à cette enquête et la conformité des résultats à la volonté des groupes de pression nationaux et internationaux rend difficile toute contestation publique. Élisabeth Badinter , Hervé Le Bras et Marcela Iacub , qui ont contesté au plan scientifique cette enquête, ont subi un déluge d’insultes venant de certains milieux féministes.

L’efficacité comparée des psychothérapies

L’Inserm a effectué une enquête sur l’efficacité comparée des psychothérapies, classées en techniques psychodynamiques (TP) regroupant les psychothérapies analytiques et les psychanalyses, et les techniques cognitivo-comportementalistes (TCC).
Elle est fondée sur ce que l’on appelle une méta enquête : cela consiste à collecter toutes les enquêtes effectuées sur l’efficacité des psychothérapies dans le monde et à en comparer les résultats. On peut certes séparer les troubles psychiques suivant une classification officielle (le DSM ou la CIM 10 par exemple), et comparer l’efficacité des TCC et des TP dans chaque classe. Cette classification génère déjà une perte d’information, deux patients classés dans un même groupe étant considérés comme identiques. Mais on fait l’hypothèse que les patients traités par les TP sont les mêmes que ceux qui sont traités par les TCC dans chacune des catégories, et que l’efficacité d’une psychothérapie ne dépend pas du psychothérapeute.
On considère ici la maladie psychiatrique comme une pathologie somatique, et on évalue l’efficacité des psychothérapies de la même façon que celle d’antibiotiques. C’est réduire la pathologie psychiatrique à une maladie organique, nier l’individualité du patient, du thérapeute et de leur relation. C’est finalement évaluer l’efficacité des thérapies sur l’hypothèse des TCC qui ont tendance à considérer les pathologies psychiatriques comme étant d’origine organique.
Par suite des nombreuses protestations, cette étude a été retirée du site de l’Inserm qui l’avait commanditée. On peut penser qu’elle a été pour cet institut une occasion de bénéficier de crédits et de postes de chercheurs.

La mesure de la discrimination

C. Adida (Stanford University), D. Laitin (Stanford University), M.-A. Valfort (Paris I Panthéon Sorbonne) ont effectué une enquête mesurant les discriminations existant en France . On y trouve les commentaires suivants :
Le “Grand débat sur l’identité nationale” révèle ainsi l’ampleur de la crispation des Français à l’égard de l’islam. Plus précisément, une enquête IFOP de décembre 2009 montre que seulement 19 % des personnes interrogées acceptent la construction de mosquées en France. C’est la proportion la plus faible de ces vingt dernières années. Même après le 11 septembre 2001, 31 % des Français étaient favorables à cette idée. »
Les résultats de l’étude « soulignent donc une réalité dérangeante : dans la République française théoriquement laïque, les citoyens musulmans issus de l’immigration rencontrent, toutes choses égales par ailleurs, des obstacles à l’intégration par l’accès à l’emploi bien plus élevés que leurs homologues chrétiens. »
Il est bien court de qualifier la République de « théoriquement laïque » – ce qui laisse entendre le contraire dans les faits – et la réalité de « dérangeante », – ce qui est exact. Il faut expliquer en quoi, et c’est le contraire de ce qui est suggéré dans l’étude.
Préférer pour un emploi un chrétien à un musulman est fréquent d’après l’étude citée. Admettons. Elles prétendent avoir analysé leurs données toutes choses égales par ailleurs. Soyons clairs : c’est faux. Elles ne font que permuter les noms d’Allah et de Dieu, de musulman et de chrétien, sans prendre en compte toutes les différences comportementales que cela implique. Comment peut-on imaginer deux personnes « différant seulement en fonction de leur religion » ? Elles ne mangent pas la même chose à la cantine, les relations entre les sexes ne sont pas les mêmes, l’argent n’a pas la même valeur, etc. Cette hypothèse revient à nier l’importance d’une religion dans la personnalité des individus, importance pourtant évidente et néglige l’opposition entre « la laïcité et les revendications civiles des religions ». .
Le contexte de cette enquête est ici important et pose question : l’arrivée en France d’immigrants musulmans nombreux et leur naturalisation doivent-elles avoir pour conséquence une adaptation de la société ou inversement leur propre adaptation à la société telle qu’elle existe ? Les auteurs de l’enquête ont répondu à la question en reprochant à la société française la discrimination subie par les musulmans.

Statistiques et sciences de l’éducation

Les sciences de l’éducation fourmillent d’exemples d’analyses statistiques très contestables. J’en donne quelques-unes concernant le redoublement.
La conclusion d’une étude récente est la suivante : « Les études sont formelles : au cours préparatoire, sauf circonstances exceptionnelles, le redoublement est contre-productif. Plus généralement, de l’école primaire au collège, il est inefficace, car il ne permet pas aux élèves de rattraper leur retard, et inéquitable, car il touche surtout les enfants évoluant dans les catégories socioprofessionnelles les plus défavorisées. ». La vérité sur le redoublement est dite. Paraphrasons l’ancien recteur qui est l’auteur de l’étude : « La béquille est inefficace : elle ne permet pas aux unijambistes de courir aussi vite que les autres. » Considérer que cette mesure est inéquitable parce qu’elle touche surtout les enfants de catégories défavorisées est une faute grave : heureusement, on donne une béquille en fonction du besoin de l’élève, pas en fonction de la catégorie sociale des parents !
« Plus on redouble tôt, moins on a de chances de faire des études longues. Ainsi 1 % des élèves de première S ont redoublé le cours préparatoire, alors que c’est le cas de 5 % de ceux qui sont en classe de bac professionnel et 11 % de ceux qui préparent un CAP. » Plus on est faible, moins on est fort : La Palisse a parlé. Mais j’ai la solution : faire redoubler le CP aux meilleurs élèves ! Le redoublement sera alors très efficace, puisque beaucoup de polytechniciens auront redoublé le CP !
Une étude utilise une procédure statistique classique : « quelque 103 binômes ont été constitués à l’issue de la première année, comprenant un élève redoublant son CP et un admis en CE1. Les deux élèves avaient le même niveau scolaire et les mêmes caractéristiques socioprofessionnelles. »9. Cela ne suffit évidemment pas pour que toutes choses soient égales par ailleurs : l’un peut dormir dans le lit de ses parents, l’autre avoir la télévision dans sa chambre et regarder des films pornos etc. Ils n’ont même pas le même quotient intellectuel ! On peut penser (et même souhaiter) que chaque redoublement n’a pas été décidé au hasard, « en aveugle » comme pour tester un médicament, mais suivant d’autres critères non répertoriés.
Alors, quid du redoublement ? Il faut rechercher la meilleure solution dans chaque cas particulier, parmi celles qui sont possibles. Comme en médecine : on pose le diagnostic du patient, on prescrit ensuite la meilleure thérapie adaptée à son cas. Il y a donc deux pistes pour éviter le redoublement : améliorer la formation de l’enseignant, et élargir les orientations possibles.

L’escroquerie intellectuelle

Dans les études précédentes, l’argumentation statistique relève d’une escroquerie intellectuelle.
Elle n’a pour objectif que de donner une apparence scientifique à une idéologie ou à une politique sociale pour la rendre difficilement contestable. Je passe sur la première, qui me parait évidente. L’objectif de la seconde est de faire passer dans l’opinion publique l’adoption d’enfants par des couples homosexuels. La troisième contient toute l’idéologie féministe, très habituée à ce type de manipulation et très violente en cas de contestation. Dans la quatrième, l’objectif implicite de l’étude était la généralisation des TCC dans les psychothérapies, pour diminuer les dépenses de santé. La cinquième prétend mesurer les discriminations pour en accuser la société et la faire évoluer dans le sens voulu. Les sciences de l’éducation ont été créées de toutes pièces pour justifier l’emprise de l’État sur l’école.
Il n’est pas question ici de prendre parti en faveur ou non de ces idéologies, mais simplement de remettre la démarche scientifique à sa place dans les sciences de l’homme et de la société. Les sondages, le « data mining », la modélisation sont des outils fondamentaux d’observation de la société. Un échantillon représentatif permet par exemple d’éviter le biais inévitable dans les observations faites par quelqu’un, et le calcul des probabilités d’évaluer la part de hasard dans les résultats obtenus. Mais la démarche correcte dans les sciences de l’homme et de la société consiste à étudier chaque cas particulier dans son ensemble, autant que possible, et non à le réduire aux mesures quantitatives effectuées, comme dans les analyses précédentes. C’est le principe de l’individualisme méthodologique.
C’est pourquoi « le législateur […] ne deviendra jamais capable, alors que ses prescriptions s’adressent à la totalité de ses sujets ensemble, d’attribuer avec exactitude à chacun d’eux individuellement ce qui convient. » . On ne considère pas l’être humain comme une chose : c’est un sujet qui dispose de son autonomie et non un objet que l’on peut mesure et manipuler. Ce serait une dérive totalitaire.