Discriminations et préjugés… une IA biaisée ?

Données subjectives, préjugés, inégalités et manque d'éthique. L'intelligence artificielle est-elle sexiste ? Quand les biais algorithmiques de l'IA renforcent les discriminations…

Quels sont les différents types de biais algorithmiques ? Comment fonctionnent-ils ? Quels sont les enjeux pour notre société ?

Sur base de l’expertise de Jean François Raskin, professeur et chercheur au département des sciences informatiques de l’ULB, Faculté des Sciences.

Police, éducation, santé, réseaux sociaux, transport… Tous ces domaines ont quelque chose en commun que vous ne soupçonnez sans doute pas : ils utilisent des algorithmes.

Présents partout dans notre société moderne, les algorithmes jouent un rôle crucial dans l’organisation des tâches, l’optimisation et la personnalisation. Ils permettent d’automatiser certaines fonctions, d’analyser d’énormes quantités de données et de fournir des recommandations pertinentes.

C'est le cas, par exemple, sur les réseaux sociaux : « En fonction de ce que vous lisez, l’algorithme va vous abreuver avec des informations qui sont liées à des sources que vous consultez souvent » explique Jean François Raskin. Les utilisateurs vivent alors dans des bulles d’informations et les clivages d’idées se renforcent.

Le souci des sources et les différents biais algorithmiques

Les machine learning, comme ChatGPT, fonctionnent grâce à des données existantes. Si ces données contiennent des biais, l’algorithme les reproduira de façon systématique, leur donnant une apparence d’objectivité. « ChatGPT a absorbé 220 millions de livres pour créer sa base de données. A cette échelle, il est assez difficile d’exclure les biais du jeu de données », indique Jean-François Raskin.

Le danger d’un biais algorithmique est qu’il peut produire des discriminations. Lorsque les données d’entraînement des systèmes d’intelligence artificielle sont teintées d’inégalités passées ou de préjugés, elles peuvent amplifient les injustices existantes.

Par exemple, si dans la masse de textes donnés à ChatGPT il y a des anciens livres qui parlent de la famille et du rôle de la femme, rôle qui a largement évolué jusqu’à aujourd’hui, il est possible que ChatGPT reproduise des biais de stéoréotypes ou biais historiques.

D'autres biais peuvent être produits par les utilisateurs eux-mêmes. Il s'agit alors de biais de feedback. Si l’algorithme s’appuie sur les interactions et les retours des utilisateurs pour s’améliorer et que ceux-ci véhiculent des préjugés, les prochains résultats de l’algorithme vont être faussés. Il a, par exemple, suffi d'une journée à Tay, le chatbot de Microsoft, pour qu’il génère des messages antisémites et misogynes, qualifiant notamment le féminisme de “cancer” pour la société.

On rencontre également des biais de représentation. Comme son nom l’indique, il s’agit d’un biais qui se crée lorsque les données ne sont pas “complètes” et sous-représentent certains groupes. Illustrons cela avec un exemple concret. Des chercheurs mettent au point un nouveau médicament qu’ils testent sur un groupe de patients. S’ils ne choisissent que des patients avec des symptômes légers de la maladie, il y aura un biais dans la sélection des données, celui de la représentation. L’étude, en ne prenant pas en compte les patients atteints des formes graves de la maladie, délivre des résultats biaisés qui ne reflètent pas l’efficacité du médicament sur l’ensemble de la population. Conséquence ? Des conclusions erronées peuvent conduire à des traitements inadaptés.

Ce biais est un enjeu pour les systèmes de recrutement automatisés avec un algorithme chargé de trier les candidatures et d’identifier les profils les plus pertinents pour un poste. Par exemple, si cet algorithme est entraîné sur une base de données de candidatures précédentes et que pour un certain poste il y a eu majoritairement des candidatures masculines, l’algorithme risque de favoriser des candidatures masculines.

En fait, l’algorithme privilégie les caractéristiques les plus présentes dans la base de données à défaut d’autres. Dans notre exemple, la conséquence peut être une discrimination involontaire des femmes à l’embauche.

Tous ces biais et stéréotypes au sein des algorithmes existent déjà dans notre société, mais le danger, selon Jean-François Raskin, est « qu'ils vont être appris et systématisés. Une fois que l’algorithme prend une décision, il ne va pas forcément la justifier. Les sources ne sont pas visibles ». Finalement, « la question des biais algorithmiques dépassent l’informatique et la technologie, c’est avant tout une question de société ».

Des solutions ?

La solution pour éviter et prévenir les biais algorithmiques est d’avoir une connaissance fine des jeux de données utilisés, un esprit critique pour détecter les biais et une législation adéquate.

Par exemple, l’initiative européenne BLOOM - financée par des fonds publics - entraîne un modèle équivalent à ChatGPT avec un filtrage important au niveau des textes utilisés et une concertation des différentes expertises pluridisciplinaires (philosophes, sociologues et historiens travaillent main dans la main avec les programmateurs).