On peut dire qu’un algorithme fonctionne comme une recette de cuisine où les ingrédients seraient les données et la recette le code : si les ingrédients (les données) sont de mauvaise qualité, avec des biais par exemple, le résultat ne peut qu’être décevant. La plupart du temps, les biais proviennent des données et cela se produit de deux manières.
En premier lieu, ils peuvent être le résultat d’une mauvaise collecte. Imaginons par exemple qu’on cherche à déterminer le loyer moyen que paient les gens qui louent leur logement. Si les data scientists sont parisiens et récupèrent la base de données de leur ville, ils vont obtenir un résultat élevé par rapport à la moyenne nationale. Il sera biaisé par les loyers de Paris.
La transmission d’un biais s’effectue donc au travers des données choisies (la « data »). Si les data scientists n’ont pas conscience que les loyers sont moins élevés dans les villes de taille moyenne et en zone rurale que dans les grandes villes et qu’ils entraînent un algorithme à prédire le prix du loyer sur ces données-là, alors ses prédictions seront biaisées aussi. Le biais d’une IA peut provenir à l’origine d’un biais cognitif humain, qui se transmet dans les données choisies qui sont biaisées, puis elles influencent ensuite les résultats en s’étant transformées en un biais algorithmique.
En deuxième lieu, les biais peuvent émaner d’une situation déjà biaisée et qu’un algorithme pourrait amplifier. Comme une intelligence artificielle qui baserait son apprentissage sur des données historiquement biaisées. Si, depuis toujours, il existe une discrimination des femmes dans une entreprise, se baser sur les données passées pour évaluer le potentiel d’une candidate, même plus brillante qu’un concurrent masculin, lui sera défavorable. Si, historiquement, les femmes sont peu représentées, l’algorithme pourra en déduire de manière erronée qu’elles ont un profil moins désirable.
La suite ici : Comment veiller à ce que les biais humains n’imprègnent pas les algorithmes ?