Trop d’anglais et pas assez de wolof… Pourquoi des Africains tentent d’entraîner l’IA aux langues locales
De 1 500 à 3 000, c’est le nombre de langues endogènes en Afrique, représentant environ un quart des langues parlées dans le monde, selon l’Unesco. Cependant, ces langues sont largement absentes des modèles d’intelligence artificielle (IA). Par exemple, ChatGPT, qui est utilisé par près d’un milliard de personnes chaque mois, ne parvient à reconnaître que 10 à 20 % des phrases écrites en haoussa, une langue parlée par environ 80 millions de locuteurs au Nigeria et au Niger, selon une étude de la revue scientifique américaine Nature parue à l’été 2025.
Cette situation soulève des préoccupations quant à l’inclusivité et à la représentation linguistique dans les technologies modernes. Les initiatives visant à intégrer les langues locales dans les systèmes d’IA se multiplient, avec des chercheurs et des développeurs africains qui s’efforcent de créer des modèles capables de comprendre et de traiter ces langues. Ces efforts visent non seulement à préserver la diversité linguistique, mais aussi à garantir que les outils numériques soient accessibles à toutes les populations, indépendamment de leur langue maternelle.
L’absence de reconnaissance des langues africaines dans les systèmes d’IA pourrait avoir des conséquences sur l’accès à l’information et sur l’inclusion sociale des locuteurs de ces langues. En effet, la domination des langues coloniales dans le domaine technologique pourrait renforcer les inégalités existantes.
Source : Unesco, Nature (2025).
