Les Modèles de langage fondés sur l’intelligence artificielle ont-ils des connaissances sociolinguistiques ?
- Type de publi. : Communication dans un congrès
- Date de publi. : 15/03/2024
-
Auteurs :
Jean-Pierre ChevrotTristan DumasJean-Philippe MaguéLouise Tarrade
-
Organismes :
LInguistique et DIdactique des Langues Étrangères et Maternelles
LInguistique et DIdactique des Langues Étrangères et Maternelles
Institut Rhône-Alpin des systèmes complexes
Interactions, Corpus, Apprentissages, Représentations
Interactions, Corpus, Apprentissages, Représentations
Résumé : L’inférence démograpique est un ensemble de méthodes computationnelles permettant de déduire les attributs sociodémographiques (genre, niveau d’éducation, revenu, etc.) d’utilisateurs (d’Instagram, de téléphones portables), à partir des contenus (textes, images) et comportements qu’ils produisent en ligne et de données associées (localisation GPS, réseau de contacts). Les enjeux sont commerciaux, pour cibler publicités et offres, mais ils concernent aussi l’épidémiologie numérique, la prévention ou les sciences politiques (Abitbol et al., 2018; Abitbol & Karsai, 2020, 2020; Ciot et al., 2013; Lasri et al., 2023; Wang et al., 2019). Dans le champ sociolinguistique, la capacité d’inférer des informations à partir des usages du langage renvoie à la notion d’indexicalité. Les traits indexicaux sont les aspects d’une langue associés à des informations sociales (origine régionale, affiliation à un groupe), individuelles (émotion, état de santé) ou contextuelles (nature de la situation) (Foulkes, 2010). Même si la notion reste débattue du fait des conceptions simplistes qui pourraient en découler (Eckert, 2008), elle fournit une base conceptuelle et des outils pour mettre en perspective les travaux computationnels sur l’inférence démographique. Alors que les travaux du domaine computationnel testent l’efficacité des algorithmes ou utilisent leurs sorties à d’autres fins, nous allons comparer les décisions prises par des Modèles de langage fondés sur l’IA à propos du profil social d’utilisateurs de X (ex-Twitter) aux mêmes décisions prises par un échantillon de locuteurs. Dans la base SoSweet (www.ortolang.fr/market/corpora/sosweet) comptant 658 747 413 tweets produits par 2 878 562 utilisateurs, nous avons utilisé un sous-corpus de 4 974 utilisateurs dont le genre, l’âge, et le statut économique ont été estimés par observation directe des profils et par projection des coordonnées GPS sur une carte de France des revenus (INSEE). D’une part, ce sous-corpus a permis l’examen des relations entre traits langagiers (fréquence des émojis, des graphies non-standard…) et profils sociaux des utilisateurs. D’autre part il a servi de base pour entrainer un modèle de langage (CamemBERT, Martin et al., 2020) à identifier genre, revenu et âge des utilisateurs. Les décisions de ce Modèle de langage ainsi que celles d’autres modèles plus récents (Chat GPT, etc.) seront comparées aux jugements effectués sur le même matériel par environ 200 participants lors d’une enquête réalisée en ligne et utilisant plusieurs méthodes d’exploration des perceptions en sociolinguistique. Nous centrerons notre présentation sur les divergences et les convergences dans les décisions prises par les Modèles de langage et les échantillons de locuteurs. Nous nous demanderons si ces divergences et convergences dépendent des trois catégories testées (âge, revenu, genre), d’un usage particulier de la variété de français numérique (contenu lexical, présence d’émojis...) ou du profil des répondants à l’enquête (genre, niveau de diplôme, familiarité avec les médias sociaux). Notre objectif est d’améliorer notre connaissance globale du fonctionnement de l’indexicalité.
Source