L'aplatissement du langage

Malgré l'accent mis sur le "grand" dans les grands modèles de langage, la diversité de leurs résultats s'avère remarquablement petite, et elle peut faire glisser l'expression humaine vers le bas. Une nouvelle étude examinant l'adoption généralisée d'outils d'écriture assistés par IA a trouvé des preuves mesurables que le texte assisté par IA converge vers une gamme plus étroite de styles, de vocabulaires et de modèles rhétoriques que ce que produit l'écriture purement humaine.

Ces découvertes ajoutent du poids empirique à une préoccupation que les linguistes, les éducateurs et les commentateurs culturels ont soulevée depuis que les outils d'IA générative sont devenus populaires : que l'externalisation de l'écriture à des systèmes d'IA entraînés pour produire le texte le plus probable statistiquement va progressivement éroder la richesse et la diversité de l'expression humaine.

Mesurer l'effet d'homogénéisation

L'équipe de recherche a analysé des millions d'échantillons de texte dans plusieurs domaines, notamment les articles académiques, les communications commerciales, les publications sur les réseaux sociaux, l'écriture créative et le journalisme, en comparant les pièces écrites avant et après l'adoption généralisée des assistants d'écriture assistés par IA.

Les résultats ont révélé des modèles de convergence cohérents. Les textes assistés par IA ont montré une diversité lexicale réduite, utilisant une gamme plus petite de mots distincts par rapport au nombre total de mots. Les structures de phrases sont devenues plus uniformes, se gravitant vers une gamme moyenne de longueurs et de complexité tout en évitant à la fois les constructions très simples et élaborées complexes qui caractérisent l'écriture humaine naturelle.

Plus remarquablement, les textes assistés par IA provenant de différents auteurs, cultures et langues ont montré une plus grande similitude les uns avec les autres que les textes purement humains comparables. Les outils d'IA semblaient agir comme une fonction de lissage stylistique, atténuant les excentricités individuelles, les influences culturelles et la voix personnelle qui rendent l'écriture humaine distinctive.

Le mécanisme de convergence

L'homogénéisation se produit par un mécanisme simple : les grands modèles de langage génèrent du texte en prédisant le mot suivant le plus probable en fonction des modèles dans leurs données d'entraînement. Ce processus favorise intrinsèquement les modèles communs par rapport aux rares, les expressions conventionnelles par rapport aux idiosyncrasies et les structures conventionnelles par rapport aux expérimentales.

Lorsque les humains utilisent ces outils comme assistants d'écriture, en acceptant les complétions suggérées ou en utilisant l'IA pour rédiger des versions initiales, ils intègrent cette moyenne statistique dans leur propre résultat. Au fil du temps, à mesure que l'écriture assistée par IA devient la norme, la ligne de base de ce qui ressemble à une écriture normale se déplace vers les modèles préférés par l'IA.

L'effet est aggravé par une boucle de rétroaction. À mesure que plus de texte généré par l'IA apparaît en ligne, il devient des données d'entraînement pour les futurs modèles d'IA. Ces modèles plus récents apprennent d'un corpus de plus en plus homogénéisé, produisant des résultats encore plus uniformes. Les chercheurs décrivent cela comme une spirale de rétrécissement.

Conséquences culturelles et intellectuelles

Le langage n'est pas simplement un véhicule pour transmettre des informations. Il façonne la façon dont les gens pensent, quels concepts ils peuvent exprimer et comment ils comprennent le monde. Différents styles d'écriture reflètent différentes façons de traiter l'expérience. Lorsque ces styles convergent, la diversité sous-jacente de la pensée peut également converger.

La recherche a trouvé des préoccupations particulières dans la rédaction académique, où le jargon disciplinaire et les conventions rhétoriques spécialisées servent des fonctions épistémologiques importantes. Les outils d'IA tendent à lisser ces différences disciplinaires, produisant un texte qui se lit plus comme une prose à usage général que comme un discours spécialisé.

L'écriture créative a montré les effets les plus dramatiques. Les fictions et la poésie assistées par IA ont présenté considérablement moins d'expérimentation avec la forme, la voix et la structure narrative que les œuvres purement humaines comparables.

La dimension multilingue

L'effet d'homogénéisation est particulièrement prononcé dans les langues. Les outils d'écriture d'IA, principalement entraînés sur des données en langue anglaise, ont tendance à imposer des modèles rhétoriques en anglais même lors de la génération de textes dans d'autres langues. Les écrivains utilisant l'assistance de l'IA en mandarin, arabe, espagnol et autres langues ont produit du texte mesurément plus similaire aux modèles en langue anglaise que le texte écrit sans assistance de l'IA.

Cela représente une forme d'impérialisme linguistique et culturel qui fonctionne par une optimisation algorithmique plutôt que par le pouvoir politique. Les traditions rhétoriques et les conventions stylistiques qui distinguent différentes traditions littéraires sont silencieusement érodées par des outils qui ont internalisé les modèles dominés par l'anglais par défaut.

Les défenseurs de la préservation des langues ont signalé cela comme une préoccupation sérieuse pour les langues plus petites et les traditions littéraires qui manquent de grands corpus numériques.

Réaction et solutions

Les partisans des outils d'écriture d'IA soutiennent qu'une prose plus claire et standardisée sert mieux la communication que l'écriture idiosyncrasique. Dans les contextes professionnels, la cohérence et la clarté sont valorisées par rapport au style individuel.

Cependant, les chercheurs notent que le choix entre la diversité et la normalisation doit être conscient, pas un effet secondaire accidentel de la conception algorithmique. Ils proposent plusieurs interventions : des outils d'IA avec des modes de diversité qui introduisent délibérément de la variation, une curation des données d'entraînement qui priorise la diversité stylistique et des fonctionnalités de transparence qui mettent en évidence où les modèles d'IA influencent le texte d'un utilisateur.

La recherche finit par poser une question qui va au-delà de la technologie : à une époque où les algorithmes médiatisent de plus en plus l'expression humaine, qui décide ce qui compte comme une bonne écriture ? Si la réponse est un modèle statistique s'optimisant pour la moyenne, les voix uniques et les traditions qui rendent la langue humaine riche peuvent être le prix à payer.

Cet article est basé sur un reportage de Gizmodo. Lire l'article original.