L’afflux d’IA sur l’internet est désormais mesurable

Pendant plusieurs années, les plaintes concernant le “AI slop” ont été faciles à trouver et difficiles à quantifier. Un nouveau préprint de chercheurs de l’Imperial College London, de Stanford University et de l’Internet Archive change la donne. Selon l’étude, environ 35 % de tous les nouveaux sites sont soit générés par l’IA, soit assistés par l’IA, offrant l’un des instantanés numériques les plus nets à ce jour de la profondeur avec laquelle le contenu rédigé par des machines s’est installé sur le web.

Les chercheurs ont utilisé la Wayback Machine de l’Internet Archive pour constituer un échantillon représentatif de pages web et ont testé plusieurs approches de détection de l’IA avant d’opter pour les outils de Pangram Labs, qu’ils ont jugés produire les résultats les plus cohérents dans leur évaluation. L’étude reconnaît aussi ouvertement une limite centrale de ce type de travail: les outils de détection de l’IA sont imparfaits. Cette réserve compte, car toute affirmation sur l’ampleur du contenu généré par des machines dépend nécessairement de la qualité des méthodes utilisées pour l’identifier.

Même avec cette prudence, les résultats sont frappants. Les chercheurs ne demandaient pas seulement quelle part du web est désormais façonnée par des systèmes d’IA, mais aussi si l’écriture elle-même présente des propriétés différentes de celles du contenu rédigé par des humains. Leur réponse, du moins dans deux domaines majeurs, était oui.

L’écriture générée par l’IA paraît nettement plus positive

L’un des résultats les plus marquants de l’étude concerne le ton. En utilisant une analyse de sentiment, les chercheurs ont constaté que le score moyen de sentiment positif des sites générés ou assistés par l’IA était supérieur de 107 % à celui des sites non liés à l’IA. En termes plus simples, l’écriture fortement assistée par l’IA penchait beaucoup plus vers l’optimisme.

Les auteurs interprètent ce schéma comme le symptôme de ce qu’ils décrivent comme la nature “complaisante et excessivement optimiste” des grands modèles de langage actuels. Si ce diagnostic se confirme, les implications dépassent les textes marketing agaçants ou les billets de blog formatés. Cela suggère que les systèmes d’IA pourraient modifier la texture émotionnelle du web public en rendant le langage en ligne plus poli, plus approbateur et moins disposé à paraître dur, incertain ou sceptique.

Ce genre de glissement tonal peut être subtil mais important. L’écriture ne se contente pas de transmettre de l’information. Elle signale la gravité, le doute, le jugement, l’humour, le conflit et la perspective. Si un texte assisté par l’IA lisse systématiquement ces aspérités, le résultat n’est pas seulement un style différent. C’est une atmosphère différente. La formule de l’étude pour décrire cet effet est mémorable: l’internet devient “artificiellement joyeux”.

Cela ne signifie pas que tout site positif est écrit par une machine, ni que tous les systèmes d’IA produisent la même voix. Mais le résultat global suggère qu’à mesure que le contenu généré par l’IA se développe, il pourrait pousser le web vers un registre émotionnel plus étroit. Sur un média déjà saturé d’optimisation, de branding et de pression algorithmique, ce type de positivité uniforme peut rendre les espaces numériques plus plats et moins dignes de confiance.

Le web pourrait aussi devenir moins divers sur le plan idéologique

Les chercheurs ont mis en évidence un autre schéma qui pourrait s’avérer encore plus déterminant avec le temps. Les sites générés ou assistés par l’IA ont obtenu des scores d’environ 33 % plus élevés pour les mesures de similarité sémantique que les sites créés par des humains. Leur conclusion était que l’usage de l’IA semble réduire l’éventail d’idées uniques et de points de vue divers représentés en ligne.

La similarité sémantique ne signifie pas une duplication littérale, mais elle indique une convergence. Si les systèmes d’IA sont entraînés sur des corpus qui se chevauchent et optimisés pour des réponses largement acceptables, il est logique que leurs sorties commencent à se ressembler dans leur manière de sonner et de raisonner. Le résultat est un web où davantage de pages traitent les mêmes sujets avec des formulations légèrement différentes mais conceptuellement proches.

Ce constat touche au cœur d’une inquiétude de longue date au sujet de l’IA générative: non seulement elle peut inonder l’internet de contenu, mais elle peut le faire tout en comprimant les différences. Un web rempli de pages qui paraissent variées au premier coup d’œil mais se regroupent autour des mêmes schémas rhétoriques et des mêmes présupposés serait un environnement intellectuel plus pauvre, même si chaque page reste lisible et adaptée au référencement.

Toutes les craintes concernant le contenu IA n’ont pas été confirmées

L’étude est remarquable non seulement par ce qu’elle a trouvé, mais aussi par ce qu’elle n’a pas trouvé. Les chercheurs ont testé six théories sur le contenu web écrit par l’IA, et quatre n’ont pas été confirmées. Plus notable encore, ils s’attendaient à ce que l’IA contribue à une hausse de la désinformation, mais leur analyse n’a pas soutenu cette hypothèse.

Ce résultat négatif est important. Le débat public autour du AI slop suppose souvent que le contenu généré par des machines signifiera inévitablement davantage de faussetés. Cette étude ne prouve pas l’inverse, mais elle suggère que le tableau est plus complexe. L’IA peut modifier le web de manière mesurable sans nécessairement accroître la désinformation de la façon que les chercheurs s’attendaient à détecter.

Cette nuance rend le travail plus utile. Elle résiste à la tentation de considérer l’IA comme une explication universelle de toute baisse de qualité en ligne. Elle pointe plutôt vers un diagnostic plus précis: les preuves les plus solides de cette étude concernent le ton et la similarité, et non une simple explosion de désinformation détectable.

Un internet en mutation devient visible dans les données

La principale valeur de l’étude est de faire passer le débat sur le AI slop au-delà de l’anecdote. Beaucoup d’internautes ont eu le sentiment que l’écriture numérique est devenue plus générique, plus résolument optimiste et plus répétitive depuis le lancement de ChatGPT en 2022. Cette recherche ne tranche pas la question, mais elle donne une structure analytique à ces impressions.

Si environ 35 % des nouveaux sites impliquent désormais du contenu généré ou assisté par l’IA, alors les systèmes génératifs ne sont plus un courant secondaire de la publication en ligne. Ils constituent une force majeure dans la manière dont le web est rédigé. Et si ces systèmes orientent systématiquement le contenu vers la gaieté et la similarité sémantique, alors le changement n’est pas seulement quantitatif. Il est culturel.

C’est peut-être là l’implication la plus troublante de l’étude. Le danger du AI slop ne réside pas seulement dans le fait de remplir le web de contenus de faible valeur. Il pourrait aussi remodeler la voix du web, lisser le désaccord, l’imprévisibilité et l’amplitude expressive au profit d’un texte plus fluide, plus sûr et plus enclin à plaire. Un internet faussement heureux reste un internet transformé, et ce changement devient plus difficile à ignorer.

Cet article s’appuie sur un reportage de Wired. Lire l’article original.

Originally published on wired.com