L’interprétabilité mécaniste passe de l’idée de recherche à une catégorie de produit

La startup de San Francisco Goodfire a lancé un outil appelé Silico, dont l’objectif est de permettre aux développeurs de modèles d’inspecter et d’influencer les grands modèles de langage pendant l’entraînement. Le message de l’entreprise est simple mais ambitieux: construire des systèmes d’IA devrait ressembler moins à de l’alchimie et davantage à de l’ingénierie logicielle.

Ce cadrage touche à l’une des frustrations centrales de l’IA moderne. Les grands modèles peuvent offrir des performances remarquables tout en restant difficiles à comprendre de manière granulaire. Les développeurs peuvent observer les sorties, affiner le comportement et comparer les résultats, mais ils disposent souvent d’une carte peu claire expliquant pourquoi un modèle se comporte comme il le fait en interne. Cela rend les défaillances plus difficiles à diagnostiquer et les tendances indésirables plus difficiles à prévenir.

Goodfire parie que l’interprétabilité mécaniste peut réduire cet écart et que le moment est venu d’emballer les méthodes du domaine dans un produit plus utilisable.

Ce que Silico est censé faire

Selon l’entreprise, Silico permet aux chercheurs et aux ingénieurs de regarder à l’intérieur d’un modèle et d’ajuster les paramètres qui façonnent son comportement pendant que l’entraînement est encore en cours. Goodfire le présente comme le premier système prêt à l’emploi de ce type, conçu pour aider les développeurs à déboguer plusieurs étapes de la création d’un modèle, de la construction du jeu de données à l’entraînement.

L’accent mis sur l’entraînement est important. De nombreux efforts d’interprétabilité se sont concentrés sur l’audit des modèles une fois qu’ils étaient déjà construits. L’objectif de Goodfire est d’amener ces enseignements plus tôt dans le développement afin que les créateurs de modèles puissent les utiliser comme mécanismes d’orientation, et pas seulement comme outils de diagnostic après coup.

Si cela fonctionne comme annoncé, le changement serait significatif. Il laisserait entrevoir un avenir dans lequel les développeurs pourraient intervenir avec plus de précision, plutôt que de s’appuyer בעיקר sur l’échelle, l’expérimentation par force brute et des garde-fous a posteriori.