Mechanistic interpretability आता संशोधन कल्पनेतून product category कडे जात आहे
सॅन फ्रान्सिस्कोच्या स्टार्टअप Goodfire ने Silico नावाचे टूल जारी केले आहे, ज्याचा उद्देश model developers ना training सुरू असताना large language models तपासण्याची आणि प्रभावित करण्याची परवानगी देणे आहे. कंपनीचा दावा सोपा पण महत्त्वाकांक्षी आहे: AI systems बांधणे हे जादूसारखे नसून software engineeringसारखे वाटायला हवे.
हे framing आधुनिक AI मधील एका मुख्य अडचणीला हात घालते. मोठी models आश्चर्यकारकपणे चांगली कामगिरी करू शकतात, पण त्यांना सूक्ष्म पातळीवर समजून घेणे कठीण असते. Developers outputs पाहू शकतात, behavior fine-tune करू शकतात, results benchmark करू शकतात; पण model आतून तसे का वागते याचा स्पष्ट नकाशा बहुतेक वेळा नसतो. त्यामुळे failures diagnose करणे आणि नको असलेल्या tendencies रोखणे कठीण होते.
Mechanistic interpretability ही दरी कमी करू शकते आणि त्या fieldच्या पद्धती अधिक वापरयोग्य product म्हणून पॅकेज करण्याची हीच योग्य वेळ आहे, असा Goodfireचा विश्वास आहे.
Silico ने काय करायचे आहे
कंपनीच्या म्हणण्यानुसार, Silico researchers आणि engineers ना model च्या आत डोकावू देतो आणि training चालू असतानाच वर्तन घडवणारे parameters समायोजित करू देतो. dataset construction पासून model training पर्यंत development च्या अनेक टप्प्यांत मदत करण्यासाठी तयार केलेली स्वतःच्या प्रकारची पहिली off-the-shelf system अशी Goodfire त्याची ओळख करून देते.
Training वर दिलेला भर महत्त्वाचा आहे. अनेक interpretability प्रयत्न आधीच तयार झालेल्या models चे audit करण्यावर केंद्रित होते. Goodfire चा उद्देश ही insights development च्या आणखी आधी आणणे आहे, जेणेकरून model makers त्यांना फक्त नंतरच्या diagnostic tools म्हणून नव्हे तर steering mechanisms म्हणून वापरू शकतील.
जर हे वचनाप्रमाणे काम केले, तर बदल महत्त्वाचा ठरेल. याचा अर्थ असा भविष्य असेल, जिथे developers scale, brute-force experimentation, आणि post hoc safeguards वरच अवलंबून न राहता अधिक precision ने हस्तक्षेप करू शकतील.





