फक्त भाषा नाही, कोडही AI एजंट्ससाठी मुख्य आधार म्हणून पुढे येत आहे
Meta, Stanford, आणि University of Illinois Urbana-Champaign येथील संशोधकांच्या एका नव्या पुनरावलोकन पेपरमध्ये आधुनिक AI एजंट्स प्रत्यक्षात कसे काम करतात याबाबत थेट मांडणी करण्यात आली आहे: कोड आता केवळ आउटपुट स्वरूप नाही, तर तो एक केंद्रीय माध्यम आहे ज्याद्वारे एजंट्स विचार करतात, कृती करतात, आणि समन्वय साधतात. The Decoder च्या वर्णनानुसार, हा पेपर लक्ष केवळ language model वरून हटवून त्या भोवतालच्या सॉफ्टवेअर सिस्टीमकडे वळवतो, जी एका stateless मॉडेलला operating agent मध्ये रूपांतरित करते.
लेखक त्या भोवतालच्या थराला “हार्नेस” म्हणतात. यात tools, interfaces, sandboxed execution environments, memory, permission boundaries, testing infrastructure, execution loops, आणि feedback channels यांचा समावेश आहे. त्यांचा मुद्दा सरळ आहे: त्या scaffolding शिवाय, मॉडेल केवळ responses तयार करणारे यंत्र राहते. त्यासह, मॉडेल टप्प्याटप्प्याने योजना आखू शकते, execute करू शकते, परिणाम तपासू शकते, आणि दीर्घ task horizons वर काम सुरू ठेवू शकते.
हार्नेस का महत्त्वाचा आहे
हे पुनरावलोकन दीर्घकाळ चालणाऱ्या agent systems ला तीन भागांच्या संयोगाप्रमाणे मांडते. पहिला म्हणजे planning आणि reasoning सारखी मॉडेलची native capabilities. दुसरा म्हणजे मॉडेलभोवती दिलेली infrastructure. तिसरा म्हणजे एजंट काम करताना लिहितो किंवा वापरतो तो code, ज्यात scripts, helper tools, tests, workflows, आणि reusable skills यांचा समावेश आहे. या मांडणीत, अधिक सक्षम एजंट्ससाठी bottleneck increasingly मॉडेल एकट्यापेक्षा software environment ची reliability आणि transparency असू शकते.
लेखकांचा युक्तिवाद आहे की code मध्ये असे अनेक गुण आहेत जे त्याला एजंट वर्तनासाठी विशेषतः उपयुक्त बनवतात. तो executable आहे, म्हणजे outputs अशा operations मध्ये बदलता येतात ज्यांची तपासणी करता येते. तो traceable आहे, कारण मधली पावले structured artifacts म्हणून नोंदवता येतात. आणि तो persistent आहे, ज्यामुळे एजंट्सना अनेक टप्प्यांवर पुन्हा उचलता येईल अशा स्वरूपात प्रगती साठवता येते.
हा दृष्टिकोन स्पष्ट करतो की सध्याच्या commercial systems मध्ये model आणि software runtime यांच्यातील सीमारेषा का धूसर होत आहे. The Decoder नोंद करतो की Claude Code आणि OpenAI चे Codex यांसारख्या systems आधीच या तत्त्वावर कार्य करत आहेत, model responses ला अंतिम endpoint मानण्याऐवजी tool use आणि controlled execution वर अवलंबून आहेत.
एक्झिक्युशन नव्या जोखमी आणते
हे पेपर हार्नेसला सोपा उपाय म्हणून सादर करत नाही. लेखक हेही चेतावणी देतात की सध्याचे software tests खोटी खात्रीची भावना निर्माण करू शकतात. अपूर्ण किंवा अरुंद test suites मुळे सिस्टीम्स विश्वासार्ह वाटू शकतात, पण failure modes लपून राहू शकतात, विशेषतः जेव्हा एजंट्स चालता-चालत code तयार करत किंवा बदलत असतात.
ही चिंता महत्त्वाची आहे, कारण tests आणि execution traces यांना अनेकदा यशाची objective चिन्हे मानले जाते. पुनरावलोकन असा युक्तिवाद करते की त्यांना अधिक automation नव्हे, तर अधिक transparent evaluation mechanisms आवश्यक आहेत. प्रत्यक्षात, याचा अर्थ एजंटला काय करण्याची परवानगी होती, त्याने प्रत्यक्षात काय केले, कोणते evidence गोळा झाले, आणि कोणत्या प्रकारच्या failures दुर्लक्षित झाले असतील याची छाननी करणे असा होतो.
याचा व्यापक अर्थ असा की AI safety आणि capability आता engineering discipline शी अधिक घट्ट जोडल्या जात आहेत. Sandboxes, permissions, logging, test design, आणि tool boundaries आता peripheral implementation details राहिलेले नाहीत. त्या सिस्टीमच्या intelligence चा भाग आहेत आणि त्याच्या risk surface चा देखील भाग आहेत.
AI उद्योगासाठी नवीन पुनर्मांडणी
ही पुनर्मांडणी अशा वेळी येते आहे, जेव्हा agentic systems demos मधून operational products कडे जात आहेत. जर पेपरचा thesis योग्य असेल, तर autonomy मधील पुढील मोठे लाभ models फक्त scale केल्याने कमी आणि त्यांच्या आसपासच्या software structures सुधारल्याने अधिक येऊ शकतात. अधिक चांगले tool interfaces, मजबूत memory systems, स्पष्ट permissions, अधिक rigorous test environments, आणि अधिक faithful audit trails हे model size मध्ये आणखी एक उडी एवढेच महत्त्वाचे ठरू शकतात.
हे evaluation standards ला देखील विकसित व्हावे लागेल असे सूचित करते. एखाद्या एजंटचे मोजमाप फक्त benchmark score किंवा single-turn response ने करणे म्हणजे system प्रत्यक्ष कामे सुरक्षित आणि विश्वासार्हपणे पूर्ण करू शकतो का हे ठरवणाऱ्या infrastructure च्या भूमिकेकडे दुर्लक्ष करणे होय. executable workflows आणि harness design वरचा पेपरचा भर AI performance च्या अधिक systems-level दृष्टिकोनाकडे निर्देश करतो.
एजंट्स तयार करणाऱ्या developers आणि कंपन्यांसाठी संदेश व्यावहारिक आहे. जर code हा एजंट्स कसे विचार करतात आणि कृती करतात याचा भाग असेल, तर मॉडेलभोवतालच्या runtime ची गुणवत्ता हा एक first-order product decision बनतो. त्यात कोणते tools उपलब्ध करून दिले आहेत, outputs कशी verify केली जातात, memory कशी stored केली जाते, आणि एजंटला किती operational freedom दिली जाते हे येते.
हे पुनरावलोकन असे म्हणत नाही की models आता महत्त्वाचे नाहीत. उलट, capability ही model आणि environment यांच्या परस्परसंवादातून निर्माण होते, असे ते म्हणते. त्या अर्थाने, हार्नेस हा accessory नाही. तो prediction ला sustained action मध्ये रूपांतरित करणारा mechanism आहे.
हा लेख The Decoder च्या रिपोर्टिंगवर आधारित आहे. मूळ लेख वाचा.
Originally published on the-decoder.com

