कोड, सिर्फ भाषा नहीं, AI एजेंट्स का मुख्य आधार बनता जा रहा है
मेटा, स्टैनफोर्ड और यूनिवर्सिटी ऑफ़ इलिनॉय अर्बाना-शैम्पेन के शोधकर्ताओं की एक नई समीक्षा पत्रिका आधुनिक AI एजेंट्स के काम करने के तरीके पर सीधा तर्क देती है: कोड अब केवल एक आउटपुट फ़ॉर्मेट नहीं रह गया है, बल्कि वह एक केंद्रीय माध्यम है जिसके जरिए एजेंट तर्क करते हैं, कार्य करते हैं और समन्वय बनाते हैं। The Decoder के वर्णन के अनुसार, यह पेपर ध्यान को केवल भाषा मॉडल से हटाकर उस आसपास के सॉफ़्टवेयर सिस्टम पर ले जाता है जो एक स्टेटलेस मॉडल को एक सक्रिय एजेंट में बदलता है।
लेखक उस आसपास की परत को “हार्नेस” कहते हैं। इसमें टूल, इंटरफेस, सैंडबॉक्स्ड निष्पादन वातावरण, मेमोरी, अनुमति सीमाएँ, परीक्षण अवसंरचना, निष्पादन लूप और फीडबैक चैनल शामिल हैं। उनका तर्क सीधा है: इस ढांचे के बिना, मॉडल केवल प्रतिक्रियाएँ उत्पन्न करने वाली प्रणाली बना रहता है। इसके साथ, मॉडल क्रमिक रूप से योजना बना सकता है, निष्पादित कर सकता है, परिणामों की जांच कर सकता है, और लंबे कार्य-क्षेत्र में काम जारी रख सकता है।
हार्नेस क्यों महत्वपूर्ण है
समीक्षा लंबे समय तक चलने वाले एजेंट सिस्टम को तीन हिस्सों के संयोजन के रूप में प्रस्तुत करती है। पहला, मॉडल की मूल क्षमताएँ, जैसे योजना बनाना और तर्क करना। दूसरा, मॉडल के चारों ओर दी गई अवसंरचना। तीसरा, वह कोड जिसे एजेंट काम करते समय लिखता या उपयोग करता है, जिसमें स्क्रिप्ट, सहायक टूल, टेस्ट, वर्कफ़्लो और पुन: उपयोग योग्य कौशल शामिल हैं। इस दृष्टिकोण में, अधिक सक्षम एजेंटों के लिए बाधा increasingly मॉडल के अलग अस्तित्व की बजाय सॉफ़्टवेयर वातावरण की विश्वसनीयता और पारदर्शिता हो सकती है।
लेखकों का तर्क है कि कोड में कई ऐसे गुण हैं जो इसे एजेंट व्यवहार के लिए खास तौर पर उपयोगी बनाते हैं। यह निष्पादन योग्य है, जिसका अर्थ है कि आउटपुट को ऐसी कार्रवाइयों में बदला जा सकता है जिन्हें परखा जा सके। यह ट्रेस करने योग्य है, क्योंकि मध्यवर्ती चरणों को संरचित कलाकृतियों के रूप में रिकॉर्ड किया जा सकता है। और यह स्थायी है, जिससे एजेंट अपनी प्रगति को ऐसे रूप में सहेज सकते हैं जिसे वे कई चरणों में आगे बढ़ा सकें।
यह दृष्टिकोण समझाता है कि वर्तमान व्यावसायिक सिस्टम मॉडल और सॉफ़्टवेयर रनटाइम के बीच की रेखा को क्यों धुंधला कर रहे हैं। The Decoder का कहना है कि Claude Code और OpenAI का Codex जैसे सिस्टम पहले से ही इसी सिद्धांत पर काम करते हैं, जहाँ मॉडल प्रतिक्रियाओं को अंतिम बिंदु मानने के बजाय टूल उपयोग और नियंत्रित निष्पादन पर भरोसा किया जाता है।
निष्पादन नए जोखिम लाता है
पेपर हार्नेस को किसी सरल समाधान के रूप में प्रस्तुत नहीं करता। लेखक यह भी चेतावनी देते हैं कि मौजूदा सॉफ़्टवेयर टेस्ट झूठी आत्मविश्वास की भावना पैदा कर सकते हैं। अधूरे या सीमित टेस्ट सूट सिस्टम को भरोसेमंद दिखा सकते हैं, जबकि विफलता के तरीकों को छिपा सकते हैं, खासकर तब जब एजेंट चलते-चलते कोड बना या संशोधित कर रहे हों।
यह चिंता महत्वपूर्ण है क्योंकि टेस्ट और निष्पादन ट्रेस को अक्सर सफलता के वस्तुनिष्ठ संकेतक माना जाता है। समीक्षा का तर्क है कि उन्हें सिर्फ अधिक स्वचालन नहीं, बल्कि अधिक पारदर्शी मूल्यांकन तंत्र की आवश्यकता है। व्यवहार में, इसका मतलब है यह जांचना कि एजेंट को क्या करने की अनुमति थी, उसने वास्तव में क्या किया, कौन-सा साक्ष्य एकत्र किया गया, और किस तरह की विफलताओं को संभवतः अनदेखा किया गया।
व्यापक निहितार्थ यह है कि AI सुरक्षा और क्षमता अब इंजीनियरिंग अनुशासन से और अधिक मजबूती से जुड़ रही हैं। सैंडबॉक्स, अनुमतियाँ, लॉगिंग, टेस्ट डिज़ाइन और टूल सीमाएँ अब परिधीय कार्यान्वयन विवरण नहीं हैं। वे सिस्टम की बुद्धिमत्ता का हिस्सा हैं और उसके जोखिम क्षेत्र का भी हिस्सा हैं।
AI उद्योग के लिए एक नया दृष्टिकोण
यह पुनर्परिभाषा ऐसे समय में सामने आती है जब एजेंटिक सिस्टम डेमो से आगे बढ़कर परिचालन उत्पाद बन रहे हैं। यदि पेपर की थीसिस सही है, तो स्वायत्तता में अगली बड़ी बढ़ोतरी केवल मॉडल को स्केल करने से नहीं, बल्कि उनके आसपास की सॉफ़्टवेयर संरचनाओं में सुधार से आएगी। बेहतर टूल इंटरफेस, मजबूत मेमोरी सिस्टम, स्पष्ट अनुमतियाँ, अधिक कठोर टेस्ट वातावरण और अधिक विश्वसनीय ऑडिट ट्रेल्स मॉडल के आकार में एक और छलांग जितने ही महत्वपूर्ण हो सकते हैं।
यह भी संकेत देता है कि मूल्यांकन मानकों को विकसित होना होगा। किसी एजेंट को केवल बेंचमार्क स्कोर या एकल-टर्न प्रतिक्रिया से मापना इस बात को नजरअंदाज करता है कि अवसंरचना यह तय करने में क्या भूमिका निभाती है कि सिस्टम वास्तविक कार्य सुरक्षित और विश्वसनीय ढंग से पूरा कर सकता है या नहीं। निष्पादन योग्य वर्कफ़्लो और हार्नेस डिज़ाइन पर पेपर का जोर AI प्रदर्शन के अधिक सिस्टम-स्तरीय दृष्टिकोण की ओर इशारा करता है।
एजेंट बनाने वाले डेवलपर्स और कंपनियों के लिए संदेश व्यावहारिक है। यदि कोड एजेंटों के सोचने और कार्य करने का हिस्सा है, तो मॉडल के आसपास के रनटाइम की गुणवत्ता एक प्रथम-स्तरीय उत्पाद निर्णय बन जाती है। इसमें यह शामिल है कि कौन-से टूल उपलब्ध हैं, आउटपुट कैसे सत्यापित होते हैं, मेमोरी कैसे संग्रहीत होती है, और एजेंट को कितनी संचालनात्मक स्वतंत्रता दी जाती है।
समीक्षा यह नहीं कहती कि मॉडल अब महत्वपूर्ण नहीं रहे। इसके बजाय, यह तर्क देती है कि क्षमता मॉडल और वातावरण के बीच अंतःक्रिया से उभरती है। इस अर्थ में, हार्नेस कोई सहायक वस्तु नहीं है। यह वह तंत्र है जो पूर्वानुमान को सतत कार्रवाई में बदलता है।
यह लेख The Decoder की रिपोर्टिंग पर आधारित है। मूल लेख पढ़ें.
Originally published on the-decoder.com
