மொழி மட்டும் அல்ல, குறியீடும் AI முகவர்களின் மைய அடித்தளமாக உருவெடுக்கிறது
Meta, Stanford, மற்றும் University of Illinois Urbana-Champaign ஆகியவற்றைச் சேர்ந்த ஆராய்ச்சியாளர்களின் புதிய மறுஆய்வு கட்டுரை, நவீன AI முகவர்கள் உண்மையில் எப்படி செயல்படுகின்றன என்பதை நேரடியாக வாதிடுகிறது: குறியீடு இனி வெளியீட்டு வடிவம் மட்டும் அல்ல; முகவர்கள் பகுத்தறிவதும், செயல்படுவதும், ஒருங்கிணைப்பதும் நடைபெறும் மைய ஊடகமாக மாறியுள்ளது. The Decoder விவரிப்பின்படி, இந்தக் கட்டுரை கவனத்தை மொழி மாதிரி மீது மட்டும் அல்லாமல், நிலையற்ற (stateless) மாதிரியை இயங்கும் ஒரு முகவராக மாற்றும் அதைச் சுற்றியுள்ள மென்பொருள் அமைப்பின் பக்கம் மாற்றுகிறது.
அந்தச் சுற்றுப்புற அடுக்கை ஆசிரியர்கள் “ஹார்னஸ்” என அழைக்கிறார்கள். இதில் கருவிகள், இடைமுகங்கள், sandboxed execution environments, memory, permission boundaries, testing infrastructure, execution loops, மற்றும் feedback channels அடங்கும். அவர்களின் கருத்து நேரடியானது: அந்த அடித்தளம் இல்லாமல், ஒரு மாதிரி பதில்களை உருவாக்கும் இயந்திரமாகவே இருக்கும். அதனுடன், அது படிப்படியாகத் திட்டமிடவும், செயல்படுத்தவும், முடிவுகளை ஆய்வு செய்யவும், மேலும் நீண்ட பணிச் சுமைகளில் தொடர்ந்து வேலை செய்யவும் முடியும்.
ஹார்னஸ் ஏன் முக்கியம்
இந்த மறுஆய்வு, நீண்ட காலம் இயங்கும் முகவர் அமைப்புகளை மூன்று பகுதிகளின் சேர்க்கையாக விளக்குகிறது. முதலில், திட்டமிடல் மற்றும் reasoning போன்ற மாதிரியின் இயல்பான திறன்கள். இரண்டாவது, மாதிரியைச் சுற்றி வழங்கப்படும் infrastructure. மூன்றாவது, முகவர் வேலை செய்யும் போது எழுதும் அல்லது பயன்படுத்தும் code; இதில் scripts, helper tools, tests, workflows, மற்றும் reusable skills அடங்கும். இந்தக் கட்டமைப்பில், அதிக திறனுடைய முகவர்களுக்கான bottleneck, மாதிரி தனியாக இருப்பதை விட, மென்பொருள் சூழலின் reliability மற்றும் transparency ஆக அதிகமாக மாறக்கூடும்.
code-க்கு முகவர் நடத்தைக்கு மிகவும் பயனுள்ளதாகச் செய்யும் பல பண்புகள் உள்ளன என்று ஆசிரியர்கள் வாதிடுகிறார்கள். அது executable; அதாவது வெளியீடுகளை சரிபார்க்கக்கூடிய செயல்பாடுகளாக மாற்ற முடியும். அது traceable; இடைநிலை படிகளை structured artifacts ஆக பதிவு செய்ய முடியும். அது persistent; பல படிகள் கடந்து மீண்டும் எடுத்துச் செல்லக்கூடிய வடிவில் முன்னேற்றத்தை சேமிக்க முகவர்களுக்கு உதவுகிறது.
இந்தக் கண்ணோட்டம், இன்றைய வணிக அமைப்புகள் model மற்றும் software runtime இடையிலான கோட்டைக் எவ்வாறு மங்கச் செய்கின்றன என்பதை விளக்குகிறது. The Decoder குறிப்பிடுவது போல, Claude Code மற்றும் OpenAI-யின் Codex போன்ற அமைப்புகள் ஏற்கனவே இந்தக் கொள்கையின் மீது செயல்படுகின்றன; அவை model பதில்களை இறுதி முடிவாகக் கருதாமல், tool use மற்றும் controlled execution மீது சார்ந்திருக்கின்றன.
Execution புதிய அபாயங்களை கொண்டுவருகிறது
இந்த ஹார்னஸை ஒரு எளிய தீர்வாக இந்தக் கட்டுரை காட்டவில்லை. தற்போதைய software tests ஒரு போலியான நம்பிக்கையை உருவாக்கக்கூடும் என்றும் ஆசிரியர்கள் எச்சரிக்கிறார்கள். முழுமையற்ற அல்லது குறுகிய test suites, குறிப்பாக முகவர்கள் code-ஐ உருவாக்கி அல்லது மாற்றிக்கொண்டே இருக்கும்போது, தோல்வி முறைகளை மறைத்தபடி அமைப்புகள் நம்பத்தகுந்தவையாகத் தோன்ற அனுமதிக்கக்கூடும்.
இந்த கவலை முக்கியமானது, ஏனெனில் tests மற்றும் execution traces பெரும்பாலும் வெற்றியின் 객ப்பமான சிக்னல்களாகக் கருதப்படுகின்றன. மறுஆய்வு, அவை மேலும் அதிக automation மட்டுமல்ல, மேலும் transparent evaluation mechanisms-ஐயும் தேவைப்படுகின்றன என்று வாதிடுகிறது. நடைமுறையில், அது முகவருக்கு என்ன செய்ய அனுமதி இருந்தது, அது உண்மையில் என்ன செய்தது, என்ன சான்றுகள் சேகரிக்கப்பட்டன, மற்றும் எந்த வகையான தோல்விகள் புறக்கணிக்கப்பட்டிருக்கலாம் என்பதைக் கவனமாக ஆய்வு செய்வதை குறிக்கிறது.
இதன் பரந்த விளைவு என்னவென்றால், AI safety மற்றும் capability இப்போது engineering discipline உடன் மேலும் நெருக்கமாக இணைந்து வருகின்றன. Sandboxes, permissions, logging, test design, மற்றும் tool boundaries இவை இனி புறநிலை implementation details அல்ல. அவை அமைப்பின் intelligence-இன் பகுதியும், அதன் risk surface-இன் பகுதியும் ஆகும்.
AI துறைக்கான புதிய மறுபரிசீலனை
இந்த மறுபரிசீலனை, agentic systems demos-இல் இருந்து operational products-இற்கு நகரும் ஒரு தருணத்தில் வருகிறது. இந்தக் கட்டுரையின் கருத்து சரி என்றால், autonomy-யில் அடுத்த பெரிய முன்னேற்றங்கள் models-ஐ மட்டும் அளவுபடுத்துவதால் அல்ல, அவற்றைச் சுற்றியுள்ள software structures-ஐ மேம்படுத்துவதால் வரக்கூடும். சிறந்த tool interfaces, வலுவான memory systems, தெளிவான permissions, மேலும் rigorous test environments, மற்றும் அதிகமான faithful audit trails ஆகியவை model size-இல் இன்னொரு உயர்வைப் போலவே முக்கியமானவையாக இருக்கலாம்.
இதனால் evaluation standards-உம் வளர வேண்டும் என்பதையும் இது சுட்டுகிறது. ஒரு முகவரை benchmark score அல்லது single-turn response மூலம் மட்டுமே அளவிடுவது, அந்த அமைப்பு உண்மையான பணிகளை பாதுகாப்பாகவும் நம்பகமாகவும் முடிக்க முடியுமா என்பதை தீர்மானிக்கும் infrastructure-இன் பங்கை தவறவிடுகிறது. executable workflows மற்றும் harness design-க்கு இந்தக் கட்டுரை கொடுக்கும் முக்கியத்துவம், AI performance-க்கு systems-level பார்வையை நோக்கி சுட்டுகிறது.
முகவர்களை உருவாக்கும் developers மற்றும் நிறுவனங்களுக்கு இது நடைமுறைச் செய்தி. code என்பது முகவர்கள் சிந்தித்து செயல்படும் முறையின் ஒரு பகுதியாக இருந்தால், model-ஐச் சுற்றிய runtime-இன் தரம் ஒரு முதன்மை தயாரிப்பு முடிவாகிறது. அதில் எந்த கருவிகள் வெளிப்படுத்தப்படுகின்றன, outputs எப்படி சரிபார்க்கப்படுகின்றன, memory எப்படி சேமிக்கப்படுகிறது, மற்றும் ஒரு முகவருக்கு எவ்வளவு operational freedom வழங்கப்படுகிறது என்பதும் அடங்கும்.
மறுஆய்வு models இனி முக்கியமல்ல என்று வாதிடவில்லை. மாறாக, capability என்பது model மற்றும் environment இடையிலான தொடர்பிலிருந்து உருவாகிறது என்று அது வலியுறுத்துகிறது. அந்த அர்த்தத்தில், harness ஒரு துணை அல்ல. அது prediction-ஐ நீடித்த செயலாக மாற்றும் mechanism ஆகும்.
இந்தக் கட்டுரை The Decoder-இன் செய்திப்பதிவைப் பொருத்தது. மூலக் கட்டுரையைப் படிக்கவும்.
Originally published on the-decoder.com

