கருப்பு பெட்டியை இன்னும் சிறிது திறப்பது

நவீன AI-இல் முக்கியமான ஒரு ஏமாற்றம் என்னவென்றால், உருவாக்குநர்கள் ஒரு மாதிரி என்ன வெளிப்படுத்துகிறது என்பதைக் காண முடிந்தாலும், அது ஏன் அந்த முடிவை அளித்தது என்பதை உண்மையாகப் புரிந்து கொள்ள முடியாமல் இருப்பது. பெரிய மொழி மாதிரிகள் சக்திவாய்ந்தவை, சில நேரங்களில் ஒழுங்கற்றவை, வெளிப்படையாகத் தெரியாதவை, மற்றும் துல்லியமாக வழிநடத்த கடினமானவை. அதனால் சான் பிரான்சிஸ்கோவைத் தளமாகக் கொண்ட ஸ்டார்ட்அப் Goodfire-இன் புதிய கருவி கவனத்தை ஈர்க்கிறது. MIT Technology Review-இன் தினசரி Download செய்திதாளில் சுருக்கமாகக் கூறப்பட்டதுபோல, நிறுவனம் Silico எனப்படும் ஒரு அமைப்பை வெளியிட்டுள்ளது; இது ஆராய்ச்சியாளர்கள் ஒரு AI மாதிரியின் உள்ளே பார்க்கவும், பயிற்சியின் போது அளவுருக்களை மாற்றவும் அனுமதிக்கிறது.

அந்த விளக்கத்தின் பின்னால் உள்ள நோக்கம் குறிப்பிடத்தக்கது. Silico ஒரு மாதிரியைச் சுற்றியுள்ள மற்றொரு பயன்பாட்டு அடுக்காக அல்ல, மாறாக mechanistic interpretability-க்கான ஒரு கருவியாக வழங்கப்படுகிறது: ஒரு அமைப்பின் உள்ளே இருக்கும் நியூரான்கள் மற்றும் பாதைகளை வரைபடமாக்கி, பின்னர் தேவையற்ற நடத்தைகளை குறைக்கவோ, வெளியீடுகளை மேலும் நோக்கமுள்ள வகையில் வழிநடத்தவோ அவற்றைச் சீரமைக்கும் ஒரு வழி. மூல உரையின் படி, AI மாதிரிகளை உருவாக்குவது “ஆல்கெமி போல அல்ல, அறிவியல் போல” ஆக மாற்றுவதே Goodfire-இன் இலக்கு.

Mechanistic interpretability ஏன் முக்கியம்

இந்த சொற்றொடர் சிறப்புறத் தோன்றலாம், ஆனால் அது அணுகும் பிரச்சினை பரந்தது. பல AI அமைப்புகள் பயிற்சியில் அசாதாரண திறன்களை உருவாக்கினாலும், அவற்றின் உள் காரணவியல் பற்றிய அதே அளவிலான தெளிவான விளக்கத்தை வழங்குவதில்லை. உருவாக்குநர்கள் முடிவுகளை மதிப்பிடலாம், வெளியீடுகளை red-team செய்யலாம், நடத்தை fine-tune செய்யலாம்; ஆனால் குறிப்பிட்ட பதில்களை ஏற்படுத்தும் உள் அம்சங்கள் எவை என்பதைக் குறித்த நுண்ணறிவு இன்னும் இல்லாமல் இருக்கலாம்.

Mechanistic interpretability அந்த நிலையை மாற்ற, கற்றுக்கொண்ட நடத்தைகளுக்கு இணையான சுற்றுகள், பாதைகள், மற்றும் உள் செயல்பாடுகளை அடையாளம் காண முயல்கிறது. அது வெற்றி பெற்றால், மாதிரி வளர்ச்சியை மேலும் வாசிக்கக்கூடியதாக மாற்றலாம். AI அமைப்பை prompt-களும் training பிந்தைய திருத்தங்களும் கொண்டு தள்ளப்படும் மூடிய பொருளாகப் பார்ப்பதற்கு பதிலாக, ஆராய்ச்சியாளர்கள் அதன் இயந்திரத்தையே ஆய்வு செய்து மாற்றத் தொடங்கலாம்.

அதனால்தான் Goodfire-இன் கோரிக்கை குறுகிய மூலச் சுருக்கத்திலேயே மூலோபாய ரீதியாக முக்கியமாகிறது. ஒரு கருவி ஒரு மாதிரியின் உள்ளே உள்ள “கட்டுப்பாட்டு விசைகள்” மற்றும் “மாற்றிகள்” உண்மையாக வெளிப்படுத்தினால், பாதுகாப்பு, alignment, debugging, மற்றும் தயாரிப்பு கட்டுப்பாடு பற்றிய உருவாக்குநர்களின் சிந்தனை மாறக்கூடும். கேள்வி “மாதிரி என்ன யோசிக்கிறது” என்ற ஆர்வம் மட்டும் அல்ல. பொறியாளர்கள் போதுமான துல்லியத்துடன் தலையிட்டு, அமைப்புகளை நம்பகமாக்க முடியுமா என்பதே மையம்.

Prompting-இல் இருந்து debugging-க்கு

இன்று, மேம்பட்ட மாதிரிகளைச் சுற்றியுள்ள செயல்பாட்டு வேலை பெரும்பாலும் மேற்பரப்பிலேயே நடக்கிறது. குழுக்கள் மாதிரிகளை prompt செய்கின்றன, fine-tune செய்கின்றன, வெளியீடுகளை வடிகட்டுகின்றன, பதில்களை தரவரிசைப்படுத்துகின்றன, மற்றும் deployment-ஐச் சுற்றி கொள்கை அடுக்குகளைச் சேர்க்கின்றன. இம்முறைகள் பயனுள்ளதாக இருக்கலாம், ஆனால் அவை ஆழமான ஆய்வை விட நடத்தை மேலாண்மை போன்றே தெரிகின்றன. ஒரு அமைப்பு மீண்டும் மீண்டும் தவறுமுறை காட்டும்போது, உருவாக்குநர்கள் அதை புள்ளியியல் ரீதியாக எப்படி குறைக்கலாம் என்பதை அறிந்திருக்கலாம்; ஆனால் அந்த தவறை உருவாக்கிய உள் அமைப்பு என்ன என்பதைப் புரிந்திருக்காமல் இருக்கலாம்.

Silico AI பணியை பாரம்பரிய மென்பொருள் பொறியியலுக்கு நெருக்கமாக நகர்த்தவே உருவாக்கப்பட்டதாக Goodfire-இன் framing சுட்டுகிறது. வழக்கமான மென்பொருளில் பிழைகளை functions, variables, execution paths மூலம் கண்டறிய முடியும். பெரிய மாதிரிகளில் அந்த உறவுகள் மிகவும் மங்கலாக இருக்கும். விளக்கத்திறன் கருவிகள் அர்த்தமுள்ள உள் பாதைகளை வரைபடமாக்கி, ஆராய்ச்சியாளர்கள் பயிற்சியின் போது அவற்றைத் திருத்த அனுமதித்தால், சில வகை மாதிரி தோல்விகள் மேலும் கையாளக்கூடியதாக மாறலாம்.

இதன் பொருள் மாதிரி வளர்ச்சி திடீரென எளிதாகிவிடும் என்பதல்ல, அல்லது முற்றிலும் வெளிப்படையாகிவிடும் என்பதல்ல. பெரிய நரம்பியல் அமைப்புகள் மிகுந்த சிக்கலானவை. ஆனால் பரிசோதிக்கக்கூடிய தன்மையில் சிறிய மேம்பாடுகள்கூட முக்கியமானவை. உருவாக்குநர்கள் தேவையற்ற நடத்தை எங்கு தோன்றுகிறது என்பதைக் கண்டறியலாம், சமநிலைகளை தெளிவாகப் புரிந்துகொள்ளலாம், மற்றும் பரந்த re-training அல்லது blunt post-processing மீது மட்டும் நம்பிக்கையில்லாமல் குறிவைத்து திருத்தங்கள் செய்யலாம்.

கட்டுப்பாடு இப்போது போட்டித் திறனாகிறது

காலநேரமும் முக்கியம். AI அமைப்புகள் அதிகமாக ஒழுங்குபடுத்தப்பட்ட, உயர்நிலை ஆபத்து கொண்ட, அல்லது நிறுவனத்திற்கு முக்கியமான துறைகளில் நுழையும்போது, வெறும் திறன் மட்டும் போதாது. வாங்குபவர்கள், கொள்கை நிர்ணயிப்பவர்கள், மற்றும் உள்ளக ஆபத்து குழுக்கள், ஒரு மாதிரியைப் புரிந்து கட்டுப்படுத்த முடியும் என்ற ஆதாரத்தை அதிகமாக விரும்புகிறார்கள். அதனால் interpretability-க்கு அறிவியல் பரிமாணத்துடன் கூட வணிகப் பரிமாணமும் உள்ளது.

ஒரு நிறுவனம் தனது மாதிரியின் உள் நடத்தையை அதிகமாகப் புரிந்துகொண்டதாக நம்பகமாகச் சொல்ல முடிந்தால், பாதுகாப்பு, ஒழுங்குப்பாட்டை பின்பற்றுதல், மற்றும் நம்பிக்கை தொடர்பான deployment உரையாடல்களில் அது மேலாதிக்கம் பெறலாம். இது குறிப்பாக மருத்துவம், நிதி, உட்கட்டமைப்பு, அல்லது அரசு போன்ற துறைகளில் மாதிரிகள் முடிவுகளை ஆதரிக்க வேண்டியபோது உண்மையாகிறது. அந்த சூழலில், விளக்கமற்ற நடத்தை வெறும் சிரமம் அல்ல. அது ஏற்றுதலை முற்றிலும் தடுக்கவும் முடியும்.

Silico அந்த பின்னணியில்தான் வருகிறது. Silico தற்போது முதன்மையாக ஒரு ஆராய்ச்சி அமைப்பாகவே இருந்தாலும், பெரிய அளவிலான AI-யின் கருப்பு பெட்டி என்ற பெயரிலிருந்து வெளியேற முயலும் பரந்த போட்டியின் ஒரு பகுதியாக அது இருக்கிறது.

கோரிக்கையின் வரம்புகள்

அதே சமயம், interpretability என்பது அதீதக் கனவு நடைமுறையை விட வேகமாக முன்னோக்கிச் செல்லும் துறை. மூலச் சுருக்கம் Silico ஆராய்ச்சியாளர்கள் நியூரான்கள் மற்றும் பாதைகளை வரைபடமாக்கி, பயிற்சியின் போது அவற்றை மாற்ற முடியும் எனக் கூறுகிறது; ஆனால் அதில் தொழில்நுட்ப விவரங்கள், benchmark முடிவுகள், அல்லது அளவைக் குறித்த ஆதாரம் இல்லை. எனவே எச்சரிக்கை அவசியம். தேர்ந்தெடுக்கப்பட்ட நடத்தைகளில் அழகான உள் கட்டுப்பாடுகளை காட்டுவது ஒன்று; அவற்றை பெரிய, production-தர மாதிரிகளில், சிக்கலான உருவெடுக்கும் பண்புகளுடன், பொதுவாக்குவது மற்றொன்று.

ஒரு கருத்தியல் ஆபத்தும் உள்ளது. மாதிரி உள் அமைப்பைப் பற்றி அதிக தெளிவு கிடைப்பது முழுமையான புரிதலை தானாகக் குறிக்காது. நரம்பியல் அமைப்புகளில் பரவலான representation-களும், எளிய விளக்கத்தை எதிர்க்கும் பரஸ்பர செயல்படும் அம்சங்களும் இன்னும் இருக்கலாம். Interpretability debugging-ஐ மேம்படுத்தலாம்; ஆனால் மாதிரிகளை முழுமையாக வெளிப்படையான இயந்திரங்களாக மாற்றாது.

இருப்பினும், அந்தக் கவலைகள் இந்த திசையின் முக்கியத்துவத்தை குறைத்துவிடுவதில்லை. தொழில்துறைக்கு வேகமான training runs மற்றும் பெரிய parameter counts மட்டுமல்ல, புரிதலை மேம்படுத்தும் கருவிகளும் தேவை. அங்கு கிடைக்கும் பகுதி முன்னேற்றம்கூட பெரிய தாக்கத்தை ஏற்படுத்த முடியும்.

AI வளர்ச்சித் தரகத்தில் மாற்றம்

Goodfire-இன் framing தக்கவையாக இருந்தால், Silico AI stack-இன் நாளுக்குநாள் முக்கியமாகும் ஒரு அடுக்கில் சேர்கிறது: பயன்பாடுகள் அல்லது foundation models-ஐ மாற்றுவதற்கல்ல, அவற்றை பரிசோதிக்கக்கூடிய, steer செய்யக்கூடிய, மற்றும் நிர்வகிக்கக்கூடியதாக மாற்றுவதற்கான அமைப்புகள். இது முக்கியமான முன்னுரிமை மாற்றம். ஆரம்ப generative-AI போட்டி அளவையும் வெளியீட்டு தரத்தையும் வெகுவாகப் பரிசளித்தது. அடுத்த கட்டம் கட்டுப்படுத்தக்கூடிய தன்மையையும் அதே அளவிற்கு பரிசளிக்கலாம்.

frontier-model வளர்ச்சி மேலும் விலை உயர்ந்ததாகவும், அரசியல் ரீதியாகவும் வெளிப்படையாகவும் ஆகிவருவதால் இது சாத்தியமாகத் தெரிகிறது. training runs பெரும் தொகைகளைச் செலவழிக்கும்போது, வெளியீடுகள் நிஜ உலக முடிவுகளை வடிவமைக்கும்போது, உள் நோயறிதலின் மதிப்பு வேகமாக உயர்கிறது. நிறுவனங்களும் ஆய்வுகூடங்களும் ஒரு மாதிரி என்ன செய்ய முடியும் என்பதையே அல்ல, அதை எவ்வளவு நம்பிக்கையுடன் மாற்றவோ கட்டுப்படுத்தவோ முடியும் என்பதையும் அறிய வேண்டும்.

ஆல்கெமியிலிருந்து ஒழுங்கு நோக்கி

Silico-வுக்கான Goodfire-இன் கோஷம் தாக்கத்தைக் கொடுப்பது, அது தொழில்துறையின் உண்மையான பதற்றத்தைப் பிடிப்பதால். AI வளர்ச்சி பெரும்பாலும் மந்திரம் போலத் தோன்றும் முடிவுகளை அளித்துள்ளது, ஆனால் அதன் முறைகள் இன்னும் கைவினை சார்ந்தவை, அனுபவ சார்ந்தவை, மற்றும் ஒழுங்காக reasoning செய்ய கடினமானவை போலத் தோன்றக்கூடும். பயிற்சியை கணிப்பிலிருந்து engineering-க்கு அருகிலாக்கும் ஒரு கருவி எல்லா பாதுகாப்பு அல்லது நம்பகத்தன்மை பிரச்சினைகளையும் தீர்க்காது; ஆனால் அவற்றைச் சமாளிக்கும் அடித்தளத்தை மேம்படுத்தும்.

அதனால்தான் interpretability மீண்டும் உரையாடலின் மையத்துக்கு திரும்புகிறது. சக்திவாய்ந்த மாதிரிகள் இப்போது போதுமான அளவு சாதாரணமாகிவிட்டன. இந்தத் துறைக்கு தொடர்ந்து குறைவாக இருப்பது நுண்ணிய புரிதல். Silico அந்த இடைவெளியை மூடவும், AI அமைப்புகளை மேலும் திறமையானதாக மட்டுமல்ல, மேலும் அறியக்கூடியதாகவும் மாற்றவும் செய்யும் இன்னொரு முயற்சி.

  • Silico AI மாதிரியின் உள் பாதைகளை ஆராய்ச்சியாளர்கள் பார்க்கவும் பயிற்சியின் போது அவற்றை மாற்றவும் உதவுகிறது என்று Goodfire கூறுகிறது.
  • இந்த கருவி மேற்பரப்பிலான prompting-ஐ மட்டும் அல்ல, mechanistic interpretability-ஐ மையமாகக் கொண்டது.
  • மாதிரிகளின் தேவையற்ற நடத்தையை குறைத்து, அவை எப்படிச் செயல்படுகின்றன என்பதில் அதிகக் கட்டுப்பாடு பெறுவதே இலக்கு.
  • உயர் ஆபத்து, ஒழுங்குபடுத்தப்பட்ட சூழல்களில் AI நுழையும்போது interpretability-யின் முக்கியத்துவம் அதிகரித்து வருகிறது.

இந்தக் கட்டுரை MIT Technology Review-இன் செய்தியறிக்கையை அடிப்படையாகக் கொண்டது. அசல் கட்டுரையைப் படிக்கவும்.

Originally published on technologyreview.com