Mechanistic interpretability ஒரு ஆராய்ச்சி யோசனையிலிருந்து ஒரு product category-யாக மாறுகிறது

சான் பிரான்சிஸ்கோ ஸ்டார்ட்அப் Goodfire, Silico என்ற ஒரு கருவியை வெளியிட்டுள்ளது. இதன் நோக்கம் model developers-க்கு பெரிய மொழி மாதிரிகளை பயிற்சியின் போதே ஆய்வு செய்து பாதிக்க அனுமதிப்பதாகும். நிறுவனத்தின் வாக்குறுதி எளிமையானது ஆனால் பேராசையுடன் கூடியது: AI systems உருவாக்குவது இப்போது மந்திரம் போன்றது அல்ல, software engineering போல உணர வேண்டும்.

இந்த framing நவீன AI-யின் மைய சிக்கல்களில் ஒன்றைத் தொட்டுப் பார்க்கிறது. பெரிய மாதிரிகள் குறிப்பிடத்தக்க அளவில் சிறப்பாக செயல்படக்கூடும், ஆனால் அவற்றை நுண்ணிய அளவில் புரிந்துகொள்வது கடினம். Developers outputs-ஐ பார்க்கலாம், behavior-ஐ fine-tune செய்யலாம், results-ஐ benchmark செய்யலாம்; ஆனால் model உள்ளே ஏன் இவ்வாறு நடக்கிறது என்பதற்கான தெளிவான வரைபடம் பெரும்பாலும் கிடைக்காது. அதனால் failures-ஐ diagnose செய்வதும், வேண்டாத tendencies-ஐத் தடுப்பதும் கடினமாகிறது.

Mechanistic interpretability இந்த இடைவெளியை குறைக்க முடியும் என்றும், அந்த field-இன் முறைகளை ஒரு பயன்படத்தக்க product ஆக தொகுக்கும் நேரம் வந்துவிட்டது என்றும் Goodfire நம்புகிறது.

Silico என்ன செய்ய வேண்டும்

நிறுவனத்தின் கூற்றுப்படி, Silico researchers மற்றும் engineers-க்கு ஒரு model-ன் உள்ளே பார்ப்பதற்கும், பயிற்சி நடைபெற்று கொண்டிருக்கும் போதே நடத்தை வடிவமைக்கும் parameters-ஐச் சரிசெய்வதற்கும் உதவுகிறது. இது dataset construction முதல் model training வரை development-இன் பல கட்டங்களில் உதவுவதற்காக வடிவமைக்கப்பட்ட தனது வகையில் முதல் off-the-shelf system என Goodfire விவரிக்கிறது.

Training மீது உள்ள கவனம் முக்கியமானது. பல interpretability முயற்சிகள் ஏற்கனவே கட்டப்பட்ட மாதிரிகளை audit செய்வதில் கவனம் செலுத்தியுள்ளன. Goodfire-ன் நோக்கம் அந்த insights-ஐ development-இன் இன்னும் முன்னதாக கொண்டு செல்வது, அதனால் model makers அவற்றை பின்னரான diagnostic tools ஆக மட்டுமல்ல, steering mechanisms ஆகவும் பயன்படுத்தலாம்.

அது வாக்குறுதி போலச் செயல்பட்டால், அது முக்கியமான மாற்றமாக இருக்கும். அது developers scale, brute-force experimentation, மற்றும் post hoc safeguards மீது மட்டுமே நம்பாமல், அதிக precision-உடன் தலையிடக்கூடிய எதிர்காலத்தைச் சுட்டிக்காட்டும்.