ব্ল্যাক বক্স আরও একটু খোলা

আধুনিক AI-এর একটি বড় হতাশা হলো, ডেভেলপাররা প্রায়ই দেখতে পারেন একটি মডেল কী আউটপুট দিচ্ছে, কিন্তু কেন সেই ফল দিচ্ছে তা সত্যি সত্যি বোঝেন না। বড় ভাষা মডেল শক্তিশালী, অস্থির, অস্বচ্ছ, এবং নির্ভুলভাবে নিয়ন্ত্রণ করা কঠিন হতে পারে। তাই সান ফ্রান্সিসকোভিত্তিক স্টার্টআপ Goodfire-এর নতুন টুলটি নজর কেড়েছে। MIT Technology Review-এর দৈনিক Download নিউজলেটারে সংক্ষেপে বলা হয়েছে, কোম্পানিটি Silico নামে একটি সিস্টেম প্রকাশ করেছে, যা গবেষকদের একটি AI মডেলের ভেতরে তাকাতে এবং প্রশিক্ষণের সময় প্যারামিটার সমন্বয় করতে দেয়।

এই বর্ণনার পেছনের উচ্চাকাঙ্ক্ষা গুরুত্বপূর্ণ। Silico-কে কেবল একটি মডেলের চারপাশের আরেকটি অ্যাপ্লিকেশন লেয়ার হিসেবে নয়, বরং mechanistic interpretability-এর একটি টুল হিসেবে উপস্থাপন করা হয়েছে: এমন একটি উপায়, যাতে সিস্টেমের ভেতরের নিউরন ও পথগুলো ম্যাপ করা যায় এবং পরে সেগুলোকে সমন্বয় করে অনাকাঙ্ক্ষিত আচরণ কমানো বা আউটপুটকে আরও সচেতনভাবে চালিত করা যায়। উৎস লেখার মতে, AI মডেল তৈরি করাকে “জাদুর মতো কম এবং বিজ্ঞানের মতো বেশি” করাই Goodfire-এর লক্ষ্য।

Mechanistic interpretability কেন গুরুত্বপূর্ণ

এই শব্দটি বিশেষায়িত শোনাতে পারে, কিন্তু এটি যে সমস্যাটি সমাধান করতে চায় তা বিস্তৃত। অনেক AI সিস্টেম এমন পদ্ধতিতে প্রশিক্ষিত হয় যা চমকপ্রদ ক্ষমতা তৈরি করে, কিন্তু অভ্যন্তরীণ যুক্তির সমান পরিষ্কার ব্যাখ্যা দেয় না। ডেভেলপাররা ফলাফল benchmark করতে পারেন, outputs-এর ওপর red-team করতে পারেন, আচরণ fine-tune করতে পারেন; তবু কোন অভ্যন্তরীণ বৈশিষ্ট্য নির্দিষ্ট প্রতিক্রিয়া তৈরি করছে তা নিয়ে সূক্ষ্ম বোঝাপড়া থাকে না।

Mechanistic interpretability চেষ্টা করে সেই পরিস্থিতি বদলাতে: শেখা আচরণের সঙ্গে সম্পর্কিত circuits, pathways, এবং internal activations চিহ্নিত করে। সফল হলে, এটি মডেল উন্নয়নকে আরও পাঠযোগ্য করে তুলতে পারে। AI সিস্টেমকে আর একটি সিল করা বস্তু হিসেবে দেখা হবে না, যাকে কেবল prompt আর training-পরবর্তী সংশোধন দিয়ে খোঁচা দেওয়া হয়; গবেষকেরা তখন সিস্টেমের যন্ত্রাংশ নিজেই পর্যবেক্ষণ ও সংশোধন শুরু করতে পারবেন।

এই কারণেই Goodfire-এর দাবি ছোট একটি উৎসসারাংশ থেকেও কৌশলগতভাবে গুরুত্বপূর্ণ। যদি কোনো টুল সত্যিই মডেলের ভেতরের “knobs and dials” দেখাতে পারে, তবে নিরাপত্তা, alignment, debugging, এবং পণ্য-নিয়ন্ত্রণ নিয়ে ডেভেলপাররা কীভাবে ভাববে তা বদলে যেতে পারে। বিষয়টি শুধু মডেল “কী ভাবছে” তা জানার কৌতূহল নয়। প্রকৌশলীরা কি যথেষ্ট নির্দিষ্টভাবে হস্তক্ষেপ করে সিস্টেমকে আরও নির্ভরযোগ্য করতে পারেন, সেটাই মূল প্রশ্ন।

Prompting থেকে debugging-এর দিকে

আজ, উন্নত মডেল নিয়ে বেশির ভাগ অপারেশনাল কাজই উপরের স্তরে ঘটে। দলগুলো মডেলকে prompt করে, fine-tune করে, outputs ফিল্টার করে, উত্তরগুলো rank করে, এবং deployment-এর চারপাশে policy layer যোগ করে। এই পদ্ধতিগুলো কার্যকর হতে পারে, কিন্তু এগুলো গভীর পরিদর্শনের চেয়ে আচরণ-ব্যবস্থাপনার মতো বেশি লাগে। কোনো সিস্টেম বারবার ব্যর্থ হলে, ডেভেলপাররা হয়তো জানেন কিভাবে সেটি পরিসংখ্যানগতভাবে কমাতে হয়, কিন্তু যে অভ্যন্তরীণ কাঠামো সেই ব্যর্থতা তৈরি করেছে তা বোঝেন না।

Goodfire-এর framing ইঙ্গিত দেয় যে Silico-র লক্ষ্য AI কাজকে প্রচলিত সফটওয়্যার ইঞ্জিনিয়ারিংয়ের কাছাকাছি আনা। সাধারণ সফটওয়্যারে bug-গুলো function, variable, আর execution path ধরে অনুসরণ করা যায়। বড় মডেলে সেই সম্পর্কগুলো অনেক বেশি অস্পষ্ট। যদি interpretability tool অর্থবহ অভ্যন্তরীণ পথ ম্যাপ করতে পারে এবং গবেষকদের প্রশিক্ষণের সময় সেগুলো সম্পাদনা করতে দেয়, তবে কিছু ধরনের model failure আরও সহজে সামলানো যেতে পারে।

এর মানে এই নয় যে মডেল উন্নয়ন হঠাৎ সহজ বা পুরোপুরি স্বচ্ছ হয়ে যাবে। বড় neural system অত্যন্ত জটিল। তবে inspectability-তে আংশিক উন্নতিও গুরুত্বপূর্ণ হতে পারে। ডেভেলপাররা অনাকাঙ্ক্ষিত আচরণের উৎস শনাক্ত করতে পারবেন, trade-off আরও পরিষ্কারভাবে বুঝতে পারবেন, এবং কেবল বিস্তৃত retraining বা blunt post-processing-এর ওপর নির্ভর না করে নির্দিষ্টভাবে সমন্বয় করতে পারবেন।

নিয়ন্ত্রণ এখন প্রতিযোগিতামূলক সুবিধা

সময়ও গুরুত্বপূর্ণ। AI সিস্টেম যত বেশি নিয়ন্ত্রিত, উচ্চঝুঁকির, বা enterprise-critical ক্ষেত্রে প্রবেশ করছে, কাঁচা ক্ষমতা আর যথেষ্ট নয়। ক্রেতা, নীতি-নির্ধারক, এবং অভ্যন্তরীণ risk team এখন এমন প্রমাণ চায় যে একটি মডেলকে বোঝা ও নিয়ন্ত্রণ করা যায়। তাই interpretability-এর আছে বৈজ্ঞানিক দিকের পাশাপাশি বাণিজ্যিক দিকও।

যে কোম্পানি বিশ্বাসযোগ্যভাবে বলতে পারে যে সে নিজের মডেলের অভ্যন্তরীণ আচরণের আরও বেশি অংশ বোঝে, তার নিরাপত্তা, compliance, এবং trust-সংক্রান্ত deployment আলোচনায় সুবিধা থাকতে পারে। বিশেষ করে যখন মডেলগুলোকে medicine, finance, infrastructure, বা government-এর সিদ্ধান্তে সহায়তা করতে বলা হচ্ছে, তখন এটি আরও সত্যি। সেইসব ক্ষেত্রে, unexplained behavior কেবল অসুবিধা নয়। তা গ্রহণই থামিয়ে দিতে পারে।

Goodfire-এর টুল সেই প্রেক্ষাপটেই এসেছে। Silico যদিও এখনো মূলত একটি research system, এটি বড়-আকারের AI-কে ঘিরে থাকা black-box ভাবমূর্তি থেকে বেরোনোর বৃহত্তর দৌড়ের অংশ।

দাবির সীমাবদ্ধতা

একই সঙ্গে, interpretability এমন একটি ক্ষেত্র যেখানে উচ্চাকাঙ্ক্ষা প্রায়ই ব্যবহারিকতার চেয়ে এগিয়ে যায়। উৎসসারাংশে বলা হয়েছে Silico গবেষকদের neurons ও pathways map করতে এবং training-এর সময় সেগুলো সমন্বয় করতে দেয়, কিন্তু এতে technical detail, benchmark ফলাফল, বা scale-সংক্রান্ত প্রমাণ নেই। তাই সতর্ক থাকা দরকার। নির্বাচিত কিছু আচরণের ওপর সুন্দর internal control দেখানো এক কথা; কিন্তু জটিল emergent trait-সহ বড়, production-grade মডেলে সেই নিয়ন্ত্রণ সাধারণীকরণ করা আরেক কথা।

একটি ধারণাগত ঝুঁকিও আছে। মডেলের ভেতর ভালো visibility মানেই পূর্ণ বোঝাপড়া নয়। neural system-এ এখনও distributed representation এবং পারস্পরিক ক্রিয়াশীল বৈশিষ্ট্য থাকতে পারে, যা সহজ ব্যাখ্যাকে প্রতিরোধ করে। Interpretability debugging উন্নত করতে পারে, কিন্তু মডেলকে সম্পূর্ণ স্বচ্ছ যন্ত্রে রূপান্তরিত করে না।

তবু, এই সতর্কতাগুলো দিকটির গুরুত্ব কমায় না। শিল্পের দরকার শুধু দ্রুত training run আর বড় parameter count নয়। দরকার বোঝাপড়া বাড়ানোর টুল। সেখানে আংশিক অগ্রগতি থেকেও বড় প্রভাব পড়তে পারে।

AI development stack-এ পরিবর্তন

যদি Goodfire-এর framing টেকে, তবে Silico AI stack-এর এমন একটি স্তরের অংশ, যা ক্রমশ গুরুত্বপূর্ণ হয়ে উঠছে: এমন সিস্টেম, যা applications বা foundation model বদলানোর জন্য নয়, বরং সেই মডেলগুলোকে পর্যবেক্ষণযোগ্য, steerable, এবং governable করে তোলার জন্য তৈরি। এটি গুরুত্বের দিক থেকে একটি বড় পরিবর্তন। প্রাথমিক generative-AI দৌড় scale এবং output quality-কে পুরস্কৃত করেছে। পরের ধাপে controllability-ও ততটাই পুরস্কৃত হতে পারে।

frontier-model উন্নয়ন যত ব্যয়বহুল ও রাজনৈতিকভাবে প্রকাশ্য হচ্ছে, ততই এটি বাস্তবসম্মত মনে হয়। যখন training run বিপুল খরচসাপেক্ষ, এবং outputs বাস্তব সিদ্ধান্তকে প্রভাবিত করতে পারে, তখন internal diagnostics-এর মূল্য দ্রুত বাড়ে। কোম্পানি ও ল্যাবকে শুধু জানতে হবে না মডেল কী করতে পারে, বরং তা কতটা আত্মবিশ্বাসের সঙ্গে বদলানো বা সীমাবদ্ধ করা যায়।

জাদু থেকে শৃঙ্খলা

Silico-এর জন্য Goodfire-এর tagline আকর্ষণীয়, কারণ এটি শিল্পের এক বাস্তব টানাপোড়েনকে ধরেছে। AI উন্নয়ন অনেক সময় জাদুর মতো ফল দিয়েছে, কিন্তু পদ্ধতিগুলো এখনও artisanal, empirical, এবং শৃঙ্খলাবদ্ধভাবে বিচার করা কঠিন বলে মনে হতে পারে। training-কে অনুমানের চেয়ে engineering-এর কাছাকাছি নিয়ে আসা কোনো টুল সব safety বা reliability সমস্যা সমাধান করবে না, কিন্তু যে ভিত্তির ওপর সেই সমস্যাগুলো সমাধান করা হয় তা উন্নত করবে।

এই কারণেই interpretability আবার আলোচনার কেন্দ্রে ফিরে আসে। শক্তিশালী মডেল এখন যথেষ্ট সাধারণ। এই ক্ষেত্রের সবচেয়ে বড় অভাব হলো সূক্ষ্ম বোঝাপড়া। Silico সেই ফাঁকটা কমানোর আরেকটি প্রচেষ্টা, যাতে AI সিস্টেম শুধু বেশি সক্ষম নয়, আরও জানা-যাওয়া-সম্ভবও হয়।

  • Goodfire বলছে Silico গবেষকদের AI মডেলের অভ্যন্তরীণ পথ inspect করতে এবং প্রশিক্ষণের সময় সেগুলো সমন্বয় করতে দেয়।
  • এই টুলটি surface-level prompting-এর পরিবর্তে mechanistic interpretability-এর ওপর ভিত্তি করে।
  • উদ্দেশ্য হলো অনাকাঙ্ক্ষিত আচরণ কমানো এবং মডেল কীভাবে কাজ করে সে বিষয়ে বেশি নিয়ন্ত্রণ পাওয়া।
  • AI যখন high-stakes, নিয়ন্ত্রিত পরিবেশে প্রবেশ করছে, interpretability আরও গুরুত্বপূর্ণ হয়ে উঠছে।

এই নিবন্ধটি MIT Technology Review-এর প্রতিবেদনের ভিত্তিতে লেখা। মূল নিবন্ধটি পড়ুন.

Originally published on technologyreview.com