সহায়ক চ্যাটবট মানুষের অনুকরণে দুর্বল হতে পারে

মডেলকে উপকারী সহকারী বানানোর একটি মূল্য থাকতে পারে

বড় ভাষা মডেল এখন মানুষের অংশগ্রহণকারীদের বিকল্প হিসেবে ক্রমশ ব্যবহৃত হচ্ছে। গবেষকেরা এগুলোকে জনমত প্রতিক্রিয়া, শিক্ষাগত আচরণ, এমনকি ক্লিনিকাল পারস্পরিক ক্রিয়ার প্রতিনিধিরূপে পরীক্ষা করেন। কিন্তু একটি নতুন বড় গবেষণা ইঙ্গিত দেয় যে যে প্রশিক্ষণ মডেলকে আরও উপকারী সহকারী বানায়, সেটাই আবার মানুষসদৃশ আচরণের সিমুলেশনে তাদের কম নির্ভুল করে তুলতে পারে।

সরবরাহিত প্রতিবেদনে বর্ণিত কাজটি Psych-201 নামের একটি ডেটাসেটের ওপর ভিত্তি করে, যা প্রায় ২,০৮,০০০ অংশগ্রহণকারী এবং প্রায় ২.৬ কোটি প্রতিক্রিয়াসমৃদ্ধ আচরণগত পরীক্ষার মাধ্যমে তৈরি। গবেষকেরা Qwen3, Llama3, এবং OLMo 3 পরিবারে বেস মডেলের সঙ্গে পোস্ট-ট্রেনড সংস্করণগুলোর তুলনা করেন। তাদের মূল ফলাফল ছিল একটিই: অতিরিক্ত প্রশিক্ষণে তৈরি সহকারীধর্মী সংস্করণের তুলনায় বেস মডেল মানুষের উত্তর বেশি ভালোভাবে অনুমান করেছে।

কেন এই ফল গুরুত্বপূর্ণ

সহকারী মডেলগুলোকে আরও নিরাপদ, আরও সহায়ক, আরও কাঠামোবদ্ধ, এবং অনেক সময় তাদের যুক্তি আরও স্পষ্টভাবে উপস্থাপন করার জন্য ডিজাইন করা হয়। দৈনন্দিন পণ্য ব্যবহারে এসব বৈশিষ্ট্য মূল্যবান। কিন্তু এগুলো কোনো পরীক্ষায় সাধারণ মানুষের মতো আচরণ করার সমান নয়। যদি কোনো মডেলকে স্পষ্ট, ভদ্র, এবং কাজ-উপযোগী সামঞ্জস্যের সঙ্গে উত্তর দিতে টিউন করা হয়, তবে তা বাস্তব মানুষের উত্তরে থাকা ভিন্নতা ও বিশৃঙ্খলা থেকে সরে যেতে পারে।

তাই চ্যাটবটকে মানুষের বিকল্প হিসেবে ব্যবহার করতে চাওয়া যেকোনো ক্ষেত্রের জন্য এই গবেষণা গুরুত্বপূর্ণ। উদ্দেশ্য যদি হয় মানুষ কীভাবে সত্যিই উত্তর দেয়, সিদ্ধান্ত নেয়, বা প্রতিক্রিয়া দেখায় তা সিমুলেট করা, তাহলে অতিরিক্ত পরিমার্জিত সহকারী ভুল সরঞ্জাম হতে পারে।

বেস মডেল পোস্ট-ট্রেনড সংস্করণকে ছাড়িয়ে গেছে

প্রতিবেদন অনুযায়ী, এই ধারা মডেল পরিবার ও আকার জুড়ে বজায় ছিল। বেস মডেল, যেগুলো কেবল টেক্সটে পরবর্তী শব্দ অনুমান করার জন্য প্রশিক্ষিত, মানুষের দেওয়া আসল উত্তর অনুমান করতে তাদের পোস্ট-ট্রেনড উত্তরসূরিদের চেয়ে ভালো পারফর্ম করেছে। এই অবনতি সাধারণ পোস্ট-ট্রেনিং লক্ষ্যগুলোতেও দেখা গেছে; রিজনিং মডেলে ক্ষতি সবচেয়ে বেশি, এরপর instruction-tuned সংস্করণ, এবং vision-extended ভ্যারিয়েন্ট।

এই ফল বিশেষভাবে চমকপ্রদ, কারণ এটি AI পণ্য উন্নয়নের একটি সাধারণ ধারণার বিরুদ্ধে যায়: পরে, আরও পরিমার্জিত সংস্করণগুলো সামগ্রিকভাবে আরও ভালো হওয়া উচিত। সেগুলো আরও ভালো সহকারী হতে পারে। গবেষণাটি বলছে, সেগুলো কম কার্যকর মানসিক আয়না হতে পারে।

বেঞ্চমার্ক নয়, আচরণের জন্য তৈরি ডেটাসেট

Psych-201 এই অবদানের বড় অংশ বলে মনে হয়। উৎস লেখায় একে এ ধরনের আগের যেকোনো সংগ্রহের তুলনায় কয়েক গুণ বড় বলা হয়েছে, যেখানে সম্পূর্ণ পরীক্ষার রান এবং অংশগ্রহণকারীর মেটাডেটা, যেমন বয়স, জাতীয়তা, ও প্রশ্নাবলির উত্তর অন্তর্ভুক্ত রয়েছে। এটি গুরুত্বপূর্ণ, কারণ মানুষসদৃশতা বিচার করতে হলে বিস্তৃত আচরণগত প্রমাণ দরকার, সংকীর্ণ বেঞ্চমার্ক নয়।

এত বড় ডেটাসেট থাকায় গবেষকেরা কয়েকটি উদাহরণ বেছে নিয়ে নয়, বরং বহু কাজজুড়ে মডেলকে মানুষের বণ্টনের সঙ্গে তুলনা করতে পারেন। এই স্কেল দেখায় যে এটি কোনো একক মডেল বা একক পরীক্ষার অস্বাভাবিকতা নয়, বরং একটি পদ্ধতিগত প্রশিক্ষণ-সমঝোতা।

AI গবেষণা ও নীতিগত ব্যবহারে এর মানে

এই ফল অস্বস্তিকর, কারণ সিমুলেটেড অংশগ্রহণকারীরা আকর্ষণীয়। তারা সস্তা, দ্রুত, এবং স্কেলযোগ্য। সরকার, কোম্পানি, এবং গবেষকেরা নীতির প্রতি প্রতিক্রিয়া অনুমান করতে, হস্তক্ষেপ পরীক্ষা করতে, বা বাস্তব মানুষের কাছে যাওয়ার আগে গবেষণার প্রোটোটাইপ বানাতে তাদের ব্যবহার করতে পারেন। কিন্তু যদি পোস্ট-ট্রেনড সহকারী মডেলগুলো নিয়মিতভাবে মানব আচরণ বিকৃত করে, তবে সেই সুবিধাই মিথ্যা আত্মবিশ্বাসে রূপ নিতে পারে।

গবেষণাটি বলে না যে ভাষা মডেল আচরণগত কাজে অকেজো। এটি বলে যে মডেল নির্বাচন গুরুত্বপূর্ণ, এবং নকশার লক্ষ্যও গুরুত্বপূর্ণ। যে মডেল একজন ব্যবহারকারীকে কাজ শেষ করতে সাহায্য করার জন্য অপ্টিমাইজ করা, সেটাই হয়তো কোনো জনসংখ্যা কীভাবে ভাবে বা প্রতিক্রিয়া দেয় তা অনুকরণ করার জন্য সবচেয়ে উপযুক্ত নয়। এগুলো ভিন্ন লক্ষ্য, এবং সহকারী টিউনিংয়ের প্রতিটি প্রজন্মের সঙ্গে এই ফাঁক আরও বাড়তে পারে।

বড় শিক্ষা

AI সিস্টেম নিয়ে প্রায়ই এমনভাবে আলোচনা করা হয় যেন সক্ষমতা একক অক্ষ বরাবর বাড়ে। এই গবেষণা আরও জটিল বাস্তবতার দিকে ইঙ্গিত করছে। কোনো মডেলকে এক ভূমিকায় উন্নত করা, অন্য ভূমিকায় তাকে দুর্বল করতে পারে। বেশি সংহত সহকারী, কম মানুষসদৃশ সত্তায় পরিণত হতে পারে। এটি প্রশিক্ষণের ব্যর্থতা নয়, বরং মনে করিয়ে দেয় যে প্রশিক্ষণ-লক্ষ্য মূল্যবোধ ও সমঝোতা কোড করে।

যারা সিন্থেটিক অংশগ্রহণকারী চান, তাদের জন্য takeaway সোজা: সবচেয়ে মসৃণ চ্যাটবটই যে সবচেয়ে বাস্তবসম্মত, তা ধরে নেবেন না। কোনো পণ্যে সবচেয়ে উপকারী সহকারীই হতে পারে মানব আচরণের প্রোক্সি হিসেবে বিশ্বাস করার জন্য একেবারেই ভুল মডেল।

এই নিবন্ধটি The Decoder-এর প্রতিবেদন অবলম্বনে লেখা। মূল নিবন্ধ পড়ুন.

Originally published on the-decoder.com

সহায়ক চ্যাটবটগুলো মানুষসদৃশ আচরণে দুর্বল হতে পারে