ক্যাম্পবেল ব্রাউন চান AI-এর তথ্য-স্তরটি engagement metrics নয়, বিশেষজ্ঞদের দ্বারা বিচারিত হোক
ক্যাম্পবেল ব্রাউন বহু বছর ধরে অনলাইনে তথ্য কীভাবে সামনে আসে, যাচাই হয়, এবং বিশ্বাসযোগ্য হয় তা নির্ধারণের কাজে ছিলেন। এখন তিনি যুক্তি দিচ্ছেন যে পরবর্তী তথ্য-জটিলতা সামাজিক মাধ্যমের ফিড নয়, বরং generative AI systems, এবং শিল্পটি এখনও এই সমস্যাকে যথেষ্ট গুরুত্ব দিচ্ছে না। তাঁর নতুন কোম্পানি Forum AI একটি সহজ ধারণার ওপর নির্মিত: বড় মডেল যদি মানুষের বিশ্ব বোঝার প্রধান পথ হয়ে ওঠে, তাহলে সংবেদনশীল বিষয়গুলিতে তাদের উত্তরগুলো domain experts দ্বারা তৈরি মানদণ্ডের বিরুদ্ধে পরীক্ষা করা উচিত।
ব্রাউনের উদ্বেগ বিমূর্ত নয়। TechCrunch-এ আলোচিত মন্তব্যে তিনি AI-কে তথ্যের জন্য ক্রমবর্ধমান কেন্দ্রীয় funnel হিসেবে বর্ণনা করেছেন এবং বলেছেন “high-stakes topics”-এ পারফরম্যান্স এখনো দুর্বল। এসব বিষয়ে geopolitics, mental health, finance, এবং hiring অন্তর্ভুক্ত, যেখানে অসম্পূর্ণ বা বিকৃত উত্তর বাস্তব জীবনে প্রভাব ফেলতে পারে এবং সঠিক উত্তর প্রায়ই binary নয়। এই অস্পষ্টতাই ব্রাউনের বিশ্বাসের কারণ যে industry-র আরও ভালো evaluation tools দরকার, model intuition-এর ওপর আরও confidence নয়।
Forum AI-এর মডেল হলো expert consensus-কে scalable testing-এ রূপান্তর করা
Forum AI-এর পদ্ধতি শুরু হয় স্বীকৃত বিশেষজ্ঞদের নিয়োগ দিয়ে বেঞ্চমার্ক ডিজাইন করানোর মাধ্যমে। ব্রাউন বলেছেন, কোম্পানি কোনো ক্ষেত্রের শীর্ষ বিশেষজ্ঞদের চিহ্নিত করে, তাদের evaluation framework নির্মাণ করতে বলে, এবং তারপর AI judges-কে প্রশিক্ষণ দিয়ে model outputs স্কোর করায়। geopolitics-এর কাজে Forum AI একটি উল্লেখযোগ্য উচ্চ-প্রোফাইল roster তৈরি করেছে, যার মধ্যে Niall Ferguson, Fareed Zakaria, সাবেক Secretary of State Tony Blinken, সাবেক House Speaker Kevin McCarthy, এবং Obama administration-এর সাবেক cybersecurity কর্মকর্তা Anne Neuberger রয়েছেন।
এই operational goal হলো না মতভেদ একেবারে দূর করা। ব্রাউন বলেছেন, Forum AI চায় তাদের AI judges মানব বিশেষজ্ঞদের সঙ্গে প্রায় 90% consensus-এ পৌঁছাক। তাঁর মতে, কোম্পানি সেই সীমায় পৌঁছাতে পেরেছে। এর মানে Forum AI মূল্যায়নকেই একটি technical product হিসেবে দেখে: এমন একটি system যা expert judgment, সাধারণত ব্যয়বহুল ও ধীর, সেটিকে বহু model output-এর ওপর পুনরাবৃত্তিযোগ্য testing-এ রূপান্তর করতে পারে।
এটা গুরুত্বপূর্ণ কারণ সবচেয়ে প্রভাবশালী model কোম্পানিগুলো coding এবং math-এর মতো ক্ষেত্রে বেশি measured হয়, যেখানে automated benchmarking সহজ। ব্রাউনের সমালোচনা হলো, দৈনন্দিন জীবনে ব্যবহারকারীরা যে সমস্যাগুলোর মুখোমুখি হন সেগুলো প্রায়ই অন্য জায়গায় থাকে। রাজনীতি, স্বাস্থ্য, টাকা, বা কর্মসংস্থান সম্পর্কিত প্রশ্নগুলো context, perspective, এবং value conflict-এ ভরা। এগুলো grade করা কঠিন, কিন্তু peripheral বলে উড়িয়ে দেওয়াও কঠিন।
ভুল ফলাফলের জন্য optimize হওয়া social platform দেখেছেন এমন একজনের সতর্কবার্তা
ব্রাউনের বক্তব্য অতিরিক্ত ওজন পায় কারণ এটি Facebook-এ তাঁর অভিজ্ঞতা দ্বারা গঠিত, যেখানে তিনি কোম্পানির প্রথম এবং একমাত্র dedicated news chief ছিলেন। তিনি TechCrunch-কে বলেন, Meta-তে থাকা অবস্থাতেই ChatGPT public release-এর অল্প সময় পর তিনি stakes বুঝতে পেরেছিলেন। তাঁর মতে, পরিবর্তনটি ছিল তাৎক্ষণিক: AI tools মানুষের তথ্য খোঁজা ও গ্রহণের প্রধান পথ হয়ে উঠতে চলেছিল।
এই দৃষ্টিভঙ্গিই ব্যাখ্যা করে কেন তিনি incentives-এর ওপর মনোযোগ দিচ্ছেন। ব্রাউন বলেছেন, তাঁকে সবচেয়ে বেশি হতাশ করেছিল যে accuracy foundation model কোম্পানিগুলোর leading priority বলে মনে হচ্ছিল না। তাঁর ভাষায়, বড় labs coding এবং math performance-এ খুব মনোযোগ দেয়, আর informational accuracy standardize করা কঠিন হওয়ায় তা পরে ফেলে রাখা সহজ। তাঁর উত্তর হলো, কোনো সমস্যা কঠিন হলেই তা ঐচ্ছিক হয়ে যায় না।
সামাজিক মাধ্যমের সঙ্গে তুলনা সরাসরি। ব্রাউন বলেছেন, ভুল লক্ষ্য নিয়ে optimize করা platform-এ কী হয় তা তিনি নিজ চোখে দেখেছেন, এবং news ও fact-checking-এ Meta-র পূর্ববর্তী প্রচেষ্টা গুরুত্বপূর্ণভাবে ব্যর্থ হয়েছে বলে বর্ণনা করেছেন। তিনি যে শিক্ষা টানেন তা শুধু moderation কঠিন—এমন নয়। বরং engagement-ভিত্তিক system social value থেকে সরে যেতে পারে, এমনকি ক্ষতি hindsight-এ স্পষ্ট হয়ে গেলেও।
বর্তমান modelগুলো কী ভুল করছে বলে Forum AI মনে করে
বর্তমান model behavior নিয়ে ব্রাউনের সমালোচনা এতটাই নির্দিষ্ট যে বোঝা যায় কোম্পানি একক hallucination নয়, বরং ধারাবাহিক pattern দেখছে। তিনি বলেছেন, China-সম্পর্কহীন গল্পের জন্য Gemini Chinese Communist Party websites থেকে তথ্য নিচ্ছে, এবং প্রায় সব প্রধান model-এ left-leaning রাজনৈতিক bias দেখা যায়। তিনি আরও সূক্ষ্ম ব্যর্থতার দিকেও ইঙ্গিত করেছেন: context অনুপস্থিত, perspective অনুপস্থিত, এবং এমন arguments যা opposing views-কে straw-man করে কিন্তু প্রতিনিধিত্বের দুর্বলতাটি স্পষ্টভাবে দেখায় না।
এই অভিযোগগুলো AI evaluation-এর বৃহত্তর সমস্যার দিকে ইঙ্গিত করে। কোনো model fluently, দ্রুত, এবং useful মনে হতে পারে, অথচ তথ্যকে সংকীর্ণ বা অস্থির lens-এর মাধ্যমে উপস্থাপন করতে পারে। output যদি প্রাসঙ্গিক framing বাদ দেয়, গুরুতর viewpoints-এর পরিসর প্রতিফলিত না করে, বা দুর্বল sourcing-এর ওপর নির্ভর করে, তাহলে ব্যবহারকারীরা এমন কিছু পেতে পারেন যা authoritative শোনায়, কিন্তু কাঠামোগতভাবে বিভ্রান্তিকর। ব্রাউনের দাবি, এগুলো cosmetic flaws নয়। উচ্চ-ঝুঁকির বিষয়গুলিতে এগুলো product failures।
তিনি আরও বলেছেন, অনেক fix তুলনামূলকভাবে সরল। উদ্ধৃত আলোচনায় তিনি সম্পূর্ণ technical blueprint দেননি, কিন্তু তাঁর মন্তব্য থেকে ইঙ্গিত মেলে যে quality gap-এর কিছু অংশ priorities, testing design, এবং feedback loops থেকে আসে, কেবল unsolved frontier research থেকে নয়।
AI প্রতিযোগিতার একটি নতুন ফ্রন্ট
Forum AI 17 মাস আগে New York-এ প্রতিষ্ঠিত হয়, যা এটিকে দ্রুত গড়ে ওঠা AI governance infrastructure বাজারের মাঝখানে রাখে। foundation models নির্মাণকারী কোম্পানিগুলো regulators, enterprise customers, এবং সাধারণ মানুষের চাপের মুখে রয়েছে, যাতে তারা দেখাতে পারে তাদের system জীবিকা, রাজনীতি, স্বাস্থ্য, এবং নিরাপত্তাকে প্রভাবিত করে এমন ক্ষেত্রে দায়িত্বশীলভাবে আচরণ করে। ব্রাউন Forum AI-কে এমন একটি কোম্পানি হিসেবে দাঁড় করাচ্ছেন, যা পরিমাপ করতে পারে তারা তা করে কি না।
এটি AI stack-এ value কোথায় জমা হতে পারে, তার একটি উল্লেখযোগ্য পরিবর্তন। সবচেয়ে বড় labs এখনও model training ও distribution-এ আধিপত্য ধরে রেখেছে, কিন্তু auditing, benchmarking, এবং independent evaluation-এর চারপাশে একটি parallel layer তৈরি হচ্ছে। যদি ব্রাউন ঠিক হন যে AI systems অনেক ব্যবহারকারীর জন্য তথ্য গ্রহণের default route হয়ে উঠছে, তাহলে contested বিষয়গুলোতে quality assess করার tools models-এর মতোই strategically গুরুত্বপূর্ণ হয়ে উঠতে পারে।
তাঁর মন্তব্যে একটি cultural split-ও লুকিয়ে আছে। ব্রাউন বলেছেন, Silicon Valley-তে একটি conversation চলছে, আর consumers-এর মধ্যে সম্পূর্ণ ভিন্ন একটি conversation চলছে। এর ইঙ্গিত হলো, builders এখনও এমন performance metrics-এ ব্যস্ত থাকতে পারেন যা ordinary users, বিশেষ করে parents, voters, patients, এবং workers-এর উদ্বেগের সঙ্গে সোজাসুজি মেলে না। Forum AI-এর পিচ হলো, সেই উদ্বেগগুলোকে একটি measurable standard-এ রূপ দেওয়া যায়।
বড় প্রশ্ন হলো, “ভালো” AI তথ্য ঠিক কে সংজ্ঞায়িত করবে
ব্রাউনের কোম্পানি AI information systems-এর কেন্দ্রস্থলে থাকা দার্শনিক সমস্যাটি সমাধান করে না: যেসব বিষয়ে বিশেষজ্ঞরা একমত নন, সেখানে balanced, accurate, বা যথেষ্ট contextualized কী, তা কে নির্ধারণ করবে? Forum AI বরং একটি procedural answer দেয়। স্বীকৃত বিশেষজ্ঞ বাছুন, explicit benchmarks তৈরি করুন, তাদের judgment-এর বিরুদ্ধে scoring systems train করুন, এবং trade-offs দৃশ্যমান করুন।
এই model ব্যাপকভাবে গ্রহণযোগ্য হবে কি না, তা এখনও খোলা প্রশ্ন। কিন্তু ব্রাউন এমন একটি দুর্বলতা চিহ্নিত করেছেন, যা শিল্পের জন্য এড়ানো ক্রমেই কঠিন হচ্ছে। Generative AI-কে এখন আর কেবল এই ভিত্তিতে বিচার করা হয় না যে এটি কত ভালো code লেখে বা equations সমাধান করে। এটি বিচার করা হচ্ছে এটি কীভাবে জটিল, consequential domain-এ বোঝাপড়াকে মধ্যস্থতা করে। যদি সেই layer public knowledge-এর নতুন gateway হয়ে ওঠে, তাহলে benchmark design নিয়ে লড়াই AI-র সবচেয়ে গুরুত্বপূর্ণ লড়াইগুলোর একটি হতে পারে।
এই নিবন্ধটি TechCrunch-এর প্রতিবেদনের ভিত্তিতে। মূল নিবন্ধ পড়ুন.
Originally published on techcrunch.com






