ক্যাম্পবেল ব্রাউনের Forum AI উচ্চ-ঝুঁকির AI উত্তরগুলোর জন্য বিশেষজ্ঞ বেঞ্চমার্ক সামনে আনছে

ক্যাম্পবেল ব্রাউন চান AI-এর তথ্য-স্তরটি engagement metrics নয়, বিশেষজ্ঞদের দ্বারা বিচারিত হোক

ক্যাম্পবেল ব্রাউন বহু বছর ধরে অনলাইনে তথ্য কীভাবে সামনে আসে, যাচাই হয়, এবং বিশ্বাসযোগ্য হয় তা নির্ধারণের কাজে ছিলেন। এখন তিনি যুক্তি দিচ্ছেন যে পরবর্তী তথ্য-জটিলতা সামাজিক মাধ্যমের ফিড নয়, বরং generative AI systems, এবং শিল্পটি এখনও এই সমস্যাকে যথেষ্ট গুরুত্ব দিচ্ছে না। তাঁর নতুন কোম্পানি Forum AI একটি সহজ ধারণার ওপর নির্মিত: বড় মডেল যদি মানুষের বিশ্ব বোঝার প্রধান পথ হয়ে ওঠে, তাহলে সংবেদনশীল বিষয়গুলিতে তাদের উত্তরগুলো domain experts দ্বারা তৈরি মানদণ্ডের বিরুদ্ধে পরীক্ষা করা উচিত।

ব্রাউনের উদ্বেগ বিমূর্ত নয়। TechCrunch-এ আলোচিত মন্তব্যে তিনি AI-কে তথ্যের জন্য ক্রমবর্ধমান কেন্দ্রীয় funnel হিসেবে বর্ণনা করেছেন এবং বলেছেন “high-stakes topics”-এ পারফরম্যান্স এখনো দুর্বল। এসব বিষয়ে geopolitics, mental health, finance, এবং hiring অন্তর্ভুক্ত, যেখানে অসম্পূর্ণ বা বিকৃত উত্তর বাস্তব জীবনে প্রভাব ফেলতে পারে এবং সঠিক উত্তর প্রায়ই binary নয়। এই অস্পষ্টতাই ব্রাউনের বিশ্বাসের কারণ যে industry-র আরও ভালো evaluation tools দরকার, model intuition-এর ওপর আরও confidence নয়।

Forum AI-এর মডেল হলো expert consensus-কে scalable testing-এ রূপান্তর করা

Forum AI-এর পদ্ধতি শুরু হয় স্বীকৃত বিশেষজ্ঞদের নিয়োগ দিয়ে বেঞ্চমার্ক ডিজাইন করানোর মাধ্যমে। ব্রাউন বলেছেন, কোম্পানি কোনো ক্ষেত্রের শীর্ষ বিশেষজ্ঞদের চিহ্নিত করে, তাদের evaluation framework নির্মাণ করতে বলে, এবং তারপর AI judges-কে প্রশিক্ষণ দিয়ে model outputs স্কোর করায়। geopolitics-এর কাজে Forum AI একটি উল্লেখযোগ্য উচ্চ-প্রোফাইল roster তৈরি করেছে, যার মধ্যে Niall Ferguson, Fareed Zakaria, সাবেক Secretary of State Tony Blinken, সাবেক House Speaker Kevin McCarthy, এবং Obama administration-এর সাবেক cybersecurity কর্মকর্তা Anne Neuberger রয়েছেন।

এই operational goal হলো না মতভেদ একেবারে দূর করা। ব্রাউন বলেছেন, Forum AI চায় তাদের AI judges মানব বিশেষজ্ঞদের সঙ্গে প্রায় 90% consensus-এ পৌঁছাক। তাঁর মতে, কোম্পানি সেই সীমায় পৌঁছাতে পেরেছে। এর মানে Forum AI মূল্যায়নকেই একটি technical product হিসেবে দেখে: এমন একটি system যা expert judgment, সাধারণত ব্যয়বহুল ও ধীর, সেটিকে বহু model output-এর ওপর পুনরাবৃত্তিযোগ্য testing-এ রূপান্তর করতে পারে।

এটা গুরুত্বপূর্ণ কারণ সবচেয়ে প্রভাবশালী model কোম্পানিগুলো coding এবং math-এর মতো ক্ষেত্রে বেশি measured হয়, যেখানে automated benchmarking সহজ। ব্রাউনের সমালোচনা হলো, দৈনন্দিন জীবনে ব্যবহারকারীরা যে সমস্যাগুলোর মুখোমুখি হন সেগুলো প্রায়ই অন্য জায়গায় থাকে। রাজনীতি, স্বাস্থ্য, টাকা, বা কর্মসংস্থান সম্পর্কিত প্রশ্নগুলো context, perspective, এবং value conflict-এ ভরা। এগুলো grade করা কঠিন, কিন্তু peripheral বলে উড়িয়ে দেওয়াও কঠিন।

Truth Social শীর্ষ অ্যাকাউন্টের জন্য রিয়েল-টাইম API অ্যাক্সেস বিক্রি করবে

Trump Media বলছে, তারা ১ আগস্ট একটি পেইড Truth Social API চালু করবে, যাতে শীর্ষ অ্যাকাউন্টগুলোর পোস্ট মাইক্রোসেকেন্ড-পর্যায়ের ডেলিভারি এবং ২০২২ পর্যন্ত আর্কাইভ অ্যাক্সেস থাকবে।

Read article

ভুল ফলাফলের জন্য optimize হওয়া social platform দেখেছেন এমন একজনের সতর্কবার্তা

ব্রাউনের বক্তব্য অতিরিক্ত ওজন পায় কারণ এটি Facebook-এ তাঁর অভিজ্ঞতা দ্বারা গঠিত, যেখানে তিনি কোম্পানির প্রথম এবং একমাত্র dedicated news chief ছিলেন। তিনি TechCrunch-কে বলেন, Meta-তে থাকা অবস্থাতেই ChatGPT public release-এর অল্প সময় পর তিনি stakes বুঝতে পেরেছিলেন। তাঁর মতে, পরিবর্তনটি ছিল তাৎক্ষণিক: AI tools মানুষের তথ্য খোঁজা ও গ্রহণের প্রধান পথ হয়ে উঠতে চলেছিল।

এই দৃষ্টিভঙ্গিই ব্যাখ্যা করে কেন তিনি incentives-এর ওপর মনোযোগ দিচ্ছেন। ব্রাউন বলেছেন, তাঁকে সবচেয়ে বেশি হতাশ করেছিল যে accuracy foundation model কোম্পানিগুলোর leading priority বলে মনে হচ্ছিল না। তাঁর ভাষায়, বড় labs coding এবং math performance-এ খুব মনোযোগ দেয়, আর informational accuracy standardize করা কঠিন হওয়ায় তা পরে ফেলে রাখা সহজ। তাঁর উত্তর হলো, কোনো সমস্যা কঠিন হলেই তা ঐচ্ছিক হয়ে যায় না।

সামাজিক মাধ্যমের সঙ্গে তুলনা সরাসরি। ব্রাউন বলেছেন, ভুল লক্ষ্য নিয়ে optimize করা platform-এ কী হয় তা তিনি নিজ চোখে দেখেছেন, এবং news ও fact-checking-এ Meta-র পূর্ববর্তী প্রচেষ্টা গুরুত্বপূর্ণভাবে ব্যর্থ হয়েছে বলে বর্ণনা করেছেন। তিনি যে শিক্ষা টানেন তা শুধু moderation কঠিন—এমন নয়। বরং engagement-ভিত্তিক system social value থেকে সরে যেতে পারে, এমনকি ক্ষতি hindsight-এ স্পষ্ট হয়ে গেলেও।

বর্তমান modelগুলো কী ভুল করছে বলে Forum AI মনে করে

বর্তমান model behavior নিয়ে ব্রাউনের সমালোচনা এতটাই নির্দিষ্ট যে বোঝা যায় কোম্পানি একক hallucination নয়, বরং ধারাবাহিক pattern দেখছে। তিনি বলেছেন, China-সম্পর্কহীন গল্পের জন্য Gemini Chinese Communist Party websites থেকে তথ্য নিচ্ছে, এবং প্রায় সব প্রধান model-এ left-leaning রাজনৈতিক bias দেখা যায়। তিনি আরও সূক্ষ্ম ব্যর্থতার দিকেও ইঙ্গিত করেছেন: context অনুপস্থিত, perspective অনুপস্থিত, এবং এমন arguments যা opposing views-কে straw-man করে কিন্তু প্রতিনিধিত্বের দুর্বলতাটি স্পষ্টভাবে দেখায় না।

এই অভিযোগগুলো AI evaluation-এর বৃহত্তর সমস্যার দিকে ইঙ্গিত করে। কোনো model fluently, দ্রুত, এবং useful মনে হতে পারে, অথচ তথ্যকে সংকীর্ণ বা অস্থির lens-এর মাধ্যমে উপস্থাপন করতে পারে। output যদি প্রাসঙ্গিক framing বাদ দেয়, গুরুতর viewpoints-এর পরিসর প্রতিফলিত না করে, বা দুর্বল sourcing-এর ওপর নির্ভর করে, তাহলে ব্যবহারকারীরা এমন কিছু পেতে পারেন যা authoritative শোনায়, কিন্তু কাঠামোগতভাবে বিভ্রান্তিকর। ব্রাউনের দাবি, এগুলো cosmetic flaws নয়। উচ্চ-ঝুঁকির বিষয়গুলিতে এগুলো product failures।

তিনি আরও বলেছেন, অনেক fix তুলনামূলকভাবে সরল। উদ্ধৃত আলোচনায় তিনি সম্পূর্ণ technical blueprint দেননি, কিন্তু তাঁর মন্তব্য থেকে ইঙ্গিত মেলে যে quality gap-এর কিছু অংশ priorities, testing design, এবং feedback loops থেকে আসে, কেবল unsolved frontier research থেকে নয়।

Night sky reveals Milky Way above Turkiye’s Yozgat forest

OMB অনুদান প্রস্তাবের বিরুদ্ধে মহাকাশ বিজ্ঞান মহলে তীব্র প্রতিক্রিয়া

একটি প্রস্তাবিত ফেডারেল অনুদান নিয়ম অস্বাভাবিকভাবে বড় জনসমর্থন-প্রতিক্রিয়া সৃষ্টি করেছে এবং মহাকাশ নীতি সমর্থকদের সতর্কতা টেনেছে, যারা বলছেন এটি যুক্তরাষ্ট্রে বিজ্ঞান কীভাবে অর্থায়ন ও ভাগ করা হয় তা বদলে দিতে পারে।

Read article

AI প্রতিযোগিতার একটি নতুন ফ্রন্ট

Forum AI 17 মাস আগে New York-এ প্রতিষ্ঠিত হয়, যা এটিকে দ্রুত গড়ে ওঠা AI governance infrastructure বাজারের মাঝখানে রাখে। foundation models নির্মাণকারী কোম্পানিগুলো regulators, enterprise customers, এবং সাধারণ মানুষের চাপের মুখে রয়েছে, যাতে তারা দেখাতে পারে তাদের system জীবিকা, রাজনীতি, স্বাস্থ্য, এবং নিরাপত্তাকে প্রভাবিত করে এমন ক্ষেত্রে দায়িত্বশীলভাবে আচরণ করে। ব্রাউন Forum AI-কে এমন একটি কোম্পানি হিসেবে দাঁড় করাচ্ছেন, যা পরিমাপ করতে পারে তারা তা করে কি না।

এটি AI stack-এ value কোথায় জমা হতে পারে, তার একটি উল্লেখযোগ্য পরিবর্তন। সবচেয়ে বড় labs এখনও model training ও distribution-এ আধিপত্য ধরে রেখেছে, কিন্তু auditing, benchmarking, এবং independent evaluation-এর চারপাশে একটি parallel layer তৈরি হচ্ছে। যদি ব্রাউন ঠিক হন যে AI systems অনেক ব্যবহারকারীর জন্য তথ্য গ্রহণের default route হয়ে উঠছে, তাহলে contested বিষয়গুলোতে quality assess করার tools models-এর মতোই strategically গুরুত্বপূর্ণ হয়ে উঠতে পারে।

তাঁর মন্তব্যে একটি cultural split-ও লুকিয়ে আছে। ব্রাউন বলেছেন, Silicon Valley-তে একটি conversation চলছে, আর consumers-এর মধ্যে সম্পূর্ণ ভিন্ন একটি conversation চলছে। এর ইঙ্গিত হলো, builders এখনও এমন performance metrics-এ ব্যস্ত থাকতে পারেন যা ordinary users, বিশেষ করে parents, voters, patients, এবং workers-এর উদ্বেগের সঙ্গে সোজাসুজি মেলে না। Forum AI-এর পিচ হলো, সেই উদ্বেগগুলোকে একটি measurable standard-এ রূপ দেওয়া যায়।

বড় প্রশ্ন হলো, “ভালো” AI তথ্য ঠিক কে সংজ্ঞায়িত করবে

ব্রাউনের কোম্পানি AI information systems-এর কেন্দ্রস্থলে থাকা দার্শনিক সমস্যাটি সমাধান করে না: যেসব বিষয়ে বিশেষজ্ঞরা একমত নন, সেখানে balanced, accurate, বা যথেষ্ট contextualized কী, তা কে নির্ধারণ করবে? Forum AI বরং একটি procedural answer দেয়। স্বীকৃত বিশেষজ্ঞ বাছুন, explicit benchmarks তৈরি করুন, তাদের judgment-এর বিরুদ্ধে scoring systems train করুন, এবং trade-offs দৃশ্যমান করুন।

এই model ব্যাপকভাবে গ্রহণযোগ্য হবে কি না, তা এখনও খোলা প্রশ্ন। কিন্তু ব্রাউন এমন একটি দুর্বলতা চিহ্নিত করেছেন, যা শিল্পের জন্য এড়ানো ক্রমেই কঠিন হচ্ছে। Generative AI-কে এখন আর কেবল এই ভিত্তিতে বিচার করা হয় না যে এটি কত ভালো code লেখে বা equations সমাধান করে। এটি বিচার করা হচ্ছে এটি কীভাবে জটিল, consequential domain-এ বোঝাপড়াকে মধ্যস্থতা করে। যদি সেই layer public knowledge-এর নতুন gateway হয়ে ওঠে, তাহলে benchmark design নিয়ে লড়াই AI-র সবচেয়ে গুরুত্বপূর্ণ লড়াইগুলোর একটি হতে পারে।

এই নিবন্ধটি TechCrunch-এর প্রতিবেদনের ভিত্তিতে। মূল নিবন্ধ পড়ুন.

Joolca Hottap Go রিভিউ: দুঃসাহসীদের জন্য একটি $700 পোর্টেবল শাওয়ার

Joolca Hottap Go হল ক্যাম্পিং, ভ্যান লাইফ এবং আউটডোর কাজের জন্য একটি প্রিমিয়াম অল-ইন-ওয়ান পোর্টেবল গরম জলের সিস্টেম। $554 মূল্য এবং ঐচ্ছিক ব্যাটারি সহ, এটি সুবিধা এবং আরাম দেয় তবে একটি উচ্চ মূল্যে আসে।

Read article

Originally published on techcrunch.com

ক্যাম্পবেল ব্রাউনের Forum AI-এর বাজি হলো, বিশেষজ্ঞ-নির্মিত বেঞ্চমার্ক উচ্চ-ঝুঁকির মডেল উত্তরগুলো পরিষ্কার করতে পারে

ক্যাম্পবেল ব্রাউন চান AI-এর তথ্য-স্তরটি engagement metrics নয়, বিশেষজ্ঞদের দ্বারা বিচারিত হোক

Forum AI-এর মডেল হলো expert consensus-কে scalable testing-এ রূপান্তর করা

Truth Social শীর্ষ অ্যাকাউন্টের জন্য রিয়েল-টাইম API অ্যাক্সেস বিক্রি করবে

ভুল ফলাফলের জন্য optimize হওয়া social platform দেখেছেন এমন একজনের সতর্কবার্তা

বর্তমান modelগুলো কী ভুল করছে বলে Forum AI মনে করে

OMB অনুদান প্রস্তাবের বিরুদ্ধে মহাকাশ বিজ্ঞান মহলে তীব্র প্রতিক্রিয়া

AI প্রতিযোগিতার একটি নতুন ফ্রন্ট

বড় প্রশ্ন হলো, “ভালো” AI তথ্য ঠিক কে সংজ্ঞায়িত করবে

Joolca Hottap Go রিভিউ: দুঃসাহসীদের জন্য একটি $700 পোর্টেবল শাওয়ার

Comments (0)

Related Articles

মেটা $১২ বিলিয়ন ইইউ জরিমানার মুখে আসক্তিমূলক ইনস্টাগ্রাম ও ফেসবুক ফিডের জন্য

Keep Reading