AI মডেলগুলো প্রায়ই সঠিক উত্তর দিলেও ভুল উৎস উদ্ধৃত করে

সঠিক উত্তর দেওয়াই এখন আর যথেষ্ট নয়

কৃত্রিম বুদ্ধিমত্তায় ক্রমবর্ধমান গবেষণা এখন আর শুধু এ প্রশ্নে থেমে নেই যে একটি মডেল প্রশ্নের উত্তর দিতে পারে কি না, বরং উত্তরটি কোথা থেকে এলো তা প্রমাণ করতে পারে কি না, সেই দিকেও নজর দিচ্ছে। The Decoder-এ আলোচিত নতুন গবেষণা ইঙ্গিত দিচ্ছে যে অনেক শীর্ষস্থানীয় সিস্টেম এখনও সেই দ্বিতীয় অংশে পিছিয়ে আছে।

পেকিং বিশ্ববিদ্যালয় এবং শাংহাই আর্টিফিশিয়াল ইন্টেলিজেন্স ল্যাবরেটরির গবেষকেরা CiteVQA নামের একটি বেঞ্চমার্ক তৈরি করেছেন, যা ডকুমেন্ট প্রশ্নোত্তরে উত্তর-নির্ভুলতা ও উৎস-সংযোজন, দুটোই মাপে। তাদের উপসংহার উচ্চ-ঝুঁকির ক্ষেত্রে AI-এর ওপর নির্ভর করতে চান এমন কারও জন্য অস্বস্তিকর: একটি মডেল সঠিক উত্তর দিয়েও ভুল প্রমাণের দিকে ইঙ্গিত করতে পারে।

গবেষক দল এই ব্যর্থতাকে “attribution hallucination” বলে। বাস্তবে এর মানে, AI সিস্টেমের চূড়ান্ত উত্তর সঠিক বলে সেটি বিশ্বাসযোগ্য শোনাতে পারে, কিন্তু সমর্থনে দেওয়া citation আসলে সেই উত্তরকে ন্যায্যতা দেয় না।

citation-এর মান কেন গুরুত্বপূর্ণ

DocVQA এবং MMLongBench-Doc-এর মতো প্রচলিত ডকুমেন্ট-বিশ্লেষণ বেঞ্চমার্ক সাধারণত চূড়ান্ত উত্তরই যাচাই করে। এতে একটি বড় অন্ধ-দিক থেকে যায়। মডেলটি হয়তো উৎস উপাদান থেকে যুক্তি টেনে উত্তর দিয়েছে, কিন্তু তা আগের জ্ঞান, pattern matching বা prompt-এর আংশিক ইঙ্গিতের ভিত্তিতেও অনুমান করে থাকতে পারে।

ভোক্তা-ভিত্তিক অনেক ব্যবহারে এই পার্থক্য উপেক্ষিত হতে পারে। আইন, চিকিৎসা, অর্থনীতি এবং অডিটিং-এ তা যায় না। পেপারটির যুক্তি হলো, traceability-ই AI output-কে শুরু থেকেই ব্যবহারযোগ্য করে তোলে। যদি কোনো সিস্টেম তার উত্তরের ভিত্তি হিসেবে থাকা অনুচ্ছেদ, সারণি বা চিত্রটি নির্ভরযোগ্যভাবে চিহ্নিত করতে না পারে, তবে একটি polished response-ও কার্যগতভাবে অনিরাপদ হতে পারে।

CiteVQA সেই ফাঁকটি সরাসরি উন্মোচন করার জন্য তৈরি। শুধু page number যথেষ্ট নয়। মডেলকে ডকুমেন্টের ভেতরে নির্দিষ্ট source location, এমনকি নির্দিষ্ট সহায়ক উপাদান পর্যন্ত, চিহ্নিত করতে হয়।

A Gatik autonomous truck at a PepsiCo distribution center.

Gatik PepsiCo নেটওয়ার্কে autonomous freight-এর ভূমিকা আরও গভীর করছে

PepsiCo, Gatik-এর সঙ্গে কাজকে multi-year deal-এর মাধ্যমে সম্প্রসারিত করেছে, যা North American food and beverage logistics-এ autonomous middle-mile freight-কে আরও গভীরে নিয়ে যাচ্ছে।

Read article

সাধারণ document QA-র চেয়ে কঠিন পরীক্ষা

এই বেঞ্চমার্কে সাতটি বিষয়ক্ষেত্রের 711টি PDF জুড়ে 1,897টি প্রশ্ন রয়েছে, যার মধ্যে 451টি ডকুমেন্ট ইংরেজিতে এবং 260টি চীনা ভাষায়। গড় ডকুমেন্টের দৈর্ঘ্য 40.6 পৃষ্ঠা, ফলে এটি অনেক বিদ্যমান ডকুমেন্ট বেঞ্চমার্কের তুলনায় উল্লেখযোগ্যভাবে দীর্ঘ।

সম্পূর্ণ হাতে লেবেলিংয়ের ওপর নির্ভর না করে গবেষকেরা একটি স্বয়ংক্রিয় pipeline তৈরি করেছেন। ডকুমেন্টগুলোকে পৃথক উপাদানে ভাগ করা হয়, তারপর মডেল evidence chains ট্রেস করে। প্রতিটি cited component সত্যিই জরুরি কি না, তা যাচাই করতে ডকুমেন্টগুলো একে একে সরিয়ে দেখা হয় যে মডেল তখনও উত্তর দিতে পারে কি না। না পারলে, সেই প্রমাণকে অপরিহার্য ধরা হয়।

মূল মেট্রিক হলো Strict Attributed Accuracy। এই স্কোরিংয়ে, উভয় অংশ সফল হলেই কেবল একটি মডেল ক্রেডিট পায়: উত্তর সঠিক হতে হবে এবং citation-টি সঠিক সমর্থক উপাদানের ওপর পড়তে হবে। সঠিক উত্তরের সঙ্গে ভুল citation হলে স্কোর শূন্য।

শীর্ষ মডেলগুলোও এখনও অনেকটা পিছিয়ে

20টি বর্তমান মডেল মূল্যায়ন করা হয়েছে। সেরা পারফর্ম করা সিস্টেম, Gemini-3.1-Pro-Preview, কঠোর মেট্রিকে 100-এর মধ্যে 76 পেয়েছে। এটি শক্তিশালী ফল, কিন্তু তবু সর্বোত্তম উপলব্ধ ফলাফল এবং প্রায় নিখুঁত, নির্ভরযোগ্য attribution-এর মধ্যে একটি বড় ব্যবধান থেকে যায়।

বেঞ্চমার্কটি উত্তর-গুণমান এবং প্রমাণ-গুণমানের মধ্যকার একটি গুরুত্বপূর্ণ পার্থক্যও প্রকাশ করেছে। GPT-5.4 raw answer performance-এ 87.1 স্কোর করেছিল বলে রিপোর্ট, কিন্তু সঠিক citation দরকার হলে তা নেমে 59-এ দাঁড়ায়। অর্থাৎ, মডেলটি প্রায়ই জানত কী বলা উচিত, কিন্তু ডকুমেন্টের কোন অংশ থেকে উত্তরটি এসেছে তা ধারাবাহিকভাবে দেখাতে পারত না।

রিপোর্টেড ফলাফলে open-source সিস্টেমগুলো অনেক খারাপ করেছে। তুলনায় সবচেয়ে শক্তিশালী মুক্ত মডেল হিসেবে বর্ণিত Qwen3-VL-235B-A22B 22.5 পেয়েছে। ছোট open মডেলগুলোর বেশিরভাগই 10-এর নিচে ছিল। গবেষকেরা এই স্তরের পারফরম্যান্সকে নিয়ন্ত্রিত শিল্পক্ষেত্রের জন্য অত্যন্ত ঝুঁকিপূর্ণ বলে বর্ণনা করেছেন।

Google এবং OpenAI চীনের সঙ্গে যুক্ত পৃথক AI অপব্যবহার কার্যক্রম প্রকাশ করেছে

Google একটি AI-সক্ষম জালিয়াতি নেটওয়ার্কের বিরুদ্ধে মামলা করেছে, আর OpenAI বলেছে যে তারা US বিতর্ক এবং অবকাঠামো-সংক্রান্ত বর্ণনাকে লক্ষ্য করা চীনা-সংযুক্ত দুটি প্রভাব ক্লাস্টার ব্যাহত করেছে।

Read article

সঠিক পৃষ্ঠা খুঁজে পাওয়াই এখনও বড় বাধা

বেঞ্চমার্কের সবচেয়ে স্পষ্ট বার্তাগুলোর একটি হলো, সূক্ষ্ম citation task শুরু হওয়ার আগেই অনেক মডেল হোঁচট খায়। তারা প্রায়ই সঠিক পৃষ্ঠা শনাক্ত করতে ব্যর্থ হয়, ফলে নির্ভুল paragraph- বা figure-level attribution আরও কঠিন হয়ে পড়ে।

এটা গুরুত্বপূর্ণ, কারণ ব্যবহারকারীরা প্রায়ই citation-কে অন্তর্নিহিত নিরাপত্তা বৈশিষ্ট্য বলে মনে করেন। বাস্তবে, citation format দুর্বল retrieval ধাপকে আড়াল করতে পারে। কোনো সিস্টেম যদি উত্তরের সঙ্গে evidence-সদৃশ রেফারেন্স জুড়ে দেয়, তবে প্রমাণ ভুল হলেও সেটি references ছাড়া সিস্টেমের চেয়ে বেশি নির্ভরযোগ্য মনে হতে পারে।

CiteVQA ইঙ্গিত দেয়, source-linked output-কে স্বয়ংক্রিয়ভাবে বিশ্বাসযোগ্য ধরে নেওয়ার ক্ষেত্রে শিল্পকে আরও সতর্ক হতে হবে। Attribution মাপতে হবে, ধরে নেওয়া যাবে না।

ব্যবহারিক বিশ্বাসযোগ্যতার জন্য বেঞ্চমার্ক

এই গবেষণার গুরুত্ব কোনো একটি মডেলকে বিজয়ী ঘোষণার চেয়ে লক্ষ্যটিকে নতুনভাবে সংজ্ঞায়িত করার মধ্যে বেশি। যদি AI ব্যবহার করতে হয় professional reading, compliance review, due diligence বা evidence-based assistance-এর জন্য, তবে মানদণ্ড fluent summaries এবং বেশিরভাগ সঠিক উত্তরের পর্যায়ে থেমে থাকতে পারে না।

গুরুত্বপূর্ণ হলো, মডেলটি যে সঠিক সমর্থন ব্যবহার করছে বলে দাবি করে, সেটি ঠিকভাবে উদ্ধার করতে পারে কি না। এই বেঞ্চমার্ক সেটিকে দৃশ্যমান ও পরিমাপযোগ্য করে। এটি আরও দেখায় যে শীর্ষস্থানীয় সিস্টেমসহ বর্তমান মডেলগুলো এই ক্ষেত্রে সমানভাবে সক্ষম নয়।

এর মানে এই নয় যে document AI অকার্যকর। এর মানে deployment সিদ্ধান্তে “ভালো উত্তর দেওয়া” আর “ভালোভাবে grounded থাকা” আলাদা বিষয় হিসেবে বিবেচনা করতে হবে। CiteVQA এগুলোকে পৃথক ক্ষমতা হিসেবে চিহ্নিত করে, এবং ফলাফল বলছে দ্বিতীয়টি এখনও পিছিয়ে আছে।

enterprise ক্রেতা, নিয়ন্ত্রক এবং research workflow-এ AI অন্তর্ভুক্ত করা দলগুলোর জন্য এটাই সম্ভবত মূল takeaway। document intelligence-এর পরবর্তী প্রতিযোগিতার সীমা হয়তো আর বেশি আত্মবিশ্বাসী prose লেখা নয়। বরং, সূক্ষ্মভাবে প্রমাণ করা যে proseটি সঠিক source-এর সঠিক line-এ anchored আছে।

এই নিবন্ধটি The Decoder-এর প্রতিবেদনের ওপর ভিত্তি করে। মূল নিবন্ধটি পড়ুন.

front and side images of a researcher equipped with AI training devices, part of the XRZero-G0 system.

XRZero-G0 2,000 ঘণ্টার রোবোটিক্স ডেটাসেট ওপেন-সোর্স করল

X Square Robot XRZero-G0 এবং 2,000 ঘণ্টার একটি মাল্টিমোডাল ডেটাসেট প্রকাশ করেছে, যার লক্ষ্য embodied AI সিস্টেমের জন্য বাস্তব-রোবট প্রশিক্ষণ ডেটার প্রয়োজনীয়তা কমানো।

Read article

Originally published on the-decoder.com

বেঞ্চমার্ক দেখায় AI সিস্টেম প্রায়ই সঠিক উত্তর দিলেও ভুল প্রমাণ উদ্ধৃত করে

সঠিক উত্তর দেওয়াই এখন আর যথেষ্ট নয়

citation-এর মান কেন গুরুত্বপূর্ণ

Gatik PepsiCo নেটওয়ার্কে autonomous freight-এর ভূমিকা আরও গভীর করছে

সাধারণ document QA-র চেয়ে কঠিন পরীক্ষা

শীর্ষ মডেলগুলোও এখনও অনেকটা পিছিয়ে

Google এবং OpenAI চীনের সঙ্গে যুক্ত পৃথক AI অপব্যবহার কার্যক্রম প্রকাশ করেছে

সঠিক পৃষ্ঠা খুঁজে পাওয়াই এখনও বড় বাধা

ব্যবহারিক বিশ্বাসযোগ্যতার জন্য বেঞ্চমার্ক

XRZero-G0 2,000 ঘণ্টার রোবোটিক্স ডেটাসেট ওপেন-সোর্স করল

Comments (0)

Keep Reading