সঠিক উত্তর দেওয়াই এখন আর যথেষ্ট নয়

কৃত্রিম বুদ্ধিমত্তায় ক্রমবর্ধমান গবেষণা এখন আর শুধু এ প্রশ্নে থেমে নেই যে একটি মডেল প্রশ্নের উত্তর দিতে পারে কি না, বরং উত্তরটি কোথা থেকে এলো তা প্রমাণ করতে পারে কি না, সেই দিকেও নজর দিচ্ছে। The Decoder-এ আলোচিত নতুন গবেষণা ইঙ্গিত দিচ্ছে যে অনেক শীর্ষস্থানীয় সিস্টেম এখনও সেই দ্বিতীয় অংশে পিছিয়ে আছে।

পেকিং বিশ্ববিদ্যালয় এবং শাংহাই আর্টিফিশিয়াল ইন্টেলিজেন্স ল্যাবরেটরির গবেষকেরা CiteVQA নামের একটি বেঞ্চমার্ক তৈরি করেছেন, যা ডকুমেন্ট প্রশ্নোত্তরে উত্তর-নির্ভুলতা ও উৎস-সংযোজন, দুটোই মাপে। তাদের উপসংহার উচ্চ-ঝুঁকির ক্ষেত্রে AI-এর ওপর নির্ভর করতে চান এমন কারও জন্য অস্বস্তিকর: একটি মডেল সঠিক উত্তর দিয়েও ভুল প্রমাণের দিকে ইঙ্গিত করতে পারে।

গবেষক দল এই ব্যর্থতাকে “attribution hallucination” বলে। বাস্তবে এর মানে, AI সিস্টেমের চূড়ান্ত উত্তর সঠিক বলে সেটি বিশ্বাসযোগ্য শোনাতে পারে, কিন্তু সমর্থনে দেওয়া citation আসলে সেই উত্তরকে ন্যায্যতা দেয় না।

citation-এর মান কেন গুরুত্বপূর্ণ

DocVQA এবং MMLongBench-Doc-এর মতো প্রচলিত ডকুমেন্ট-বিশ্লেষণ বেঞ্চমার্ক সাধারণত চূড়ান্ত উত্তরই যাচাই করে। এতে একটি বড় অন্ধ-দিক থেকে যায়। মডেলটি হয়তো উৎস উপাদান থেকে যুক্তি টেনে উত্তর দিয়েছে, কিন্তু তা আগের জ্ঞান, pattern matching বা prompt-এর আংশিক ইঙ্গিতের ভিত্তিতেও অনুমান করে থাকতে পারে।

ভোক্তা-ভিত্তিক অনেক ব্যবহারে এই পার্থক্য উপেক্ষিত হতে পারে। আইন, চিকিৎসা, অর্থনীতি এবং অডিটিং-এ তা যায় না। পেপারটির যুক্তি হলো, traceability-ই AI output-কে শুরু থেকেই ব্যবহারযোগ্য করে তোলে। যদি কোনো সিস্টেম তার উত্তরের ভিত্তি হিসেবে থাকা অনুচ্ছেদ, সারণি বা চিত্রটি নির্ভরযোগ্যভাবে চিহ্নিত করতে না পারে, তবে একটি polished response-ও কার্যগতভাবে অনিরাপদ হতে পারে।

CiteVQA সেই ফাঁকটি সরাসরি উন্মোচন করার জন্য তৈরি। শুধু page number যথেষ্ট নয়। মডেলকে ডকুমেন্টের ভেতরে নির্দিষ্ট source location, এমনকি নির্দিষ্ট সহায়ক উপাদান পর্যন্ত, চিহ্নিত করতে হয়।

সাধারণ document QA-র চেয়ে কঠিন পরীক্ষা

এই বেঞ্চমার্কে সাতটি বিষয়ক্ষেত্রের 711টি PDF জুড়ে 1,897টি প্রশ্ন রয়েছে, যার মধ্যে 451টি ডকুমেন্ট ইংরেজিতে এবং 260টি চীনা ভাষায়। গড় ডকুমেন্টের দৈর্ঘ্য 40.6 পৃষ্ঠা, ফলে এটি অনেক বিদ্যমান ডকুমেন্ট বেঞ্চমার্কের তুলনায় উল্লেখযোগ্যভাবে দীর্ঘ।

সম্পূর্ণ হাতে লেবেলিংয়ের ওপর নির্ভর না করে গবেষকেরা একটি স্বয়ংক্রিয় pipeline তৈরি করেছেন। ডকুমেন্টগুলোকে পৃথক উপাদানে ভাগ করা হয়, তারপর মডেল evidence chains ট্রেস করে। প্রতিটি cited component সত্যিই জরুরি কি না, তা যাচাই করতে ডকুমেন্টগুলো একে একে সরিয়ে দেখা হয় যে মডেল তখনও উত্তর দিতে পারে কি না। না পারলে, সেই প্রমাণকে অপরিহার্য ধরা হয়।

মূল মেট্রিক হলো Strict Attributed Accuracy। এই স্কোরিংয়ে, উভয় অংশ সফল হলেই কেবল একটি মডেল ক্রেডিট পায়: উত্তর সঠিক হতে হবে এবং citation-টি সঠিক সমর্থক উপাদানের ওপর পড়তে হবে। সঠিক উত্তরের সঙ্গে ভুল citation হলে স্কোর শূন্য।

শীর্ষ মডেলগুলোও এখনও অনেকটা পিছিয়ে

20টি বর্তমান মডেল মূল্যায়ন করা হয়েছে। সেরা পারফর্ম করা সিস্টেম, Gemini-3.1-Pro-Preview, কঠোর মেট্রিকে 100-এর মধ্যে 76 পেয়েছে। এটি শক্তিশালী ফল, কিন্তু তবু সর্বোত্তম উপলব্ধ ফলাফল এবং প্রায় নিখুঁত, নির্ভরযোগ্য attribution-এর মধ্যে একটি বড় ব্যবধান থেকে যায়।

বেঞ্চমার্কটি উত্তর-গুণমান এবং প্রমাণ-গুণমানের মধ্যকার একটি গুরুত্বপূর্ণ পার্থক্যও প্রকাশ করেছে। GPT-5.4 raw answer performance-এ 87.1 স্কোর করেছিল বলে রিপোর্ট, কিন্তু সঠিক citation দরকার হলে তা নেমে 59-এ দাঁড়ায়। অর্থাৎ, মডেলটি প্রায়ই জানত কী বলা উচিত, কিন্তু ডকুমেন্টের কোন অংশ থেকে উত্তরটি এসেছে তা ধারাবাহিকভাবে দেখাতে পারত না।

রিপোর্টেড ফলাফলে open-source সিস্টেমগুলো অনেক খারাপ করেছে। তুলনায় সবচেয়ে শক্তিশালী মুক্ত মডেল হিসেবে বর্ণিত Qwen3-VL-235B-A22B 22.5 পেয়েছে। ছোট open মডেলগুলোর বেশিরভাগই 10-এর নিচে ছিল। গবেষকেরা এই স্তরের পারফরম্যান্সকে নিয়ন্ত্রিত শিল্পক্ষেত্রের জন্য অত্যন্ত ঝুঁকিপূর্ণ বলে বর্ণনা করেছেন।

সঠিক পৃষ্ঠা খুঁজে পাওয়াই এখনও বড় বাধা

বেঞ্চমার্কের সবচেয়ে স্পষ্ট বার্তাগুলোর একটি হলো, সূক্ষ্ম citation task শুরু হওয়ার আগেই অনেক মডেল হোঁচট খায়। তারা প্রায়ই সঠিক পৃষ্ঠা শনাক্ত করতে ব্যর্থ হয়, ফলে নির্ভুল paragraph- বা figure-level attribution আরও কঠিন হয়ে পড়ে।

এটা গুরুত্বপূর্ণ, কারণ ব্যবহারকারীরা প্রায়ই citation-কে অন্তর্নিহিত নিরাপত্তা বৈশিষ্ট্য বলে মনে করেন। বাস্তবে, citation format দুর্বল retrieval ধাপকে আড়াল করতে পারে। কোনো সিস্টেম যদি উত্তরের সঙ্গে evidence-সদৃশ রেফারেন্স জুড়ে দেয়, তবে প্রমাণ ভুল হলেও সেটি references ছাড়া সিস্টেমের চেয়ে বেশি নির্ভরযোগ্য মনে হতে পারে।

CiteVQA ইঙ্গিত দেয়, source-linked output-কে স্বয়ংক্রিয়ভাবে বিশ্বাসযোগ্য ধরে নেওয়ার ক্ষেত্রে শিল্পকে আরও সতর্ক হতে হবে। Attribution মাপতে হবে, ধরে নেওয়া যাবে না।

ব্যবহারিক বিশ্বাসযোগ্যতার জন্য বেঞ্চমার্ক

এই গবেষণার গুরুত্ব কোনো একটি মডেলকে বিজয়ী ঘোষণার চেয়ে লক্ষ্যটিকে নতুনভাবে সংজ্ঞায়িত করার মধ্যে বেশি। যদি AI ব্যবহার করতে হয় professional reading, compliance review, due diligence বা evidence-based assistance-এর জন্য, তবে মানদণ্ড fluent summaries এবং বেশিরভাগ সঠিক উত্তরের পর্যায়ে থেমে থাকতে পারে না।

গুরুত্বপূর্ণ হলো, মডেলটি যে সঠিক সমর্থন ব্যবহার করছে বলে দাবি করে, সেটি ঠিকভাবে উদ্ধার করতে পারে কি না। এই বেঞ্চমার্ক সেটিকে দৃশ্যমান ও পরিমাপযোগ্য করে। এটি আরও দেখায় যে শীর্ষস্থানীয় সিস্টেমসহ বর্তমান মডেলগুলো এই ক্ষেত্রে সমানভাবে সক্ষম নয়।

এর মানে এই নয় যে document AI অকার্যকর। এর মানে deployment সিদ্ধান্তে “ভালো উত্তর দেওয়া” আর “ভালোভাবে grounded থাকা” আলাদা বিষয় হিসেবে বিবেচনা করতে হবে। CiteVQA এগুলোকে পৃথক ক্ষমতা হিসেবে চিহ্নিত করে, এবং ফলাফল বলছে দ্বিতীয়টি এখনও পিছিয়ে আছে।

enterprise ক্রেতা, নিয়ন্ত্রক এবং research workflow-এ AI অন্তর্ভুক্ত করা দলগুলোর জন্য এটাই সম্ভবত মূল takeaway। document intelligence-এর পরবর্তী প্রতিযোগিতার সীমা হয়তো আর বেশি আত্মবিশ্বাসী prose লেখা নয়। বরং, সূক্ষ্মভাবে প্রমাণ করা যে proseটি সঠিক source-এর সঠিক line-এ anchored আছে।

এই নিবন্ধটি The Decoder-এর প্রতিবেদনের ওপর ভিত্তি করে। মূল নিবন্ধটি পড়ুন.

Originally published on the-decoder.com