ByteDance গবেষণা: দীর্ঘ-নথি AI-তে QA প্রশিক্ষণ OCR-কে ছাড়িয়ে যায়

দীর্ঘ-প্রসঙ্গ মাল্টিমোডাল AI-এর জন্য ভিন্ন এক রেসিপি

মাল্টিমোডাল AI সিস্টেম যখন ক্রমশ আরও বড় context window-এর দিকে এগোচ্ছে, তখন একটি প্রশ্ন অদ্ভুতভাবে এখনও অস্পষ্ট থেকে যাচ্ছে: কী ধরনের প্রশিক্ষণ সত্যিই একটি মডেলকে সেই context ভালোভাবে ব্যবহার করতে শেখায়? ByteDance Seed এবং Hong Kong University of Science and Technology-এর গবেষকদের একটি নতুন অধ্যয়ন বলছে, একটি সাধারণ ধারণা ভুল হতে পারে। যদি লক্ষ্য হয় একটি মডেলকে দীর্ঘ, ছবি-সমৃদ্ধ ডকুমেন্ট বুঝতে শেখানো, তাহলে তাকে বিপুল পরিমাণ টেক্সট ট্রান্সক্রাইব করানো সবচেয়ে ভালো পথ নয়। The Decoder-এ বর্ণিত পরীক্ষাগুলোতে, এটি উল্টো ক্ষতিকরও হতে পারে।

এই গবেষণার কেন্দ্রবিন্দু MMProLong নামের একটি মডেল, যা Alibaba-এর ওপেন Qwen2.5-VL ভিত্তির ওপর তৈরি। গবেষকেরা জানিয়েছেন, সিস্টেমটি দীর্ঘ-নথি-সংক্রান্ত কাজে অনেক বড় প্রতিযোগীদের ছাড়িয়ে গেছে, এমনকি যেসব ক্ষেত্রে ডকুমেন্টগুলো প্রশিক্ষণের সময় দেখা ডকুমেন্টের তুলনায় উল্লেখযোগ্যভাবে দীর্ঘ ছিল সেখানেও। মূল ফলাফলটি কেবল scale নিয়ে নয়। এটি supervision নিয়ে: পুরো একটি ডকুমেন্ট সম্পর্কে প্রশ্ন করার মাধ্যমে মডেলগুলো তার পৃষ্ঠাগুলোর টেক্সট চিনে নিয়ে পুনরুত্পাদন করার প্রশিক্ষণের তুলনায় বেশি শিখেছে।

OCR-এর মতো প্রশিক্ষণ কেন কম ফলদায়ক

প্রথম দেখায়, টেক্সট শনাক্তকরণ দীর্ঘ ডকুমেন্টের জন্য স্বাভাবিক একটি training objective মনে হয়। একটি মডেল যদি প্রতিটি পৃষ্ঠা পড়তে পারে, তাহলে তত্ত্বগতভাবে তার জানা উচিত ডকুমেন্টে কী আছে। কিন্তু গবেষণাটি বলছে, শনাক্তকরণ retrieval বা reasoning-এর সমান নয়। যে মডেল পৃষ্ঠার বিষয়বস্তু ট্রান্সক্রাইব করতে শেখে, সে স্থানীয় টেক্সট extraction-এ উন্নত হতে পারে, কিন্তু ব্যবহারকারী নির্দিষ্ট প্রশ্ন করলে দীর্ঘ পৃষ্ঠাজুড়ে প্রাসঙ্গিক তথ্য কোথায় আছে তা খুঁজে বের করার উপায় শিখে না।

গবেষকেরা দুটি পদ্ধতি সরাসরি তুলনা করেছেন। এক সেটআপে, মডেল সব পৃষ্ঠাজুড়ে বা নির্বাচিত পৃষ্ঠাগুলিতে character recognition করেছে, আর অন্য পৃষ্ঠাগুলো context-এ distraction হিসেবে ছিল। অন্যটিতে, আলাদা ByteDance মডেল Seed 2.0 ব্যবহার করে ডকুমেন্টের অংশগুলোর জন্য question-answer জোড়া তৈরি করা হয়। তারপর প্রশিক্ষণে প্রশ্নটিকে পুরো ডকুমেন্টের সঙ্গে উপস্থাপন করা হয়, ফলে উত্তর খুঁজতে মডেলকে দীর্ঘ context-এর মধ্যে অনুসন্ধান করতে হয়েছে।

রিপোর্ট অনুযায়ী, ফলাফল ছিল স্পষ্ট। কেবল টেক্সট-সনাক্তকরণ প্রশিক্ষণ শুরুর অবস্থার তুলনায় পারফরম্যান্সকে আরও খারাপ করেছে। প্রশ্ন-উত্তর প্রশিক্ষণ স্পষ্ট উন্নতি দিয়েছে।

শুধু পড়া নয়, পুনরুদ্ধার শেখানো

এই পার্থক্যটি গুরুত্বপূর্ণ, কারণ দীর্ঘ-নথি AI-এ বাস্তব চ্যালেঞ্জ খুব কমই কেবল পাঠযোগ্যতা। আধুনিক মডেলগুলোর কাছে ইতিমধ্যে ছবি বা রেন্ডার করা পৃষ্ঠা থেকে টেক্সট পড়ার বিভিন্ন উপায় আছে। কঠিন সমস্যা হলো বড় context-এ কী গুরুত্বপূর্ণ তা নির্ধারণ করা, সেটি দক্ষতার সঙ্গে খুঁজে পাওয়া, এবং ব্যবহারকারীর অনুরোধের সঙ্গে সেটিকে যুক্ত করা।

প্রশ্ন-উত্তর supervision সেই চ্যালেঞ্জের সঙ্গে বেশি সামঞ্জস্যপূর্ণ বলে মনে হয়। সবকিছু পুনরুত্পাদন করার জন্য মডেলকে পুরস্কৃত করার বদলে, এটি সঠিক জিনিসটি খুঁজে পাওয়ার জন্য মডেলকে পুরস্কৃত করে। দীর্ঘ report, PDF, slide, বা technical manual-এ এর মানে হলো শব্দের ভেতর দিয়ে পথ খোঁজা, অপ্রাসঙ্গিক পৃষ্ঠা উপেক্ষা করা, এবং যে context অংশটি সত্যিই prompt-এর উত্তর দেয় তা শনাক্ত করা।

বৃহত্তর তাৎপর্য হলো, দীর্ঘ-প্রসঙ্গ ক্ষমতা কেবল hardware বা token-budget-এর বিষয় নয়। এটি objective-design-এরও সমস্যা। একটি million-token context window স্বয়ংক্রিয়ভাবে উপকারী নয়, যদি মডেলকে এটি কীভাবে ব্যবহার করতে হয় শেখানো না হয়।

Training pipeline কীভাবে কাজ করে

The Decoder একটি synthesis pipeline-এর বর্ণনা দিয়েছে, যা OCR parsing, automatic question generation, এবং re-embedding মিলিয়ে বাস্তব ডকুমেন্ট থেকে long-context training example তৈরি করে। OCR এখনও ভূমিকা রাখে, কিন্তু শেষ লক্ষ্য হিসেবে নয়। বরং এটি source material-কে এমনভাবে সাজাতে সাহায্য করে যাতে একটি আলাদা system ডকুমেন্টের অংশগুলোর সঙ্গে যুক্ত অর্থবহ question-answer জোড়া তৈরি করতে পারে।

এই pipeline গুরুত্বপূর্ণ, কারণ উচ্চমানের long-document supervision হাতে তৈরি করা ব্যয়বহুল। প্রশ্ন-উত্তর ডেটা তৈরিকে স্বয়ংক্রিয় করে গবেষকেরা training example বাড়াতে পারেন, আর কাজটিকে সেই জিনিসের সঙ্গে সামঞ্জস্যপূর্ণ রাখতে পারেন যা শেষ ব্যবহারকারীরা সত্যিই মডেলের কাছ থেকে চায়: দীর্ঘ input-এর ভিত্তিতে উত্তর, তার raw transcription নয়।

ছোট মডেল, বড় সংকেত

গবেষণার সবচেয়ে তাৎপর্যপূর্ণ দাবিগুলোর একটি হলো, 7-billion-parameter একটি মডেল এই ধরনের কাজে অনেক বড় প্রতিদ্বন্দ্বীদের ছাড়িয়ে যেতে পারে। যদি সেই ফলাফল সাধারণভাবে প্রযোজ্য হয়, তাহলে বোঝা যায় যে কিছু multimodal workload-এ training design brute-force scaling-এর সমান বা তার চেয়েও বেশি গুরুত্বপূর্ণ হতে পারে।

এটি AI শিল্পজুড়ে কৌশলগতভাবে গুরুত্বপূর্ণ। OpenAI, Google, এবং Alibaba-সহ ল্যাবগুলো খুব বড় context window প্রচার করছে, কিন্তু public technical report-গুলো প্রায়ই long-context training data-এর গঠন সম্পর্কে খুব কম বলে। ByteDance-এর গবেষণা এই ধারণার ওপর চাপ সৃষ্টি করছে যে শুধু context-window size-ই ক্ষমতার একটি কার্যকর proxy। একটি মডেল বিশাল input গ্রহণ করতে পারে, তবুও যদি তার training objective ভুল দক্ষতাকে গুরুত্ব দেয়, তা ভালোভাবে ব্যবহার করতে ব্যর্থ হতে পারে।

Enterprise AI-এর জন্য কেন এটি গুরুত্বপূর্ণ

Long-document understanding কোনো একাডেমিক প্রান্তিক ঘটনা নয়। প্রতিষ্ঠানগুলো এমন মডেল চায় যা contracts, slide deck, reports, knowledge base, technical manual, এবং research archive জুড়ে কাজ করতে পারে। এর অনেক ক্ষেত্রেই প্রতিটি অক্ষর বের করার চেয়ে নির্দিষ্ট প্রশ্নের সঠিক উত্তর দেওয়া এবং সঠিক section উদ্ধৃত করা বেশি মূল্যবান।

যদি OCR-heavy supervision long-context performance কমিয়ে দেয়, তাহলে business use-এর জন্য multimodal system fine-tune করার উপায় নিয়ে product team-গুলোর নতুন করে ভাবতে হতে পারে। এই ফলাফলগুলো আরও ইঙ্গিত দেয় যে benchmarks-কে reading ability আর document reasoning ability আরও সতর্কভাবে আলাদা করা উচিত। page-level recognition-এ শক্তিশালী দেখানো একটি মডেলও ডজন বা শত শত পৃষ্ঠায় তথ্য ছড়িয়ে থাকলে ব্যর্থ হতে পারে।

Context-এর আরও পরিণত দৃষ্টি

এই গবেষণা AI capability কীভাবে আলোচিত হচ্ছে, তাতে একটি বড় পরিবর্তনের অংশ। বড় context window এখনও গুরুত্বপূর্ণ, কিন্তু আলোচনা capacity থেকে utilization-এর দিকে সরে যাচ্ছে। আসল বিষয় হলো, একটি মডেল কতটা রাখতে পারে তা নয়, বরং সেই জায়গার মধ্যে কতটা কার্যকরভাবে search, prioritize, এবং reason করতে পারে।

প্রশ্ন-উত্তর প্রশিক্ষণ transcription-heavy পদ্ধতির প্রভাবকে ছাড়িয়ে যেতে, এমনকি উল্টে দিতে পারে তা দেখিয়ে গবেষকেরা multimodal AI নির্মাতাদের জন্য একটি বাস্তব design principle দিয়েছেন। Long-context intelligence সবকিছু কপি করে শেখা যায় না। কী গুরুত্বপূর্ণ তা খুঁজে বের করার অনুশীলন বারবার করেই এটি শেখা যায়।

পেছন ফিরে তাকালে সেটা স্পষ্ট মনে হতে পারে। Model training-এ, স্পষ্ট ধারণাগুলো প্রায়ই তখনই আসে যখন অনেক ব্যয়বহুল প্রমাণ দেখিয়ে দেয় পুরনো অভ্যাসটা ভুল ছিল।

এই নিবন্ধটি The Decoder-এর প্রতিবেদনভিত্তিক। মূল নিবন্ধটি পড়ুন.

Originally published on the-decoder.com

ByteDance-এর গবেষণায় দেখা গেছে, দীর্ঘ-নথি AI টেক্সট ট্রান্সক্রাইব করার চেয়ে প্রশ্ন থেকে বেশি ভালো শেখে