শক্তিশালী মডেলরা ভালো করেছে, আর ব্যবহারকারীরা বুঝতে পারেননি

Anthropic-এর একটি অভ্যন্তরীণ পরীক্ষা ইঙ্গিত দিচ্ছে যে AI-ভিত্তিক বৈষম্যের একটি সূক্ষ্ম কিন্তু গুরুত্বপূর্ণ রূপ ইতিমধ্যেই তৈরি হতে পারে: শক্তিশালী মডেল দ্বারা প্রতিনিধিত্ব করা মানুষরা, আশেপাশের কেউ ফারাক টের না পেয়েই, আরও ভালো ফল পেতে পারেন। সরবরাহ করা উৎসপাঠ অনুযায়ী, Anthropic 2025 সালের ডিসেম্বর মাসে এক সপ্তাহব্যাপী “Project Deal” নামে একটি অভ্যন্তরীণ মার্কেটপ্লেস চালায়, যেখানে 69 জন কর্মী Slack-এর মাধ্যমে Claude-ভিত্তিক AI এজেন্ট ব্যবহার করে বাস্তব পণ্য কেনাবেচা করেন।

প্রতিটি অংশগ্রহণকারীকে 100 ডলারের বাজেট দেওয়া হয়। বাজার খোলার আগে Claude স্বেচ্ছাসেবীদের জিজ্ঞাসা করে তারা কী কিনতে বা বিক্রি করতে চান, তাদের দামের পছন্দ কী, এবং তাদের এজেন্ট কী ধরনের দর-কষাকষির ধরন ব্যবহার করবে। এরপর Anthropic সেই ইনপুট থেকে কাস্টম system prompt তৈরি করে। তারপর AI এজেন্টরাই পুরো প্রক্রিয়া শেষ পর্যন্ত পরিচালনা করে: তালিকা লেখা, কাউন্টারপার্টি খোঁজা, অফার করা, দরকষাকষি করা, এবং লেনদেন সম্পন্ন করা। মানুষ শুধু শেষে পণ্য বিনিময়ের জন্য ফিরে আসে।

পরীক্ষার প্রধান কৌশলটি অংশগ্রহণকারীদের কাছ থেকে লুকানো ছিল। Anthropic বাজারের সমান্তরাল সংস্করণ চালায়। কিছু ক্ষেত্রে প্রতিটি অংশগ্রহণকারীকে Claude Opus 4.5 প্রতিনিধিত্ব করে, যা উৎসপাঠে তখনকার Anthropic-এর frontier model হিসেবে বর্ণিত। অন্য ক্ষেত্রে অংশগ্রহণকারীদের 50% সম্ভাবনা ছিল Claude Haiku 4.5 দ্বারা প্রতিনিধিত্ব পাওয়ার, যা কোম্পানির ছোট মডেল।

ফলাফল শুধু প্রযুক্তিগত ছিল না। সামাজিকও ছিল।

উৎস অনুযায়ী, বেশি সক্ষম Opus মডেল গড়ে Haiku-এর তুলনায় ধারাবাহিকভাবে ভালো দাম আদায় করেছে এবং বেশি চুক্তি সম্পন্ন করেছে। একই সঙ্গে, আরও আক্রমণাত্মক দর-কষাকষির নির্দেশনা ফলাফলে পরিসংখ্যানগতভাবে উল্লেখযোগ্য কোনো পার্থক্য আনেনি। অর্থাৎ, কেবল জোরালোভাবে দর কষতে বলা নয়, মডেলের সক্ষমতাই বেশি গুরুত্বপূর্ণ ছিল।

এই ফলাফল enterprise AI গ্রহণের একটি সাধারণ ধারণার বিপরীতে যায়, যেখানে সংস্থাগুলো কখনও কখনও ধরে নেয় prompt style বা ওপরিভাগের আচরণই মূল্যের বেশিরভাগ নির্ধারণ করবে। Anthropic-এর ফলাফল ইঙ্গিত দেয় যে অন্তর্নিহিত মডেল শক্তি tone-এর চেয়ে বেশি গুরুত্বপূর্ণ হতে পারে। যদি এই ধারা সর্বত্র প্রযোজ্য হয়, তাহলে এজেন্টের গুণমানই নীরবে নির্ধারণ করতে পারে, ডিজিটাল লেনদেনে কে অনুকূল শর্ত পাবে।

সবচেয়ে উল্লেখযোগ্য ফলাফল অর্থনৈতিকের চেয়ে উপলব্ধিগত হতে পারে। Anthropic বলছে, দুর্বল Haiku এজেন্ট দ্বারা প্রতিনিধিত্ব পাওয়া ব্যবহারকারীরা বাস্তবে খারাপ ফল পেলেও তাদের লেনদেনকে Opus-প্রাপ্ত ব্যবহারকারীদের মতোই ন্যায্য বলে মূল্যায়ন করেছেন। এটাই কোম্পানি AI-সহায়িত সিদ্ধান্ত গ্রহণে “invisible inequality” বলে চিহ্নিত করছে।

এটি একটি গুরুত্বপূর্ণ ধারণা। প্রচলিত বৈষম্য সাধারণত দাম, প্রাপ্যতা বা সেবার মানে দৃশ্যমান হয়। Anthropic যা দেখাচ্ছে তা আরও কঠিন: দুইজন মানুষ সমানভাবে সন্তুষ্ট মনে করতে পারেন, অথচ তাদের পক্ষে কাজ করা মেশিনটি এক জনকে ধারাবাহিকভাবে কম মানের প্রতিনিধিত্ব দিয়েছে।

AI এজেন্টরা মধ্যস্থতাকারী হয়ে উঠছে

Project Deal গুরুত্বপূর্ণ, কারণ এটি আলোচনাকে chatbots-এর বাইরে agency পর্যন্ত নিয়ে যায়। এই সিস্টেমগুলো শুধু প্রশ্নের উত্তর দিচ্ছিল না। তারা বাজারে একে অপরের বিরুদ্ধে মানুষকে প্রতিনিধিত্ব করছিল। এতে তারা উৎপাদনশীলতার সরঞ্জামের চেয়ে বাজারে কাজ করা মধ্যস্থতাকারীর মতো হয়ে ওঠে।

এই ভূমিকা বাড়ার সঙ্গে সঙ্গে, মডেলের পার্থক্য বাণিজ্য, ক্রয়, নিয়োগ, গ্রাহকসেবা এবং অভ্যন্তরীণ ব্যবসায়িক কার্যক্রমে সরাসরি প্রভাব ফেলতে পারে। যদি শক্তিশালী সিস্টেম নিয়মিতভাবে ভালো দরকষাকষি করে, তথ্য আরও দক্ষতার সঙ্গে সাজায়, বা ভালো প্রতিপক্ষ চিহ্নিত করে, তাহলে frontier model-এ প্রবেশাধিকার একটি বাস্তব সুবিধা হয়ে ওঠে। দুর্বল পাশে থাকা মানুষরা হয়তো জানতেও পারবেন না যে তারা পিছিয়ে আছেন।

উৎসপাঠে বলা হয়নি যে এই ফলাফল স্বয়ংক্রিয়ভাবে সব বাজারে প্রযোজ্য। পরীক্ষাটি ছিল অভ্যন্তরীণ, স্বল্পমেয়াদি এবং সীমিত পরিসরের। তবু এটি এমন একটি বিষয়ের বাস্তব প্রদর্শন দেয়, যা নীতিনির্ধারক ও কোম্পানিরা আরও ঘন ঘন দেখতে পারেন: AI এজেন্টরা ব্যবহারকারীদের পক্ষে কাজ শুরু করলে, ক্ষমতার ফারাক ফলাফলের ফারাকে পরিণত হতে পারে।

Prompting যথেষ্ট নাও হতে পারে

রিপোর্টের একটি গুরুত্বপূর্ণ অনুসন্ধান হলো, আক্রমণাত্মক দর-কষাকষির নির্দেশনা পরিসংখ্যানগতভাবে উল্লেখযোগ্য উন্নতি আনেনি। এর মানে, সংস্থাগুলো ধরে নিতে পারে না যে prompts-কে আরও কঠোর করলেই দুর্বল মডেলের ঘাটতি পুষিয়ে যাবে।

ডেভেলপার এবং AI সিস্টেম ক্রেতাদের জন্য এটি একটি বাস্তব সতর্কতা। এজেন্টের কর্মক্ষমতা personality framing-এর চেয়ে core reasoning এবং decision quality-এর ওপর বেশি নির্ভর করতে পারে। একটি চকচকে interface বা শক্তিশালী ভঙ্গি অগত্যা ভালো প্রতিনিধিত্বে রূপ নেয় না।

এই পার্থক্য গুরুত্বপূর্ণ, কারণ অনেক AI deployment excellence-এর বদলে adequacy-এর ভিত্তিতে ন্যায্যতা পায়। সস্তা বা ছোট একটি মডেল কথোপকথনে যথেষ্ট ভালো মনে হলেও, যখন সেটির ওপর ব্যবহারকারীর পক্ষে সিদ্ধান্ত নেওয়া বা দর-কষাকষি করার দায় পড়ে, তখন সেটি উল্লেখযোগ্যভাবে খারাপ কাজ করতে পারে।

নীতিগত প্রশ্ন এখনই সামনে

Anthropic-এর invisible inequality শব্দবন্ধ এই একটি পরীক্ষার বাইরেও প্রতিধ্বনিত হয়। যদি সংস্থাগুলো কর্মী স্তর, গ্রাহক বিভাগ বা জনসেবায় ভিন্ন শ্রেণির AI এজেন্ট ব্যবহার করে, তবে ব্যবহারস্থলে স্পষ্ট অন্যায়ের লক্ষণ ছাড়াই অসম আচরণ তৈরি হতে পারে।

এটি স্রেফ transparency-এর চেয়েও কঠিন governance সমস্যা। ব্যবহারকারীদের AI involved ছিল বলা, সেটি অন্য কারও জন্য ব্যবহৃত AI-এর মতোই সক্ষম ছিল কি না, সেই প্রশ্নের উত্তর দেয় না। আর যখন ব্যবহারকারীর অভিজ্ঞতা তবু ন্যায্য মনে হয়, তখন বাজার বা প্রতিষ্ঠান সেই অসাম্য ঠিক করার তাৎক্ষণিক চাপ অনুভব নাও করতে পারে।

অতএব Project Deal-কে প্রাথমিক সতর্কবার্তা হিসেবে পড়া উচিত। এটি দেখায় যে AI access কেবল ডিজিটাল সহকারী পাওয়ার প্রশ্ন নয়; কোন সহকারী পাওয়া গেল, এবং stakes জড়িত থাকলে সেটি কতটা সক্ষম, সেটিও সমান গুরুত্বপূর্ণ।

  • Anthropic Slack-এ বাস্তব লেনদেনের জন্য Claude এজেন্ট ব্যবহার করে এক সপ্তাহব্যাপী অভ্যন্তরীণ বাজার চালায়।
  • Claude Opus 4.5, গড়ে Claude Haiku 4.5-এর চেয়ে ভালো দাম এবং বেশি চুক্তি পায়।
  • দুর্বল এজেন্ট দ্বারা প্রতিনিধিত্ব পাওয়া ব্যবহারকারীরা খারাপ ফল সত্ত্বেও ন্যায্যতাকে একইভাবে রেট করেন।

এই নিবন্ধটি The Decoder-এর প্রতিবেদনের ওপর ভিত্তি করে। মূল নিবন্ধটি পড়ুন.

Originally published on the-decoder.com