ভয়েস এআই নিয়ে ভিন্ন এক বাজি
প্রাক্তন OpenAI প্রধান প্রযুক্তি কর্মকর্তা মীরা মুরাতি প্রতিষ্ঠিত স্টার্টআপ Thinking Machines Lab তাদের প্রথম মডেলের একটি গবেষণা পূর্বাভাস প্রকাশ করেছে এবং এটিকে আজকের মূলধারার ভয়েস অ্যাসিস্ট্যান্টগুলি যেভাবে কাজ করে তার সরাসরি চ্যালেঞ্জ হিসেবে উপস্থাপন করেছে। কোম্পানির বর্ণনা অনুযায়ী, সিস্টেমটি অডিও, ভিডিও, এবং টেক্সটকে সমান্তরালে ২০০-মিলিসেকেন্ডের খণ্ডে প্রক্রিয়া করে, যাতে কথোপকথনকে সংকেত ও প্রতিক্রিয়ার ধারাবাহিকতা না মনে হয়ে একটি তরল বিনিময়ের মতো অনুভূত হয়।
এই নকশা সিদ্ধান্ত গুরুত্বপূর্ণ, কারণ বেশিরভাগ রিয়েল-টাইম এআই পণ্য এখনও একটি ধাপে ধাপে চালিত পাইপলাইনের ওপর নির্ভর করে। প্রার্থীর সঙ্গে দেওয়া বিবরণ অনুযায়ী, বর্তমান সিস্টেমগুলো ধারাবাহিকভাবে অডিও গ্রহণ করে, কিন্তু মূল মডেলটি সরাসরি পুরো লাইভ ইন্টারঅ্যাকশন স্ট্রিমের অভিজ্ঞতা পায় না। বরং, বাইরের উপাদানগুলো ঠিক করে কখন বক্তা শেষ করেছেন, উচ্চারণটিকে প্যাকেজ করে, এবং তারপরই সেটি সম্পূর্ণ প্রতিক্রিয়ার জন্য মডেলের কাছে পাঠায়। মডেল কথা বলার সময়, বাধা না দিলে তার উপলব্ধি কার্যত থেমে যেতে পারে।
Thinking Machines Lab-এর যুক্তি হলো, এই স্থাপত্যের মধ্যে একটি অন্তর্নিহিত সীমা রয়েছে। যদি কোনো সিস্টেমকে টার্ন-বাউন্ডারি অপেক্ষা করতে হয় এবং কখন কথা বলতে হবে তা নির্ধারণের জন্য নিম্নস্তরের সহায়ক সরঞ্জামের ওপর নির্ভর করতে হয়, তবে স্বাভাবিক কথোপকথনে মানুষ যে আচরণ আশা করে তা নিয়ে সেটি হোঁচট খাবে। কোম্পানির মতে, এর মধ্যে রয়েছে অনুরোধ করা হলে সক্রিয়ভাবে বাধা দেওয়া, উপযুক্ত ক্ষেত্রে একসঙ্গে কথা বলা, এবং দৃশ্যগত প্রেক্ষাপটে লাইভ প্রতিক্রিয়া দেওয়া।
পুরোনো প্যাটার্ন কেন যথেষ্ট নয়, স্টার্টআপের মতে
কোম্পানির বক্তব্য শুধু এতটুকু নয় যে তারা একটি দ্রুততর মডেল তৈরি করেছে। এটি এআই-তে পণ্য নকশা নিয়ে আরও বিস্তৃত একটি দাবি করছে। তাদের দৃষ্টিতে, ইন্টারঅ্যাক্টিভিটিকে সাধারণ-উদ্দেশ্যের একটি মডেলের চারপাশে মোড়ানো পাতলা একটি স্তর হিসেবে দেখা উচিত নয়। এটি মডেলের স্বাভাবিক আচরণের অংশ হওয়া উচিত।
এই যুক্তি Thinking Machines Lab-কে এআই বাজারে একটি গুরুত্বপূর্ণ কৌশলগত অবস্থানে রাখে। অনেক কোম্পানি বড় মডেলকে যুক্তি, কোডিং, এবং অনুসন্ধানে আরও সক্ষম করে তুলতে মনোযোগ দিয়েছে, তারপর সেগুলোকে বক্তৃতার জন্য মানিয়ে নিতে অর্কেস্ট্রেশন স্তর যোগ করেছে। Thinking Machines Lab বলছে, এই পদ্ধতি এমন সিস্টেম তৈরি করে যা শোনা যায় যতই মসৃণ হোক, তবু তারা স্পষ্টভাবেই যান্ত্রিকই থেকে যায়।
প্রদত্ত পাঠ্য অনুযায়ী, স্টার্টআপটি তাদের পদ্ধতির তুলনা করছে OpenAI-এর GPT-Realtime-2 এবং Google-এর Gemini Live-এর মতো পণ্যের সঙ্গে। তাদের দাবি হলো, বাইরের হারনেসের বদলে এমন একটি মডেল ব্যবহার করলে যা সরাসরি লাইভ অডিও ও ভিডিও স্ট্রিম প্রক্রিয়া করে, সিস্টেমটি ইন্টারঅ্যাকশন মান এবং লেটেন্সি উভয়ই উন্নত করতে পারে। কোম্পানি আরও বলছে, তাদের পদ্ধতি একটি দ্রুত ইন্টারঅ্যাকশন মডেলকে একটি ব্যাকগ্রাউন্ড রিজনিং মডেলের সঙ্গে জোড়া লাগায়, যা তাৎক্ষণিক কথোপকথনগত প্রতিক্রিয়াশীলতা থেকে গভীর গণনাকে আলাদা করে এমন একটি স্থাপত্যের ইঙ্গিত দেয়।
মডেলটি কী সক্ষম করার কথা
সূত্রের ব্যবহারিক উদাহরণগুলো তাৎপর্যপূর্ণ। আরও স্বাভাবিক ইন্টারঅ্যাকশন মডেল এমন সংলাপ সমর্থন করতে পারে যেখানে ব্যবহারকারী সহকারীকে বলে, কিছু ভুল শোনালে মাঝপথে থামিয়ে দিতে, অথবা ব্যবহারকারী স্ক্রিনে বা ক্যামেরার দৃশ্যমান পরিসরে সক্রিয়ভাবে কিছু করার সময় প্রতিক্রিয়া জানাতে। এটি কথায় ওভারল্যাপও সমর্থন করতে পারে, যা লাইভ অনুবাদের মতো ক্ষেত্রে উপকারী হবে।
এই উদাহরণগুলো ইঙ্গিত দেয় ভয়েস ইন্টারফেস কীভাবে বিকশিত হতে পারে। বছরের পর বছর ধরে, ভয়েস সিস্টেমগুলো ব্যবহারকারীদের পরিষ্কার, সীমানাবদ্ধ কমান্ড বলতে শিখিয়েছে। পরবর্তী ধাপ নির্ভর করতে পারে এমন সিস্টেমের ওপর, যা অস্পষ্টতা, বাধা, সময় নির্ধারণ, এবং সমান্তরাল সংকেতকে একজন মানব সহযোগীর মতো সামলাতে পারবে। তা হলে, ভয়েস এআই-তে প্রতিযোগিতা কেবল কার কাছে সবচেয়ে বড় বেস মডেল আছে তা দিয়ে জেতা যাবে না, বরং কে ইন্টারঅ্যাকশনকেই কম কৃত্রিম মনে করাতে পারে তার ওপর নির্ভর করবে।
এটাই সেই বাজারের সুযোগ যা Thinking Machines Lab দখল করতে চায়। ভয়েসকে শক্তিশালী একটি টেক্সট মডেলের সঙ্গে যুক্ত বৈশিষ্ট্য হিসেবে দেখানোর বদলে, তারা ইন্টারঅ্যাকশনকে একটি প্রথম-শ্রেণির সমস্যা হিসেবে উপস্থাপন করছে। এই framing উল্লেখযোগ্য, কারণ এটি বর্তমান এআই পণ্য উন্নয়নের অন্যতম প্রভাবশালী ধারণাকে চ্যালেঞ্জ করে: যে সাধারণ বুদ্ধিমত্তার উন্নতি স্বাভাবিকভাবেই পরে ইন্টারফেসের গুণগত মানের সমস্যা সমাধান করবে।
প্রতিশ্রুতি, চাপ, এবং এরপর কী
এই প্রকাশনাটি এখনও কেবল একটি গবেষণা পূর্বাভাস, এবং কোম্পানির নিজস্ব পরিস্থিতিও গুরুত্বপূর্ণ। প্রদত্ত সূত্রে উল্লেখ করা হয়েছে যে সম্প্রতি বেশ কয়েকজন গুরুত্বপূর্ণ কর্মী স্টার্টআপটি ছেড়েছেন। অর্থাৎ, এই প্রযুক্তিগত উন্মোচন বাস্তবায়ন, জনবল, এবং শক্তিশালী গবেষণা অবস্থানকে টেকসই পণ্য ও ব্যবসায় রূপান্তর করতে পারবে কি না, সেই প্রশ্নগুলোর সঙ্গেই এসেছে।
তবুও, ঘনিষ্ঠভাবে নজরদারিতে থাকা এআই স্টার্টআপগুলোর প্রথম মডেল লঞ্চ ব্যাপক বাজারে পৌঁছানোর আগেই বৃহত্তর ক্ষেত্রকে প্রভাবিত করতে পারে। যদি Thinking Machines Lab-এর লেটেন্সি এবং ইন্টারঅ্যাকশন মান নিয়ে দাবিগুলো বিস্তৃত পরীক্ষায় টিকে যায়, তবে প্রতিদ্বন্দ্বীদের ভয়েস সিস্টেম ডিজাইনকে স্থাপত্যগত স্তরে পুনর্বিবেচনা করার চাপ পড়তে পারে, বিদ্যমান মডেলের চারপাশে আরও সরঞ্জাম যোগ করা চালিয়ে যাওয়ার বদলে।
আরও বড় শিল্পগত প্রভাবও রয়েছে। ভয়েসকে দীর্ঘদিন ধরে এআই-এর সবচেয়ে স্বাভাবিক ইন্টারফেসগুলোর একটি হিসেবে দেখা হয়েছে, তবু বাস্তবে অনেক ব্যবহারকারীর কাছে বর্তমান সহকারীরা এখনও ভঙ্গুর। অডিও, ভিডিও, এবং টেক্সট জুড়ে ধারাবাহিকভাবে উপলব্ধি, কথা বলা, এবং মানিয়ে নিতে সক্ষম একটি সিস্টেম এই বিভাগকে বহুদিনের প্রতিশ্রুত ambient, conversational computing-এর ধারণার আরও কাছে নিয়ে যাবে।
এ মুহূর্তে প্রধান takeaway অপেক্ষাকৃত সংকীর্ণ হলেও গুরুত্বপূর্ণ: খাতটির সবচেয়ে কাছ থেকে অনুসরণ করা নতুন ল্যাবগুলোর একটি তার প্রথম পদক্ষেপ নিয়েছে, এবং প্রতিযোগিতার ক্ষেত্র হিসেবে ইন্টারঅ্যাকশনের মানকেই বেছে নিয়েছে। মডেল লঞ্চে ভরা বাজারে, এটি একটি পৃথক থিসিস। এটি কতটা টেকসই হবে তা নির্ভর করবে স্বাধীন যাচাই, প্রোডাক্টাইজেশন, এবং গবেষণা পূর্বাভাসের বাইরে এগোনোর জন্য প্রয়োজনীয় দলটি ধরে রাখার ওপর।
এই নিবন্ধটি The Decoder-এর প্রতিবেদনের ওপর ভিত্তি করে লেখা। মূল নিবন্ধটি পড়ুন.
Originally published on the-decoder.com


