Thinking Machines Lab রিয়েল-টাইম মাল্টিমোডাল ভয়েস এআই মডেল চালু করেছে

ভয়েস এআই নিয়ে ভিন্ন এক বাজি

প্রাক্তন OpenAI প্রধান প্রযুক্তি কর্মকর্তা মীরা মুরাতি প্রতিষ্ঠিত স্টার্টআপ Thinking Machines Lab তাদের প্রথম মডেলের একটি গবেষণা পূর্বাভাস প্রকাশ করেছে এবং এটিকে আজকের মূলধারার ভয়েস অ্যাসিস্ট্যান্টগুলি যেভাবে কাজ করে তার সরাসরি চ্যালেঞ্জ হিসেবে উপস্থাপন করেছে। কোম্পানির বর্ণনা অনুযায়ী, সিস্টেমটি অডিও, ভিডিও, এবং টেক্সটকে সমান্তরালে ২০০-মিলিসেকেন্ডের খণ্ডে প্রক্রিয়া করে, যাতে কথোপকথনকে সংকেত ও প্রতিক্রিয়ার ধারাবাহিকতা না মনে হয়ে একটি তরল বিনিময়ের মতো অনুভূত হয়।

এই নকশা সিদ্ধান্ত গুরুত্বপূর্ণ, কারণ বেশিরভাগ রিয়েল-টাইম এআই পণ্য এখনও একটি ধাপে ধাপে চালিত পাইপলাইনের ওপর নির্ভর করে। প্রার্থীর সঙ্গে দেওয়া বিবরণ অনুযায়ী, বর্তমান সিস্টেমগুলো ধারাবাহিকভাবে অডিও গ্রহণ করে, কিন্তু মূল মডেলটি সরাসরি পুরো লাইভ ইন্টারঅ্যাকশন স্ট্রিমের অভিজ্ঞতা পায় না। বরং, বাইরের উপাদানগুলো ঠিক করে কখন বক্তা শেষ করেছেন, উচ্চারণটিকে প্যাকেজ করে, এবং তারপরই সেটি সম্পূর্ণ প্রতিক্রিয়ার জন্য মডেলের কাছে পাঠায়। মডেল কথা বলার সময়, বাধা না দিলে তার উপলব্ধি কার্যত থেমে যেতে পারে।

Thinking Machines Lab-এর যুক্তি হলো, এই স্থাপত্যের মধ্যে একটি অন্তর্নিহিত সীমা রয়েছে। যদি কোনো সিস্টেমকে টার্ন-বাউন্ডারি অপেক্ষা করতে হয় এবং কখন কথা বলতে হবে তা নির্ধারণের জন্য নিম্নস্তরের সহায়ক সরঞ্জামের ওপর নির্ভর করতে হয়, তবে স্বাভাবিক কথোপকথনে মানুষ যে আচরণ আশা করে তা নিয়ে সেটি হোঁচট খাবে। কোম্পানির মতে, এর মধ্যে রয়েছে অনুরোধ করা হলে সক্রিয়ভাবে বাধা দেওয়া, উপযুক্ত ক্ষেত্রে একসঙ্গে কথা বলা, এবং দৃশ্যগত প্রেক্ষাপটে লাইভ প্রতিক্রিয়া দেওয়া।

পুরোনো প্যাটার্ন কেন যথেষ্ট নয়, স্টার্টআপের মতে

কোম্পানির বক্তব্য শুধু এতটুকু নয় যে তারা একটি দ্রুততর মডেল তৈরি করেছে। এটি এআই-তে পণ্য নকশা নিয়ে আরও বিস্তৃত একটি দাবি করছে। তাদের দৃষ্টিতে, ইন্টারঅ্যাক্টিভিটিকে সাধারণ-উদ্দেশ্যের একটি মডেলের চারপাশে মোড়ানো পাতলা একটি স্তর হিসেবে দেখা উচিত নয়। এটি মডেলের স্বাভাবিক আচরণের অংশ হওয়া উচিত।

এই যুক্তি Thinking Machines Lab-কে এআই বাজারে একটি গুরুত্বপূর্ণ কৌশলগত অবস্থানে রাখে। অনেক কোম্পানি বড় মডেলকে যুক্তি, কোডিং, এবং অনুসন্ধানে আরও সক্ষম করে তুলতে মনোযোগ দিয়েছে, তারপর সেগুলোকে বক্তৃতার জন্য মানিয়ে নিতে অর্কেস্ট্রেশন স্তর যোগ করেছে। Thinking Machines Lab বলছে, এই পদ্ধতি এমন সিস্টেম তৈরি করে যা শোনা যায় যতই মসৃণ হোক, তবু তারা স্পষ্টভাবেই যান্ত্রিকই থেকে যায়।

প্রদত্ত পাঠ্য অনুযায়ী, স্টার্টআপটি তাদের পদ্ধতির তুলনা করছে OpenAI-এর GPT-Realtime-2 এবং Google-এর Gemini Live-এর মতো পণ্যের সঙ্গে। তাদের দাবি হলো, বাইরের হারনেসের বদলে এমন একটি মডেল ব্যবহার করলে যা সরাসরি লাইভ অডিও ও ভিডিও স্ট্রিম প্রক্রিয়া করে, সিস্টেমটি ইন্টারঅ্যাকশন মান এবং লেটেন্সি উভয়ই উন্নত করতে পারে। কোম্পানি আরও বলছে, তাদের পদ্ধতি একটি দ্রুত ইন্টারঅ্যাকশন মডেলকে একটি ব্যাকগ্রাউন্ড রিজনিং মডেলের সঙ্গে জোড়া লাগায়, যা তাৎক্ষণিক কথোপকথনগত প্রতিক্রিয়াশীলতা থেকে গভীর গণনাকে আলাদা করে এমন একটি স্থাপত্যের ইঙ্গিত দেয়।

Google says it stopped a mass cyberattack after AI was used to discover a zero-day exploit

More in AI & Robotics

জিরো-ডে খুঁজে বের করতে এবং বড় সাইবার হামলার প্রস্তুতিতে আক্রমণকারীরা AI ব্যবহার করেছিল বলে গুগল জানিয়েছে

Google’s Threat Intelligence Group বলছে, AI ব্যবহার করে একটি zero-day vulnerability খুঁজে বের করে সেটিকে অস্ত্রায়িত করার প্রথম পরিচিত ঘটনা তারা শনাক্ত করেছে, এবং পরিকল্পিত বড় হামলা থামিয়ে দেওয়া হয়েছিল বলে জানিয়েছে।

Read article

মডেলটি কী সক্ষম করার কথা

সূত্রের ব্যবহারিক উদাহরণগুলো তাৎপর্যপূর্ণ। আরও স্বাভাবিক ইন্টারঅ্যাকশন মডেল এমন সংলাপ সমর্থন করতে পারে যেখানে ব্যবহারকারী সহকারীকে বলে, কিছু ভুল শোনালে মাঝপথে থামিয়ে দিতে, অথবা ব্যবহারকারী স্ক্রিনে বা ক্যামেরার দৃশ্যমান পরিসরে সক্রিয়ভাবে কিছু করার সময় প্রতিক্রিয়া জানাতে। এটি কথায় ওভারল্যাপও সমর্থন করতে পারে, যা লাইভ অনুবাদের মতো ক্ষেত্রে উপকারী হবে।

এই উদাহরণগুলো ইঙ্গিত দেয় ভয়েস ইন্টারফেস কীভাবে বিকশিত হতে পারে। বছরের পর বছর ধরে, ভয়েস সিস্টেমগুলো ব্যবহারকারীদের পরিষ্কার, সীমানাবদ্ধ কমান্ড বলতে শিখিয়েছে। পরবর্তী ধাপ নির্ভর করতে পারে এমন সিস্টেমের ওপর, যা অস্পষ্টতা, বাধা, সময় নির্ধারণ, এবং সমান্তরাল সংকেতকে একজন মানব সহযোগীর মতো সামলাতে পারবে। তা হলে, ভয়েস এআই-তে প্রতিযোগিতা কেবল কার কাছে সবচেয়ে বড় বেস মডেল আছে তা দিয়ে জেতা যাবে না, বরং কে ইন্টারঅ্যাকশনকেই কম কৃত্রিম মনে করাতে পারে তার ওপর নির্ভর করবে।

এটাই সেই বাজারের সুযোগ যা Thinking Machines Lab দখল করতে চায়। ভয়েসকে শক্তিশালী একটি টেক্সট মডেলের সঙ্গে যুক্ত বৈশিষ্ট্য হিসেবে দেখানোর বদলে, তারা ইন্টারঅ্যাকশনকে একটি প্রথম-শ্রেণির সমস্যা হিসেবে উপস্থাপন করছে। এই framing উল্লেখযোগ্য, কারণ এটি বর্তমান এআই পণ্য উন্নয়নের অন্যতম প্রভাবশালী ধারণাকে চ্যালেঞ্জ করে: যে সাধারণ বুদ্ধিমত্তার উন্নতি স্বাভাবিকভাবেই পরে ইন্টারফেসের গুণগত মানের সমস্যা সমাধান করবে।

প্রতিশ্রুতি, চাপ, এবং এরপর কী

এই প্রকাশনাটি এখনও কেবল একটি গবেষণা পূর্বাভাস, এবং কোম্পানির নিজস্ব পরিস্থিতিও গুরুত্বপূর্ণ। প্রদত্ত সূত্রে উল্লেখ করা হয়েছে যে সম্প্রতি বেশ কয়েকজন গুরুত্বপূর্ণ কর্মী স্টার্টআপটি ছেড়েছেন। অর্থাৎ, এই প্রযুক্তিগত উন্মোচন বাস্তবায়ন, জনবল, এবং শক্তিশালী গবেষণা অবস্থানকে টেকসই পণ্য ও ব্যবসায় রূপান্তর করতে পারবে কি না, সেই প্রশ্নগুলোর সঙ্গেই এসেছে।

তবুও, ঘনিষ্ঠভাবে নজরদারিতে থাকা এআই স্টার্টআপগুলোর প্রথম মডেল লঞ্চ ব্যাপক বাজারে পৌঁছানোর আগেই বৃহত্তর ক্ষেত্রকে প্রভাবিত করতে পারে। যদি Thinking Machines Lab-এর লেটেন্সি এবং ইন্টারঅ্যাকশন মান নিয়ে দাবিগুলো বিস্তৃত পরীক্ষায় টিকে যায়, তবে প্রতিদ্বন্দ্বীদের ভয়েস সিস্টেম ডিজাইনকে স্থাপত্যগত স্তরে পুনর্বিবেচনা করার চাপ পড়তে পারে, বিদ্যমান মডেলের চারপাশে আরও সরঞ্জাম যোগ করা চালিয়ে যাওয়ার বদলে।

আরও বড় শিল্পগত প্রভাবও রয়েছে। ভয়েসকে দীর্ঘদিন ধরে এআই-এর সবচেয়ে স্বাভাবিক ইন্টারফেসগুলোর একটি হিসেবে দেখা হয়েছে, তবু বাস্তবে অনেক ব্যবহারকারীর কাছে বর্তমান সহকারীরা এখনও ভঙ্গুর। অডিও, ভিডিও, এবং টেক্সট জুড়ে ধারাবাহিকভাবে উপলব্ধি, কথা বলা, এবং মানিয়ে নিতে সক্ষম একটি সিস্টেম এই বিভাগকে বহুদিনের প্রতিশ্রুত ambient, conversational computing-এর ধারণার আরও কাছে নিয়ে যাবে।

এ মুহূর্তে প্রধান takeaway অপেক্ষাকৃত সংকীর্ণ হলেও গুরুত্বপূর্ণ: খাতটির সবচেয়ে কাছ থেকে অনুসরণ করা নতুন ল্যাবগুলোর একটি তার প্রথম পদক্ষেপ নিয়েছে, এবং প্রতিযোগিতার ক্ষেত্র হিসেবে ইন্টারঅ্যাকশনের মানকেই বেছে নিয়েছে। মডেল লঞ্চে ভরা বাজারে, এটি একটি পৃথক থিসিস। এটি কতটা টেকসই হবে তা নির্ভর করবে স্বাধীন যাচাই, প্রোডাক্টাইজেশন, এবং গবেষণা পূর্বাভাসের বাইরে এগোনোর জন্য প্রয়োজনীয় দলটি ধরে রাখার ওপর।

এই নিবন্ধটি The Decoder-এর প্রতিবেদনের ওপর ভিত্তি করে লেখা। মূল নিবন্ধটি পড়ুন.

More in AI & Robotics

নতুন task-handling agents-এর মাধ্যমে Google Gemini-কে Android-এ আরও গভীরে ঠেলে দিচ্ছে

Google বলছে, Samsung Galaxy S26 এবং Google Pixel 10-এ প্রথম আসা নতুন Gemini-চালিত ফিচারগুলো Android ব্যবহারকারীদের বহু-ধাপের কাজ সম্পন্ন করতে, ওয়েব কনটেন্ট সারসংক্ষেপ করতে, ফর্ম পূরণ করতে, এবং কাঁচা ভয়েস নোটকে পরিপাটি টেক্সটে রূপান্তর করতে সাহায্য করবে

Read article

Originally published on the-decoder.com

ভয়েস এআই নিয়ে ভিন্ন এক বাজি

পুরোনো প্যাটার্ন কেন যথেষ্ট নয়, স্টার্টআপের মতে

More in AI & Robotics

জিরো-ডে খুঁজে বের করতে এবং বড় সাইবার হামলার প্রস্তুতিতে আক্রমণকারীরা AI ব্যবহার করেছিল বলে গুগল জানিয়েছে

Read article

মডেলটি কী সক্ষম করার কথা

প্রতিশ্রুতি, চাপ, এবং এরপর কী

এই নিবন্ধটি The Decoder-এর প্রতিবেদনের ওপর ভিত্তি করে লেখা। মূল নিবন্ধটি পড়ুন.

More in AI & Robotics

নতুন task-handling agents-এর মাধ্যমে Google Gemini-কে Android-এ আরও গভীরে ঠেলে দিচ্ছে

Read article

Originally published on the-decoder.com

Thinking Machines Lab কথোপকথনকে কেন্দ্র করে তৈরি একটি রিয়েল-টাইম মাল্টিমোডাল মডেল উন্মোচন করেছে

ভয়েস এআই নিয়ে ভিন্ন এক বাজি

পুরোনো প্যাটার্ন কেন যথেষ্ট নয়, স্টার্টআপের মতে

জিরো-ডে খুঁজে বের করতে এবং বড় সাইবার হামলার প্রস্তুতিতে আক্রমণকারীরা AI ব্যবহার করেছিল বলে গুগল জানিয়েছে

মডেলটি কী সক্ষম করার কথা

প্রতিশ্রুতি, চাপ, এবং এরপর কী

নতুন task-handling agents-এর মাধ্যমে Google Gemini-কে Android-এ আরও গভীরে ঠেলে দিচ্ছে

Comments (0)

Keep Reading

Thinking Machines Lab কথোপকথনকে কেন্দ্র করে তৈরি একটি রিয়েল-টাইম মাল্টিমোডাল মডেল উন্মোচন করেছে

ভয়েস এআই নিয়ে ভিন্ন এক বাজি

পুরোনো প্যাটার্ন কেন যথেষ্ট নয়, স্টার্টআপের মতে

জিরো-ডে খুঁজে বের করতে এবং বড় সাইবার হামলার প্রস্তুতিতে আক্রমণকারীরা AI ব্যবহার করেছিল বলে গুগল জানিয়েছে

মডেলটি কী সক্ষম করার কথা

প্রতিশ্রুতি, চাপ, এবং এরপর কী

নতুন task-handling agents-এর মাধ্যমে Google Gemini-কে Android-এ আরও গভীরে ঠেলে দিচ্ছে

Comments (0)

Keep Reading