রিয়েল-টাইম ভয়েস ইন্টারফেসে আরও এগোল OpenAI
OpenAI তাদের API-তে ভয়েস ইন্টেলিজেন্স ফিচারের একটি নতুন সেট যোগ করেছে, যা ডেভেলপারদের সফটওয়্যার পণ্যে লাইভ অডিও নিয়ে আরও বেশি কিছু করতে দেবে। কোম্পানির মতে, এই নতুন টুলগুলো অ্যাপ্লিকেশনকে ব্যবহারকারীর সঙ্গে কথা বলতে, বক্তৃতা ট্রান্সক্রাইব করতে এবং কথোপকথন চলাকালীনই অনুবাদ করতে সাহায্য করার জন্য তৈরি।
এই রিলিজে তিনটি মূল সক্ষমতা রয়েছে: GPT-Realtime-2, GPT-Realtime-Translate এবং GPT-Realtime-Whisper। একসঙ্গে এগুলো সাধারণ ভয়েস ইনপুট-আউটপুটের বাইরে গিয়ে এমন সিস্টেমের দিকে একটি বৃহত্তর প্রচেষ্টা, যা লাইভ কথোপকথনের প্রবাহে শুনতে, বিশ্লেষণ করতে, অনুবাদ করতে এবং সাড়া দিতে পারে।
নতুন কী
প্রথম মডেল GPT-Realtime-2-কে একটি উন্নত ভয়েস মডেল হিসেবে উপস্থাপন করা হয়েছে, যা বাস্তবসম্মত কণ্ঠস্বরের ইন্টারঅ্যাকশনের জন্য তৈরি। OpenAI বলছে, এটি আগের GPT-Realtime-1.5 থেকে আলাদা, কারণ এটি GPT-5-class reasoning দিয়ে তৈরি, যাতে আরও জটিল ব্যবহারকারীর অনুরোধ সামলানো যায়। এর মানে, কেবল ছোট ছোট prompt-এর ধারাবাহিকতা নয়, বরং বেশি প্রেক্ষাপট ও সিদ্ধান্তের প্রয়োজন হয় এমন পরিস্থিতিতেও ভয়েস সিস্টেমকে আরও সক্ষম করতে চায় কোম্পানি।
দ্বিতীয় লঞ্চ, GPT-Realtime-Translate, লাইভ অনুবাদের জন্য তৈরি। OpenAI বলছে, এটি কথোপকথনভিত্তিক পরিবেশে বক্তার গতির সঙ্গে তাল মিলিয়ে রিয়েল-টাইম অনুবাদ দিতে পারে। দেওয়া উৎস টেক্সট অনুযায়ী, এটি 70-এর বেশি input languages এবং 13 output languages সমর্থন করে।
তৃতীয় টুল, GPT-Realtime-Whisper, লাইভ speech-to-text transcription-এর ওপর কেন্দ্রীভূত। OpenAI বলছে, এটি কথিত কথোপকথন যেভাবে ঘটে সেভাবেই ক্যাপচার করে, যাতে ডেভেলপাররা তাদের অ্যাপে তাৎক্ষণিক ট্রান্সক্রিপশন যোগ করতে পারেন।



