குரல் AI இப்போது வேகமான பதில்களைத் தாண்டி நகர்கிறது
OpenAI தனது API-யில் மூன்று புதிய ஆடியோ மாதிரிகளை அறிமுகப்படுத்தியுள்ளது; வேகமாக பதிலளிப்பதை மட்டும் அல்லாமல் அதற்கு மேற்பட்டவற்றை செய்யக்கூடிய குரல் அமைப்புகளுக்கான ஒரு படியாக இந்த வெளியீட்டை நிறுவனம் விளக்குகிறது. புதிய மாதிரிகள் GPT-Realtime-2, GPT-Realtime-Translate, மற்றும் GPT-Realtime-Whisper. இவை ஒன்றாக, மென்பொருள் கோரிக்கைகளை காரணமறிந்து புரிந்துகொள்வது, பேசும் போதே மொழிபெயர்ப்பது, மற்றும் பேசுபவர்களை நேரலையில் எழுத்துப்பதிவு செய்வது போன்ற நேரடி உரையாடல் ஓட்டங்களை ஆதரிக்க வடிவமைக்கப்பட்டுள்ளன.
இயல்பாக கேட்கும் ஒலி அல்லது குறைந்த தாமதமான முறைமாற்றம் மட்டும் பயனுள்ள குரல் இடைமுகத்திற்கு போதாது என்பதே நிறுவனத்தின் வாதம். நிஜ உலகப் பொருட்களில், ஒரு குரல் அமைப்பு நோக்கத்தைப் புரிந்துகொள்ள வேண்டும், சூழலைத் தொடர்ந்து வைத்திருக்க வேண்டும், ஒருவர் திசை மாற்றும்போது அதைச் சமாளிக்க வேண்டும், மேலும் உரையாடல் நகர்ந்துகொண்டிருக்கும்போதே சில நேரங்களில் கருவிகளையும் பயன்படுத்த வேண்டும். இதனால் குரல் ஒரு வெளிப்பாட்டு அடுக்கு அல்ல, செயல்பாட்டு இடைமுகமாக மாறுகிறது.
மூன்று மாதிரிகள், மூன்று தனித்த பணிகள்
GPT-Realtime-2, GPT-5 தரம்சார்ந்த reasoning கொண்ட OpenAI-யின் முதல் குரல் மாதிரியாக விவரிக்கப்படுகிறது. இங்கு கவனம் ஒலி தரத்திற்கே அல்ல, கடினமான கோரிக்கைகளை கையாள்வதும் உரையாடலை இயல்பாக முன்னேற்றுவதுமாகும். பயனர்கள் சாதாரண மொழியில் தேவையைச் சொல்கின்ற voice-to-action சூழல்களுக்கு இந்த மாதிரி பொருத்தப்பட்டுள்ளது; அடுத்த படிகளை அமைப்பு காரணமறிந்து தீர்மானிக்க வேண்டும் என எதிர்பார்க்கப்படுகிறது.
GPT-Realtime-Translate நேரடி பல்மொழி தொடர்புக்காக உருவாக்கப்பட்டுள்ளது. OpenAI கூறுவதன்படி, இந்த மாதிரி 70-க்கும் மேற்பட்ட உள்ளீடு மொழிகளில் இருந்து 13 வெளியீடு மொழிகளுக்கு பேசும் மொழியை, பேசுபவரின் வேகத்துடன் இணைந்து மொழிபெயர்க்க முடியும். வாடிக்கையாளர் சேவை, பயணம், உலக நிகழ்வுகள், மற்றும் பணியிடம் தொடர்பு ஆகியவற்றில் இந்தத் திறன் முக்கியமானது; ஏனெனில் மொழிபெயர்ப்பின் மதிப்பு வேகம் மற்றும் உரையாடல் தொடர்ச்சியில்தான் பெரிதும் சார்ந்திருக்கிறது.
GPT-Realtime-Whisper ஸ்ட்ரீமிங் speech-to-text-ஐ மையமாகக் கொண்டது, பேசுபவர் பேசிக்கொண்டிருக்கும்போதே நேரலையில் எழுத்துப்பதிவு செய்கிறது. நம்பகமான நேரலை எழுத்துப்பதிவு உதவியாளர்கள், ஆதரவு அமைப்புகள், கூட்ட கருவிகள், மற்றும் அணுகல்தன்மை பயன்பாடுகள் உள்ளிட்ட பல குரல் தயாரிப்புகளின் அடிப்படை அடுக்காகும்.



