காரணமறிதல், மொழிபெயர்ப்பு, எழுத்துப்பதிவு ஆகியவற்றுக்கான புதிய நேரடி குரல் மாதிரிகளை OpenAI வெளியிட்டுள்ளது

புதிய API மாதிரிகளுடன் காரணமறிதல், மொழிபெயர்ப்பு, நேரலை எழுத்துப்பதிவு ஆகியவற்றில் நேரடி குரல் திறனை மேலும் முன்னேற்றுகிறது OpenAI

குரல் இடைமுகங்களை, உரையாடல் நடந்து கொண்டிருக்கும்போதே காரணமறிந்து, மொழிபெயர்த்து, எழுத்துப்பதிவு செய்யக்கூடிய மேலும் திறமையான நேரடி அமைப்புகளாக மாற்றும் நோக்கில் OpenAI மூன்று புதிய ஆடியோ மாதிரிகளை அறிமுகப்படுத்தியுள்ளது.

DT Editorial AI

May 9, 2026·2 min read·502 words

குரல் AI இப்போது வேகமான பதில்களைத் தாண்டி நகர்கிறது

OpenAI தனது API-யில் மூன்று புதிய ஆடியோ மாதிரிகளை அறிமுகப்படுத்தியுள்ளது; வேகமாக பதிலளிப்பதை மட்டும் அல்லாமல் அதற்கு மேற்பட்டவற்றை செய்யக்கூடிய குரல் அமைப்புகளுக்கான ஒரு படியாக இந்த வெளியீட்டை நிறுவனம் விளக்குகிறது. புதிய மாதிரிகள் GPT-Realtime-2, GPT-Realtime-Translate, மற்றும் GPT-Realtime-Whisper. இவை ஒன்றாக, மென்பொருள் கோரிக்கைகளை காரணமறிந்து புரிந்துகொள்வது, பேசும் போதே மொழிபெயர்ப்பது, மற்றும் பேசுபவர்களை நேரலையில் எழுத்துப்பதிவு செய்வது போன்ற நேரடி உரையாடல் ஓட்டங்களை ஆதரிக்க வடிவமைக்கப்பட்டுள்ளன.

இயல்பாக கேட்கும் ஒலி அல்லது குறைந்த தாமதமான முறைமாற்றம் மட்டும் பயனுள்ள குரல் இடைமுகத்திற்கு போதாது என்பதே நிறுவனத்தின் வாதம். நிஜ உலகப் பொருட்களில், ஒரு குரல் அமைப்பு நோக்கத்தைப் புரிந்துகொள்ள வேண்டும், சூழலைத் தொடர்ந்து வைத்திருக்க வேண்டும், ஒருவர் திசை மாற்றும்போது அதைச் சமாளிக்க வேண்டும், மேலும் உரையாடல் நகர்ந்துகொண்டிருக்கும்போதே சில நேரங்களில் கருவிகளையும் பயன்படுத்த வேண்டும். இதனால் குரல் ஒரு வெளிப்பாட்டு அடுக்கு அல்ல, செயல்பாட்டு இடைமுகமாக மாறுகிறது.

மூன்று மாதிரிகள், மூன்று தனித்த பணிகள்

GPT-Realtime-2, GPT-5 தரம்சார்ந்த reasoning கொண்ட OpenAI-யின் முதல் குரல் மாதிரியாக விவரிக்கப்படுகிறது. இங்கு கவனம் ஒலி தரத்திற்கே அல்ல, கடினமான கோரிக்கைகளை கையாள்வதும் உரையாடலை இயல்பாக முன்னேற்றுவதுமாகும். பயனர்கள் சாதாரண மொழியில் தேவையைச் சொல்கின்ற voice-to-action சூழல்களுக்கு இந்த மாதிரி பொருத்தப்பட்டுள்ளது; அடுத்த படிகளை அமைப்பு காரணமறிந்து தீர்மானிக்க வேண்டும் என எதிர்பார்க்கப்படுகிறது.

GPT-Realtime-Translate நேரடி பல்மொழி தொடர்புக்காக உருவாக்கப்பட்டுள்ளது. OpenAI கூறுவதன்படி, இந்த மாதிரி 70-க்கும் மேற்பட்ட உள்ளீடு மொழிகளில் இருந்து 13 வெளியீடு மொழிகளுக்கு பேசும் மொழியை, பேசுபவரின் வேகத்துடன் இணைந்து மொழிபெயர்க்க முடியும். வாடிக்கையாளர் சேவை, பயணம், உலக நிகழ்வுகள், மற்றும் பணியிடம் தொடர்பு ஆகியவற்றில் இந்தத் திறன் முக்கியமானது; ஏனெனில் மொழிபெயர்ப்பின் மதிப்பு வேகம் மற்றும் உரையாடல் தொடர்ச்சியில்தான் பெரிதும் சார்ந்திருக்கிறது.

GPT-Realtime-Whisper ஸ்ட்ரீமிங் speech-to-text-ஐ மையமாகக் கொண்டது, பேசுபவர் பேசிக்கொண்டிருக்கும்போதே நேரலையில் எழுத்துப்பதிவு செய்கிறது. நம்பகமான நேரலை எழுத்துப்பதிவு உதவியாளர்கள், ஆதரவு அமைப்புகள், கூட்ட கருவிகள், மற்றும் அணுகல்தன்மை பயன்பாடுகள் உள்ளிட்ட பல குரல் தயாரிப்புகளின் அடிப்படை அடுக்காகும்.

AI & Robotics

Anthropic சுமார் $900 பில்லியன் மதிப்பீட்டில் $50 பில்லியன் வரை திரட்டக்கூடிய ஒரு நிதி சுற்றை குறித்து விவாதித்து வருவதாக கூறப்படுகிறது; இது AI வருமான வளர்ச்சி மற்றும் compute அணுகலை முதலீட்டாளர்கள் எவ்வளவு ஆக்கிரமமாக பரிசளிக்கிறார்கள் என்பதற்கான அறிகுறி.

DT Editorial AI·May 8, 2026·via the-decoder.com

இந்த வகை குறித்து உருவாக்குநர்கள் ஏன் கவலை கொள்கிறார்கள்

OpenAI இந்த வெளியீட்டை மென்பொருள் பயன்பாட்டில் ஏற்படும் விரிவான மாற்றத்தின் ஒரு பகுதியாகக் காட்டுகிறது. தட்டச்சு செய்வது சிரமமானதாக அல்லது சாத்தியமற்றதாக இருக்கும் போது குரல் பயனுள்ளதாக இருக்கும்: வாகனம் ஓட்டும்போது, விமான நிலையத்துக்குள் நடக்கும்போது, விரும்பிய மொழியில் பேசும்போது, அல்லது கைகளைப் பயன்படுத்தாமல் ஒரு பணியைச் செய்யும்போது. ஆனால் வணிக ரீதியாக பொருள் கொள்ள, இந்த அமைப்புகள் வெறும் உரையாடுவதைக் கடந்திருக்க வேண்டும். மொழி புரிதலை உண்மையான தயாரிப்பு நடத்தைவுடன் இணைக்க வேண்டும்.

அதனால்தான் நிறுவனத்தின் “voice-to-action” என்ற வடிவமைப்பு முக்கியமானது. திறமையான குரல் முகவர் கேட்கவும், காரணமறியவும், மொழிபெயர்க்கவும், எழுத்துப்பதிவு செய்யவும், நடவடிக்கை எடுக்கவும் ஒரே தொடர்ச்சியான சுழற்சியில் முடியும் வகையில் இருக்க வேண்டும். உருவாக்குநர்கள் இந்தப் பணிச்சூழலின் அதிகமான பகுதியை ஒரே நேரடி அடுக்கில் நேரடியாக கட்ட முடிந்தால், மொத்த அனுபவம் குறைவாக உடையும் தன்மையுடன் இருக்கும்.

நேரடி AI-யில் போட்டி அழுத்தம்

இந்த தயாரிப்பு வெளியீடு பல்மாதிரி AI மற்றும் உரையாடல் இடைமுகங்களைச் சுற்றியுள்ள அதிகரிக்கும் போட்டியையும் காட்டுகிறது. நேரடி ஆடியோ ஒரு முக்கிய முனையாக மாறியுள்ளது, ஏனெனில் அது உதவியாளர்கள், நிறுவன தானியக்கம், மொழிபெயர்ப்பு, அணுகல்தன்மை, மற்றும் வாடிக்கையாளர் ஆதரவு ஆகியவற்றின் சந்திப்பில் உள்ளது. இதை நன்றாக கையாளும் மாதிரிகள் வெறும் chat மேம்பாடுகள் அல்ல. அவை மென்பொருள் அமைப்புகளுக்கான முன் முனையாகச் செயல்படும் வேட்பாளர்கள்.

உருவாக்குநர்களுக்கு நடைமுறை கேள்வி என்னவென்றால், இந்த மாதிரிகள் speech recognition, மொழிபெயர்ப்பு, காரணமறிதல், மற்றும் பதில் அமைப்புகளைத் தனித்தனியாக இணைக்கும் பொறியியல் சுமையை குறைக்கிறதா என்பதுதான். OpenAI-யின் வாக்குறுதி அது ஆம் என்பதே; புதிய realtime மாதிரிகள் அதனால் மேலும் இயல்பான, மேலும் பயனுள்ள குரல் அனுபவங்களை ஆதரிக்க முடியும் என்பதுதான்.

பெரிய மாற்றம்: கேட்டு செயல்படக்கூடிய மென்பொருள்

இந்த அறிவிப்பில் தனித்துத் தெரியும் விஷயம், குரல் ஒரு புதுமை அடுக்காக இருப்பதிலிருந்து விலகி நகர்வதுதான். OpenAI தெளிவாக ஆடியோவை மனிதர்கள் மற்றும் தயாரிப்புகள் இடையிலான இடைமுகமாக நிலைநிறுத்துகிறது. இதன் பொருள், மென்பொருளிடம் பேசுவது ஒரு கேள்வி கேட்கும் மற்றொரு வழி மட்டுமல்ல; வேலை முடிக்கவும் ஒரு வழி ஆகும் எதிர்காலம். மாதிரிகள் விவரித்தபடி செயல்பட்டால், பணிகள், மொழிபெயர்ப்புகள், மற்றும் எழுத்துப்பதிவுகள் ஒரே நேரத்தில் நடைபெறும் போதும் பதிலளிப்புத் திறனைத் தக்கவைத்துக் கொள்ளும் அமைப்புகளை உருவாக்க உருவாக்குநர்கள் முடியும்.

இதனால் விசைப்பலகை மற்றும் திரை இடைமுகங்கள் மறைந்து விடும் என்பதில்லை. அதாவது, மென்பொருளின் மேலும் பல பிரிவுகளுக்கு இரண்டாவது நுழைவு புள்ளி கிடைக்கலாம்: தொடர்ச்சியான பேச்சு, சூழல், மற்றும் நடவடிக்கையை மையமாகக் கொண்ட ஒன்று. இந்த புதிய மாதிரி வெளியீடு அந்த இடைமுகத்தை நடைமுறையில் வெளியிடத் தகுந்த அளவு பயனுள்ளதாக மாற்றும் முயற்சியே.

இந்தக் கட்டுரை OpenAI-யின் செய்தியறிக்கையை அடிப்படையாகக் கொண்டது. மூலக் கட்டுரையைப் படிக்கவும்.

குரல் AI இப்போது வேகமான பதில்களைத் தாண்டி நகர்கிறது

மூன்று மாதிரிகள், மூன்று தனித்த பணிகள்

Related Articles

Keep Reading

ஓட்டுநர்களுக்கும் பயணிகளுக்கும் Uber நேரடி சந்தைத் தரவை AI வழிகாட்டுதலாக மாற்றுகிறது

இந்த வகை குறித்து உருவாக்குநர்கள் ஏன் கவலை கொள்கிறார்கள்

நேரடி AI-யில் போட்டி அழுத்தம்

பெரிய மாற்றம்: கேட்டு செயல்படக்கூடிய மென்பொருள்

Comments (0)