OpenAI ரியல்-டைம் குரல், மொழிபெயர்ப்பு மற்றும் transcription API அம்சங்களை அறிமுகப்படுத்துகிறது

நேரடி குரல் இடைமுகங்களில் OpenAI இன்னும் முன்னேறுகிறது

OpenAI தனது API-யில் குரல் நுண்ணறிவு அம்சங்களின் புதிய தொகுப்பைச் சேர்த்துள்ளது; இதன் மூலம் மென்பொருள் தயாரிப்புகளில் நேரடி ஆடியோவுடன் டெவலப்பர்கள் மேலும் பலவற்றை செய்ய முடிகிறது. புதிய கருவிகள் பயன்பாடுகள் பயனர்களுடன் பேசவும், பேச்சை உரையாக்கவும், உரையாடல்கள் நடைபெறும் போதே அவற்றை மொழிபெயர்க்கவும் உதவும் வகையில் வடிவமைக்கப்பட்டுள்ளன என்று நிறுவனம் கூறுகிறது.

இந்த வெளியீட்டில் மூன்று முக்கிய திறன்கள் உள்ளன: GPT-Realtime-2, GPT-Realtime-Translate மற்றும் GPT-Realtime-Whisper. இவை இணைந்து, சாதாரண குரல் உள்ளீடு மற்றும் வெளியீட்டைத் தாண்டி, ஒரு நேரடி உரையாடலின் ஓட்டத்திலேயே கேட்கவும், தர்க்கிக்கவும், மொழிபெயர்க்கவும், பதிலளிக்கவும் கூடிய அமைப்புகளுக்கான விரிவான முயற்சியை உருவாக்குகின்றன.

என்ன புதியது

முதல் மாடல் GPT-Realtime-2, இயற்கைத் தன்மை கொண்ட குரல் தொடர்புக்காக மேம்படுத்தப்பட்ட ஒரு குரல் மாடலாக அறிமுகப்படுத்தப்படுகிறது. இது முந்தைய GPT-Realtime-1.5-இல் இருந்து வேறுபடுகிறது என்று OpenAI கூறுகிறது, ஏனெனில் இது GPT-5 நிலை reasoning-ஐ அடிப்படையாகக் கொண்டு, மேலும் சிக்கலான பயனர் கோரிக்கைகளை கையாளும் வகையில் உருவாக்கப்பட்டுள்ளது. இதனால், ஒரு உரையாடல் என்பது குறுகிய prompts-களின் தொடர் மட்டுமல்லாமல், கூடுதல் சூழல் மற்றும் முடிவு எடுக்கும் திறன் தேவைப்படும் சூழல்களிலும் குரல் அமைப்புகளை மேலும் திறன் வாய்ந்ததாக மாற்ற நிறுவனம் முயல்கிறது என்பது தெரிகிறது.

இரண்டாவது வெளியீடு, GPT-Realtime-Translate, நேரடி மொழிபெயர்ப்புக்காக உருவாக்கப்பட்டுள்ளது. உரையாடல் சூழலில் பேசுபவரின் வேகத்துடன் ஒத்திசைந்து செயல்படும் real-time translation-ஐ இது வழங்க முடியும் என்று OpenAI கூறுகிறது. வழங்கப்பட்ட மூல உரைப்படி, இது 70-க்கும் அதிகமான input languages மற்றும் 13 output languages-ஐ ஆதரிக்கிறது.

மூன்றாவது கருவி, GPT-Realtime-Whisper, நேரடி speech-to-text transcription-ஐ மையமாகக் கொண்டது. பேசப்படும் உரையாடல்கள் நிகழும் போதே அவற்றைப் பிடித்து, தங்கள் பயன்பாடுகளில் உடனடி transcription-ஐச் சேர்க்க டெவலப்பர்களுக்கு வழி வழங்குகிறது என்று OpenAI கூறுகிறது.

Two drones, one yellow, one grey, almost identical otherwise.

FCC moves toward retroactive ban on suspected DJI front companies

The U.S. communications regulator is preparing to use a new enforcement tool against companies it says disguised DJI products to keep them on the American market.

Read article

டெவலப்பர்களுக்கு இது ஏன் முக்கியம்

AI டெவலப்பர்களுக்கு real-time audio ஒரு பெரிய தொழில்நுட்ப மற்றும் தயாரிப்பு சவாலாக இருந்து வருகிறது, ஏனெனில் பயனுள்ள குரல் அமைப்புகள் சொற்களை அறிதல் மட்டுமல்லாமல் மேலும் பலவற்றைச் செய்ய வேண்டும். அவை latency-ஐ நிர்வகிக்க வேண்டும், உரையாடல் ஒழுங்கைத் தக்கவைக்க வேண்டும், பயனர்கள் தொடர்ந்து பேச இயலுமாறு இயல்பாகத் தோன்றும் வகையில் பதிலளிக்க வேண்டும். reasoning, translation மற்றும் transcription-ஐ API products-இல் இணைப்பதன் மூலம், இந்த stack-ஐ எளிதாக அணுகக்கூடியதாக மாற்ற OpenAI முயல்கிறது.

வெளியீடு குறித்த நிறுவனத்தின் சொந்த விளக்கம் முக்கியமானது. real-time audio-வை எளிய call-and-response-இல் இருந்து, உரையாடல் நடைபெறும் போதே வேலை செய்யக்கூடிய voice interfaces-களுக்குத் தள்ளுகிறது என்று OpenAI கூறியது. இது முக்கியமான வேறுபாடு. வெறும் பதில் அளிக்கும் ஒரு voice bot ஒன்று; ஆனால் ஒரே interaction-இல் கேட்கவும், புரிந்துகொள்ளவும், மொழிபெயர்க்கவும், உரையாக்கவும், சாத்தியமாக நடவடிக்கை எடுக்கவும் கூடிய ஒரு அமைப்பு இன்னும் பெரிய தளக் கூறு.

Customer service என்பது மிகவும் தெளிவான குறுகிய கால பயன்பாட்டு நிலை, அதைக் OpenAI வெளிப்படையாகக் குறிப்பிடுகிறது. ஆனால் இந்த கருவிகள் கல்வி, ஊடகம், நிகழ்வுகள் மற்றும் creator platforms-இலும் பயனுள்ளதாக இருக்கலாம் என்றும் நிறுவனம் கூறுகிறது. அந்த எடுத்துக்காட்டுகள் voice assistants மட்டுமல்லாது, running transcript அல்லது translation layer தேவைப்படும் multilingual live workflows மற்றும் conversational applications-க்கு ஒரு சந்தை இருப்பதை சுட்டிக்காட்டுகின்றன.

தயாரிப்பு மற்றும் கொள்கை இடையிலான பதற்றம்

பல AI வெளியீடுகளைப் போலவே, இந்த வாய்ப்புடன் தெளிவான தவறான பயன்பாட்டு அபாயங்களும் உள்ளன. நம்பவைக்கும் வகையில் பேசக்கூடிய, சீராக மொழிபெயர்க்கக்கூடிய, real time-இல் இயங்கக்கூடிய அமைப்புகள், சட்டப்பூர்வமான சேவை அல்லது accessibility இலக்குகளைப் போலவே spam, fraud அல்லது deception-க்கும் எளிதில் பயன்படுத்தப்படலாம். வழங்கப்பட்ட பொருளில் OpenAI இந்த கவலையை ஏற்றுக்கொண்டு, துஷ்பிரயோகத்தைத் தடுக்க புதிய அம்சங்களில் guardrails அமைத்துள்ளதாக கூறுகிறது.

தீங்கு விளைவிக்கும் உள்ளடக்க வழிகாட்டுதல்களை மீறுவதாகக் கண்டறியப்பட்டால் உரையாடல்கள் நிறுத்தப்படலாம் என்று நிறுவனம் கூறுகிறது. இது நிலையான உரைக்கானதல்லாமல், நேரடி ஆடியோ உரையாடல்களுக்காகவும் வடிவமைக்கப்பட்ட ஒரு moderation layer-ஐக் குறிக்கிறது. இந்த பாதுகாப்புகள் நடைமுறையில் எவ்வளவு பயனுள்ளதாக இருக்கும் என்பது, குறிப்பாக customer-facing மற்றும் public-facing தயாரிப்புகளில் real-time voice அதிகமாகப் பயன்படுத்தப்பட ஆரம்பித்தால், மாடல்களின் raw performance போலவே முக்கியமாகும்.

$A fractured image of a person speaking into a microphone.$

Sony expands Udio fight with new lawsuit over 30,000 songs

Sony Music has filed a new lawsuit accusing Udio of infringing more than 30,000 songs, escalating one of the most consequential copyright fights around generative AI music.

Read article

AI இடைமுகங்களில் ஒரு பெரிய மாற்றம்

இந்த வெளியீடு ஒரு பெரிய தொழில்துறை போக்கையும் பிரதிபலிக்கிறது: AI text box-இல் இருந்து ambient மற்றும் spoken interaction-க்குத் தாவுகிறது. மொழிபெயர்ப்பு, transcription மற்றும் speech generation ஆகியவை ஒருகாலத்தில் தனித்தனி product categories ஆக இருந்தன. இப்போது model providers அவற்றை ஒரு ஒருங்கிணைந்த conversational interface-ஆக இணைக்க முயல்கின்றனர்.

இது முக்கியம், ஏனெனில் AI-யில் வெற்றி பெறும் தயாரிப்புகள் வெறும் சிறந்த பதில்களை உருவாக்குபவையாக இருக்க வேண்டியதில்லை; அவை மனித workflows-இல் மிக இயல்பாக பொருந்துபவையாக இருக்க வேண்டும். Real-time audio என்பது அந்தக் கருத்திற்கான மிகத் தெளிவான சோதனை. பயனர்கள் இயல்பாக பேசவும், ஒரு பதிலை கேட்கவும், transcript-ஐப் பெறவும், ஒரே அமைப்பில் மொழித் தடைகளைத் தாண்டவும் முடிந்தால், இடைமுகமே மேலும் பயனுள்ளதாக மாறுகிறது.

OpenAI-ன் சமீபத்திய API சேர்த்தல்கள் மட்டும் அந்த எதிர்காலம் எவ்வளவு விரைவில் வரும் என்பதை நிர்ணயிக்கவில்லை. டெவலப்பர்கள் இன்னும் கருவிகளை ஒருங்கிணைக்க, நம்பகத்தன்மையை நிர்வகிக்க மற்றும் voice உண்மையிலேயே தயாரிப்பை எங்கு மேம்படுத்துகிறது என்பதை தீர்மானிக்க வேண்டும். ஆனால் திசை தெளிவாக உள்ளது. live, multimodal, action-oriented conversation தான் applied AI-யின் அடுத்த முக்கிய அடுக்குகளில் ஒன்றாக இருக்கும் என்று நிறுவனம் நம்புகிறது.

இந்தக் கட்டுரை TechCrunch செய்தியை அடிப்படையாகக் கொண்டது. மூலக் கட்டுரையைப் படிக்கவும்.

Originally published on techcrunch.com

OpenAI தனது API-யில் நேரடி குரல், மொழிபெயர்ப்பு மற்றும் டிரான்ஸ்கிரிப்ஷன் கருவிகளைச் சேர்த்துள்ளது

நேரடி குரல் இடைமுகங்களில் OpenAI இன்னும் முன்னேறுகிறது

என்ன புதியது

FCC moves toward retroactive ban on suspected DJI front companies

டெவலப்பர்களுக்கு இது ஏன் முக்கியம்

தயாரிப்பு மற்றும் கொள்கை இடையிலான பதற்றம்

Sony expands Udio fight with new lawsuit over 30,000 songs

AI இடைமுகங்களில் ஒரு பெரிய மாற்றம்

Comments (0)

Related Articles

Apple Maps Ads Will Exclude Home Services

France orders ISPs to block Polymarket access

Truth Social to sell real-time API access to top accounts

OMB Grant Proposal Draws Fierce Backlash From Space Science Advocates

Joolca Hottap Go Review: A $700 Portable Shower for the Adventurous

Keep Reading