OpenAI రియల్-టైమ్ వాయిస్, అనువాదం మరియు ట్రాన్స్క్రిప్షన్ API ఫీచర్లను ప్రారంభించింది

రియల్-టైమ్ వాయిస్ ఇంటర్‌ఫేస్‌లలోకి OpenAI మరింత లోతుగా ప్రవేశిస్తోంది

OpenAI తన APIకి కొత్త వాయిస్ ఇంటెలిజెన్స్ ఫీచర్ల సముదాయాన్ని జోడించింది, దీంతో సాఫ్ట్‌వేర్ ఉత్పత్తుల్లో లైవ్ ఆడియోతో డెవలపర్లు మరింత చేయగలరు. ఈ కొత్త టూల్స్ అప్లికేషన్లు యూజర్లతో మాట్లాడటానికి, మాటను ట్రాన్స్క్రైబ్ చేయడానికి, సంభాషణలు జరుగుతున్నప్పుడు వాటిని అనువదించడానికి రూపొందించబడ్డాయని కంపెనీ చెబుతోంది.

ఈ విడుదలలో మూడు ప్రధాన సామర్థ్యాలు ఉన్నాయి: GPT-Realtime-2, GPT-Realtime-Translate మరియు GPT-Realtime-Whisper. ఇవి కలిసి, సాధారణ వాయిస్ ఇన్‌పుట్-అవుట్‌పుట్‌ను మించి, ప్రత్యక్ష సంభాషణ ప్రవాహంలో వినగల, తర్కించగల, అనువదించగల, స్పందించగల వ్యవస్థల వైపు ఒక విస్తృత ప్రయత్నాన్ని సూచిస్తున్నాయి.

కొత్తది ఏమిటి

మొదటి మోడల్ GPT-Realtime-2, నిజమైన వోకల్ ఇంటరాక్షన్ కోసం మెరుగుపరచబడిన వాయిస్ మోడల్‌గా పరిచయం చేయబడింది. ఇది పాత GPT-Realtime-1.5 కంటే భిన్నమని OpenAI చెబుతోంది, ఎందుకంటే ఇది GPT-5-class reasoning ఆధారంగా నిర్మించబడింది మరియు మరింత సంక్లిష్టమైన యూజర్ అభ్యర్థనలను నిర్వహించడానికి ఉద్దేశించబడింది. ఒక సంభాషణ కేవలం చిన్న prompts వరుస మాత్రమే కాకుండా, మరింత సందర్భం మరియు నిర్ణయాల అవసరం ఉన్న పరిస్థితుల్లో వాయిస్ సిస్టమ్‌లను మరింత సామర్థ్యవంతం చేయాలనే దిశగా ఇది సంకేతం ఇస్తుంది.

రెండవ విడుదల, GPT-Realtime-Translate, లైవ్ అనువాదం కోసం ఉద్దేశించబడింది. సంభాషణాత్మక సందర్భంలో మాట్లాడేవారి వేగానికి అనుగుణంగా రియల్-టైమ్ అనువాదాన్ని అందించగలదని OpenAI చెబుతోంది. అందించిన మూల పాఠ్యం ప్రకారం, ఇది 70 కంటే ఎక్కువ input languages మరియు 13 output languages‌ను మద్దతు ఇస్తుంది.

మూడవ టూల్, GPT-Realtime-Whisper, లైవ్ speech-to-text transcription‌పై దృష్టి సారిస్తుంది. మాట్లాడుతున్న సంభాషణలు జరుగుతున్న క్షణంలోనే వాటిని పట్టుకుని, తమ అప్లికేషన్లలో వెంటనే transcription ను నిర్మించుకునే మార్గాన్ని డెవలపర్లకు ఇస్తుందని OpenAI చెబుతోంది.

“The Turning Point: To Be Destroyed” Premiere - 2024 Tribeca Festival

డేవ్ ఎగ్గర్స్ ఓపెన్‌ఏఐ ప్రసంగంలో రచన, విద్య గురించి హెచ్చరించారు

చాట్‌జీపీటీ ఉపాధ్యాయుల జీవితాలను మరింత కష్టతరం చేసిందని, విద్యార్థులు తమ స్వంత స్వరంలో రాయడం నేర్చుకునే సామర్థ్యాన్ని దెబ్బతీయవచ్చని డేవ్ ఎగ్గర్స్ ఓపెన్‌ఏఐ సిబ్బందికి చెప్పినట్లు సమాచారం.

Read article

డెవలపర్లకు ఇది ఎందుకు ముఖ్యం

AI డెవలపర్లకు real-time audio ఒక పెద్ద సాంకేతిక మరియు ఉత్పత్తి సవాలు, ఎందుకంటే ఉపయోగకరమైన వాయిస్ సిస్టమ్‌లు పదాలను గుర్తించడం కంటే ఎక్కువ చేయాలి. అవి latency ని నిర్వహించాలి, సంభాషణ సదృశ్యతను నిలుపుకోవాలి, యూజర్లు మాట్లాడటం కొనసాగించాలని అనిపించేంత సహజంగా స్పందించాలి. reasoning, translation, transcription ను API productsలో కలిపి ఇవ్వడం ద్వారా ఈ stack ను మరింత సులభంగా అందుబాటులోకి తేవాలని OpenAI ప్రయత్నిస్తోంది.

ఈ విడుదలపై కంపెనీ ఇచ్చిన వివరణ ముఖ్యమైనది. రియల్-టైమ్ ఆడియోను సాధారణ call-and-response నుంచి, సంభాషణ కొనసాగుతుండగానే పనిచేయగల voice interfaces వైపు తీసుకెళ్తున్నామని OpenAI తెలిపింది. ఇది కీలకమైన తేడా. కేవలం ప్రత్యుత్తరం ఇచ్చే voice bot ఒకటి; కానీ ఒకే interactionలో వినగల, అర్థం చేసుకోగల, అనువదించగల, ట్రాన్స్క్రైబ్ చేయగల, ఇంకా అవసరమైతే చర్య తీసుకోగల వ్యవస్థ మరింత ఆకాంక్షాత్మకమైన ప్లాట్‌ఫార్మ్ భాగం.

కస్టమర్ సర్వీస్ అత్యంత స్పష్టమైన సమీపకాల use case, మరియు OpenAI ఆ వర్గాన్ని స్పష్టంగా సూచిస్తోంది. కానీ ఈ టూల్స్ విద్య, మీడియా, ఈవెంట్స్, క్రియేటర్ ప్లాట్‌ఫారమ్‌లలో కూడా ఉపయోగకరంగా ఉండవచ్చని కంపెనీ చెబుతోంది. ఆ ఉదాహరణలు వాయిస్ అసిస్టెంట్స్ మాత్రమే కాకుండా, రన్నింగ్ ట్రాన్స్క్రిప్ట్ లేదా అనువాద లేయర్ అవసరమయ్యే బహుభాషా లైవ్ వర్క్‌ఫ్లోలు, సంభాషణాత్మక అప్లికేషన్లకు కూడా మార్కెట్ ఉందని సూచిస్తున్నాయి.

ఉత్పత్తి మరియు విధానాల మధ్య ఉన్న ఉద్రిక్తత

అనేక AI విడుదలల మాదిరిగానే, ఈ అవకాశంతో స్పష్టమైన దుర్వినియోగ ప్రమాదాలు కూడా వస్తాయి. ప్రభావవంతంగా మాట్లాడగల, సాఫీగా అనువదించగల, రియల్ టైమ్‌లో పనిచేయగల వ్యవస్థలను చట్టబద్ధ సేవలు లేదా accessibility లక్ష్యాల కోసం ఎలా వాడతారో, అంతే సులభంగా spam, fraud లేదా deception కోసం కూడా వాడవచ్చు. అందించిన సమాచారంలో OpenAI ఈ ఆందోళనను అంగీకరించి, దుర్వినియోగాన్ని నివారించేందుకు కొత్త ఫీచర్లలో guardrails నిర్మించామని చెబుతోంది.

హానికరమైన కంటెంట్ మార్గదర్శకాలను ఉల్లంఘిస్తున్నట్లు గుర్తిస్తే సంభాషణలను నిలిపివేయవచ్చని కంపెనీ చెబుతోంది. ఇది స్థిరమైన టెక్స్ట్‌కే కాదు, లైవ్ ఆడియో ఇంటరాక్షన్‌లకూ రూపొందించిన moderation layer ను సూచిస్తుంది. ఆ భద్రతా చర్యలు ప్రాక్టీస్‌లో ఎంత ప్రభావవంతంగా ఉంటాయో మోడళ్ల కఠిన పనితీరు ఎంత ముఖ్యమో అంతే ముఖ్యమవుతుంది, ముఖ్యంగా రియల్-టైమ్ వాయిస్ కస్టమర్-ఫేసింగ్ మరియు పబ్లిక్-ఫేసింగ్ ఉత్పత్తుల్లో మరింత సాధారణమైతే.

Apple has banned home service content on upcoming Maps ads - Engadget

Apple Maps ప్రకటనలు హోమ్ సర్వీసులను మినహాయిస్తాయి

Maps కోసం Apple కొత్త ప్రకటన నియమాలు హోమ్ సర్వీసుల ప్రకటనలను నిషేధిస్తున్నాయి, విస్తృత కేటగిరీ శోధన కంటే స్థానిక అన్వేషణను కేంద్రంగా పెట్టిన ప్రారంభ వ్యూహాన్ని సూచిస్తున్నాయి.

Read article

AI ఇంటర్‌ఫేస్‌లలో విస్తృత మార్పు

ఈ విడుదల మరింత పెద్ద పరిశ్రమ ధోరణిని కూడా ప్రతిబింబిస్తోంది: AI టెక్స్ట్ బాక్స్ నుంచి ambient మరియు spoken interaction వైపు కదులుతోంది. అనువాదం, ట్రాన్స్క్రిప్షన్, స్పీచ్ జనరేషన్ ఒకప్పుడు వేర్వేరు product categories. ఇప్పుడు model providers వాటిని ఒక ఏకీకృత conversational interfaceలో కలపడానికి ప్రయత్నిస్తున్నారు.

ఇది ముఖ్యం, ఎందుకంటే AIలో గెలిచే ఉత్పత్తులు కేవలం ఉత్తమ సమాధానాలను తయారు చేసేవి కాకుండా, మానవ workflows‌లో అత్యంత సహజంగా సరిపోయేవి కావచ్చు. రియల్-టైమ్ ఆడియో ఈ ఆలోచనకు అత్యంత స్పష్టమైన పరీక్షలలో ఒకటి. యూజర్లు సహజంగా మాట్లాడగలిగితే, సమాధానాన్ని వినగలిగితే, ట్రాన్స్క్రిప్ట్ పొందగలిగితే, ఒకే సిస్టమ్‌లో భాషా అడ్డంకులను దాటగలిగితే, ఇంటర్‌ఫేస్ స్వయంగా మరింత ఉపయోగకరంగా మారుతుంది.

OpenAI యొక్క తాజా API జోడింపులు మాత్రమే ఆ భవిష్యత్తు ఎంత త్వరగా వస్తుందో నిర్ణయించవు. డెవలపర్లు ఇంకా టూల్స్‌ను ఇన్టిగ్రేట్ చేయాలి, నమ్మకత్వాన్ని నిర్వహించాలి, వాయిస్ నిజంగా ఎక్కడ ఉత్పత్తిని మెరుగుపరుస్తుందో నిర్ణయించాలి. కానీ దిశ స్పష్టంగా ఉంది. live, multimodal, action-oriented conversation applied AI లో తదుపరి ముఖ్యమైన పొరలలో ఒకటిగా ఉంటుందని కంపెనీ భావిస్తోంది.

ఈ వ్యాసం TechCrunch నివేదిక ఆధారంగా రూపొందింది. మూల వ్యాసాన్ని చదవండి.

Originally published on techcrunch.com

OpenAI తన APIలో రియల్-టైమ్ వాయిస్, అనువాదం మరియు ట్రాన్స్క్రిప్షన్ టూల్స్‌ను జోడించింది