రియల్-టైమ్ వాయిస్ ఇంటర్‌ఫేస్‌లలోకి OpenAI మరింత లోతుగా ప్రవేశిస్తోంది

OpenAI తన APIకి కొత్త వాయిస్ ఇంటెలిజెన్స్ ఫీచర్ల సముదాయాన్ని జోడించింది, దీంతో సాఫ్ట్‌వేర్ ఉత్పత్తుల్లో లైవ్ ఆడియోతో డెవలపర్లు మరింత చేయగలరు. ఈ కొత్త టూల్స్ అప్లికేషన్లు యూజర్లతో మాట్లాడటానికి, మాటను ట్రాన్స్క్రైబ్ చేయడానికి, సంభాషణలు జరుగుతున్నప్పుడు వాటిని అనువదించడానికి రూపొందించబడ్డాయని కంపెనీ చెబుతోంది.

ఈ విడుదలలో మూడు ప్రధాన సామర్థ్యాలు ఉన్నాయి: GPT-Realtime-2, GPT-Realtime-Translate మరియు GPT-Realtime-Whisper. ఇవి కలిసి, సాధారణ వాయిస్ ఇన్‌పుట్-అవుట్‌పుట్‌ను మించి, ప్రత్యక్ష సంభాషణ ప్రవాహంలో వినగల, తర్కించగల, అనువదించగల, స్పందించగల వ్యవస్థల వైపు ఒక విస్తృత ప్రయత్నాన్ని సూచిస్తున్నాయి.

కొత్తది ఏమిటి

మొదటి మోడల్ GPT-Realtime-2, నిజమైన వోకల్ ఇంటరాక్షన్ కోసం మెరుగుపరచబడిన వాయిస్ మోడల్‌గా పరిచయం చేయబడింది. ఇది పాత GPT-Realtime-1.5 కంటే భిన్నమని OpenAI చెబుతోంది, ఎందుకంటే ఇది GPT-5-class reasoning ఆధారంగా నిర్మించబడింది మరియు మరింత సంక్లిష్టమైన యూజర్ అభ్యర్థనలను నిర్వహించడానికి ఉద్దేశించబడింది. ఒక సంభాషణ కేవలం చిన్న prompts వరుస మాత్రమే కాకుండా, మరింత సందర్భం మరియు నిర్ణయాల అవసరం ఉన్న పరిస్థితుల్లో వాయిస్ సిస్టమ్‌లను మరింత సామర్థ్యవంతం చేయాలనే దిశగా ఇది సంకేతం ఇస్తుంది.

రెండవ విడుదల, GPT-Realtime-Translate, లైవ్ అనువాదం కోసం ఉద్దేశించబడింది. సంభాషణాత్మక సందర్భంలో మాట్లాడేవారి వేగానికి అనుగుణంగా రియల్-టైమ్ అనువాదాన్ని అందించగలదని OpenAI చెబుతోంది. అందించిన మూల పాఠ్యం ప్రకారం, ఇది 70 కంటే ఎక్కువ input languages మరియు 13 output languages‌ను మద్దతు ఇస్తుంది.

మూడవ టూల్, GPT-Realtime-Whisper, లైవ్ speech-to-text transcription‌పై దృష్టి సారిస్తుంది. మాట్లాడుతున్న సంభాషణలు జరుగుతున్న క్షణంలోనే వాటిని పట్టుకుని, తమ అప్లికేషన్లలో వెంటనే transcription ను నిర్మించుకునే మార్గాన్ని డెవలపర్లకు ఇస్తుందని OpenAI చెబుతోంది.