OpenAI చెప్పింది: WebSockets వల్ల Agentic API Workflows సుమారు 40% వేగవంతమయ్యాయి

OpenAI చెప్పింది: Persistent WebSocket Sessions వల్ల Agent Loop Latency సుమారు 40% తగ్గింది

Persistent WebSocket connections మరియు connection-scoped caching మీద ఆధారపడిన Responses API agent loop పునర్నిర్మాణం, model inference వేగం బాగా పెరిగిన నేపథ్యంలో end-to-end latencyని సుమారు 40% తగ్గించిందని OpenAI చెబుతోంది.

DT Editorial AI

Apr 26, 2026·3 min read·625 words

వేగవంతమైన Agent Loops ఎందుకు ముఖ్యమో

agent-style workflowsను గణనీయంగా వేగవంతం చేయడానికి తమ Responses API వెనుక ఉన్న plumbingను తిరిగి రూపకల్పన చేశామని OpenAI చెబుతోంది. complex tasks సమయంలో tools, models, మరియు API calls మధ్య నిరంతరం ముందుకు-వెనుకకు జరిగే ఆలస్యాన్ని తగ్గించడమే ఈ మార్పు లక్ష్యం.

ఏప్రిల్ 22న ప్రచురితమైన ఒక technical post‌లో, Codex వంటి systems ఒకే assignment‌ను పూర్తిచేయడానికి డజన్ల కొద్దీ sequential requests అవసరం పడవచ్చని కంపెనీ వివరించింది: model తదుపరి ఏం చేయాలో నిర్ణయిస్తుంది, client side‌లో ఒక tool నడుస్తుంది, ఫలితం APIకి పంపబడుతుంది, ఆ చక్రం మళ్లీ మొదలవుతుంది. ఆ pattern‌లో చిన్న overhead కూడా వేగంగా పేరుకుపోతుంది.

OpenAI ప్రకారం, inference స్వయంగా వేగంగా మారేకొద్దీ performance సమస్య మరింత స్పష్టంగా కనిపించింది. Responses APIలోని earlier flagship models సుమారు 65 tokens per second వేగంతో పనిచేశాయని కంపెనీ తెలిపింది. GPT-5.3-Codex-Spark కోసం Cerebras hardwareను ఉపయోగించి 1,000 tokens per second కంటే ఎక్కువ లక్ష్యాన్ని OpenAI పెట్టుకుంది. model generation అంత వేగంగా మారిన తర్వాత, loop‌లోని నెమ్మదైన భాగాలను దాచిపెట్టడం కష్టం అయింది.

Inference Bottleneck నుండి API Bottleneck వరకు

OpenAI agent latencyని మూడు broad stages‌గా విభజిస్తుంది: API service work, model inference, మరియు client-side time. tools execute కావాలి, context assemble కావాలి కాబట్టి client side ఇంకా ముఖ్యమే, కానీ API layer itself ఒక ముఖ్యమైన bottleneckగా మారిందని కంపెనీ చెప్పింది.

ఆ మార్పు వేరే optimization strategyని అవసరం చేసింది. GPU throughput మీద మాత్రమే దృష్టి పెట్టడం బదులు, request path అంతటా frictionను తొలగించడం ప్రారంభించామని OpenAI చెబుతోంది. సుమారు 2025 నవంబర్‌లో, కంపెనీ Responses API కోసం ఒక performance sprint‌ను ప్రారంభించింది. ఇందులో rendered tokens మరియు model configurationను memoryలో cache చేయడం, inference services‌ను మరింత నేరుగా call చేసి అదనపు network hops‌ను తగ్గించడం, అలాగే కొన్ని conversationsను వేగంగా classify చేయడానికి safety stackలోని భాగాలను వేగవంతం చేయడం ఉన్నాయి.

ఈ మార్పులు time to first token‌ను దాదాపు 45% మెరుగుపరిచాయని కంపెనీ తెలిపింది. కానీ కొత్త inference stack వేగాన్ని పూర్తిగా బయటపెట్టడానికి అది ఇంకా సరిపోలేదని OpenAI చెబుతోంది.

AI & Robotics

Aleph Alpha‌ను కొనుగోలు చేయాలన్న Cohere ప్రణాళిక ఒక సాధారణ స్టార్టప్ టేకోవర్ కంటే ఎక్కువ. ఇది యూరప్‌లోను, దాని బయట కూడా ప్రభుత్వాలు మరియు కట్టుదిట్టంగా నియంత్రిత రంగాల కోసం రాజకీయ మద్దతుతో ఉన్న sovereign AI సరఫరాదారిని నిర్మించే ప్రయత్నం.

DT Editorial AI·Apr 25, 2026·via the-decoder.com

AI & Robotics

GPT-5.5ను తక్కువ పర్యవేక్షణతో, ఎక్కువ సమయం తీసుకునే, tools ఉపయోగించే workflows నిర్వహించడానికి రూపొందించారని OpenAI చెబుతోంది; ఇది coding, research, data work కోసం agent-style AI systems వైపు కంపెనీ ప్రయత్నాన్ని విస్తరిస్తోంది.

DT Editorial AI·Apr 25, 2026·via the-decoder.com

WebSocket Shift

ముఖ్యమైన మార్పు architecturalమైనది: వేర్వేరు synchronous API calls శ్రేణిని WebSockets ఉపయోగించే persistent connection‌తో Responses APIకి మార్చడం. ఆచరణలో దీని అర్థం client మరియు API మొత్తం agent loop అంతటా connectedగా ఉండగలగడం, ప్రతి సారి request stateను విడదీయి మళ్లీ నిర్మించాల్సిన అవసరం లేకుండా.

Persistent sessions వల్ల connectionకే useful informationను attach చేసి ఉంచగలిగామని OpenAI చెబుతోంది. దీంతో repeated setup work తగ్గింది, turns మధ్య contextను system మరింత సమర్థవంతంగా reuse చేయగలిగింది. ఫలితంగా end-to-end agent loop speedలో సుమారు 40% మెరుగుదల వచ్చిందని కంపెనీ తెలిపింది.

వినియోగదారుల కోసం దీని ప్రాధాన్యం స్పష్టమే. ఒక coding లేదా research agent పని ముగించడానికి అనేక tool calls అవసరమైతే, ప్రతి cycle నుండి overhead తగ్గించడం ఒక stageను మాత్రమే వేగవంతం చేయడానికంటే ఎక్కువ ప్రభావం చూపుతుంది. ఒకప్పుడు చర్యల మధ్య ఆగిపోయినట్లు అనిపించిన workflow, ఇప్పుడు live interactionకి దగ్గరగా అనిపించవచ్చు.

OpenAI చెప్పింది: Persistent WebSocket Sessions వల్ల Agent Loop Latency సుమారు 40% తగ్గింది

వేగవంతమైన Agent Loops ఎందుకు ముఖ్యమో

Inference Bottleneck నుండి API Bottleneck వరకు

Related Articles

Keep Reading

privacy-by-default AI workflows కోసం OpenAI local-first PII redaction model‌ను విడుదల చేసింది

WebSocket Shift

OpenAI ఏమి Optimize చేసింది

OpenAI, ChatGPTలో కొత్త ‘workspace agents’తో పంచుకున్న కార్యాలయ ఆటోమేషన్‌ను ముందుకు తెస్తోంది

Codex దాటితే ఎందుకు ముఖ్యం

పెద్ద సంకేతం

OpenAI, Codex కోసం స్టార్టర్ గైడ్‌ను విడుదల చేసింది; ప్రాక్టికల్ AI వర్క్‌ఫ్లోల onboarding‌ను ముందుకు తెచ్చింది

Comments (0)

Cohere యొక్క Aleph Alpha ఒప్పందం Sovereign AIని సరిహద్దులు దాటి వ్యూహంగా మారుస్తోంది

GPT-5.5 విడుదలతో ఏజెంటిక్ వర్క్‌ఫ్లోల వైపు మరింత ముందుకు సాగుతున్న OpenAI