వేగవంతమైన Agent Loops ఎందుకు ముఖ్యమో

agent-style workflowsను గణనీయంగా వేగవంతం చేయడానికి తమ Responses API వెనుక ఉన్న plumbingను తిరిగి రూపకల్పన చేశామని OpenAI చెబుతోంది. complex tasks సమయంలో tools, models, మరియు API calls మధ్య నిరంతరం ముందుకు-వెనుకకు జరిగే ఆలస్యాన్ని తగ్గించడమే ఈ మార్పు లక్ష్యం.

ఏప్రిల్ 22న ప్రచురితమైన ఒక technical post‌లో, Codex వంటి systems ఒకే assignment‌ను పూర్తిచేయడానికి డజన్ల కొద్దీ sequential requests అవసరం పడవచ్చని కంపెనీ వివరించింది: model తదుపరి ఏం చేయాలో నిర్ణయిస్తుంది, client side‌లో ఒక tool నడుస్తుంది, ఫలితం APIకి పంపబడుతుంది, ఆ చక్రం మళ్లీ మొదలవుతుంది. ఆ pattern‌లో చిన్న overhead కూడా వేగంగా పేరుకుపోతుంది.

OpenAI ప్రకారం, inference స్వయంగా వేగంగా మారేకొద్దీ performance సమస్య మరింత స్పష్టంగా కనిపించింది. Responses APIలోని earlier flagship models సుమారు 65 tokens per second వేగంతో పనిచేశాయని కంపెనీ తెలిపింది. GPT-5.3-Codex-Spark కోసం Cerebras hardwareను ఉపయోగించి 1,000 tokens per second కంటే ఎక్కువ లక్ష్యాన్ని OpenAI పెట్టుకుంది. model generation అంత వేగంగా మారిన తర్వాత, loop‌లోని నెమ్మదైన భాగాలను దాచిపెట్టడం కష్టం అయింది.

Inference Bottleneck నుండి API Bottleneck వరకు

OpenAI agent latencyని మూడు broad stages‌గా విభజిస్తుంది: API service work, model inference, మరియు client-side time. tools execute కావాలి, context assemble కావాలి కాబట్టి client side ఇంకా ముఖ్యమే, కానీ API layer itself ఒక ముఖ్యమైన bottleneckగా మారిందని కంపెనీ చెప్పింది.

ఆ మార్పు వేరే optimization strategyని అవసరం చేసింది. GPU throughput మీద మాత్రమే దృష్టి పెట్టడం బదులు, request path అంతటా frictionను తొలగించడం ప్రారంభించామని OpenAI చెబుతోంది. సుమారు 2025 నవంబర్‌లో, కంపెనీ Responses API కోసం ఒక performance sprint‌ను ప్రారంభించింది. ఇందులో rendered tokens మరియు model configurationను memoryలో cache చేయడం, inference services‌ను మరింత నేరుగా call చేసి అదనపు network hops‌ను తగ్గించడం, అలాగే కొన్ని conversationsను వేగంగా classify చేయడానికి safety stackలోని భాగాలను వేగవంతం చేయడం ఉన్నాయి.

ఈ మార్పులు time to first token‌ను దాదాపు 45% మెరుగుపరిచాయని కంపెనీ తెలిపింది. కానీ కొత్త inference stack వేగాన్ని పూర్తిగా బయటపెట్టడానికి అది ఇంకా సరిపోలేదని OpenAI చెబుతోంది.