వేగవంతమైన Agent Loops ఎందుకు ముఖ్యమో
agent-style workflowsను గణనీయంగా వేగవంతం చేయడానికి తమ Responses API వెనుక ఉన్న plumbingను తిరిగి రూపకల్పన చేశామని OpenAI చెబుతోంది. complex tasks సమయంలో tools, models, మరియు API calls మధ్య నిరంతరం ముందుకు-వెనుకకు జరిగే ఆలస్యాన్ని తగ్గించడమే ఈ మార్పు లక్ష్యం.
ఏప్రిల్ 22న ప్రచురితమైన ఒక technical postలో, Codex వంటి systems ఒకే assignmentను పూర్తిచేయడానికి డజన్ల కొద్దీ sequential requests అవసరం పడవచ్చని కంపెనీ వివరించింది: model తదుపరి ఏం చేయాలో నిర్ణయిస్తుంది, client sideలో ఒక tool నడుస్తుంది, ఫలితం APIకి పంపబడుతుంది, ఆ చక్రం మళ్లీ మొదలవుతుంది. ఆ patternలో చిన్న overhead కూడా వేగంగా పేరుకుపోతుంది.
OpenAI ప్రకారం, inference స్వయంగా వేగంగా మారేకొద్దీ performance సమస్య మరింత స్పష్టంగా కనిపించింది. Responses APIలోని earlier flagship models సుమారు 65 tokens per second వేగంతో పనిచేశాయని కంపెనీ తెలిపింది. GPT-5.3-Codex-Spark కోసం Cerebras hardwareను ఉపయోగించి 1,000 tokens per second కంటే ఎక్కువ లక్ష్యాన్ని OpenAI పెట్టుకుంది. model generation అంత వేగంగా మారిన తర్వాత, loopలోని నెమ్మదైన భాగాలను దాచిపెట్టడం కష్టం అయింది.
Inference Bottleneck నుండి API Bottleneck వరకు
OpenAI agent latencyని మూడు broad stagesగా విభజిస్తుంది: API service work, model inference, మరియు client-side time. tools execute కావాలి, context assemble కావాలి కాబట్టి client side ఇంకా ముఖ్యమే, కానీ API layer itself ఒక ముఖ్యమైన bottleneckగా మారిందని కంపెనీ చెప్పింది.
ఆ మార్పు వేరే optimization strategyని అవసరం చేసింది. GPU throughput మీద మాత్రమే దృష్టి పెట్టడం బదులు, request path అంతటా frictionను తొలగించడం ప్రారంభించామని OpenAI చెబుతోంది. సుమారు 2025 నవంబర్లో, కంపెనీ Responses API కోసం ఒక performance sprintను ప్రారంభించింది. ఇందులో rendered tokens మరియు model configurationను memoryలో cache చేయడం, inference servicesను మరింత నేరుగా call చేసి అదనపు network hopsను తగ్గించడం, అలాగే కొన్ని conversationsను వేగంగా classify చేయడానికి safety stackలోని భాగాలను వేగవంతం చేయడం ఉన్నాయి.
ఈ మార్పులు time to first tokenను దాదాపు 45% మెరుగుపరిచాయని కంపెనీ తెలిపింది. కానీ కొత్త inference stack వేగాన్ని పూర్తిగా బయటపెట్టడానికి అది ఇంకా సరిపోలేదని OpenAI చెబుతోంది.





