வேகமான Agent Loops ஏன் முக்கியம்
agent-style workflows-ஐ குறிப்பிடத்தக்க அளவில் வேகப்படுத்துவதற்காக தனது Responses API-க்குப் பின்னுள்ள plumbing-ஐ OpenAI மீளமைத்துள்ளதாக கூறுகிறது. complex tasks நடக்கும் போது tools, models, மற்றும் API calls மீண்டும் மீண்டும் முன்னும் பின்னுமாகச் செல்லும் நிலையில், பயனர்கள் காத்திருக்கும் நேரத்தை குறைப்பதே இந்த மாற்றத்தின் நோக்கம்.
ஏப்ரல் 22 அன்று வெளியிடப்பட்ட ஒரு technical post-இல், Codex போன்ற systems ஒரு assignment-ஐ முடிக்க பல dozen sequential requests தேவைப்படலாம் என்று நிறுவனம் விளக்கியது: model அடுத்ததாக என்ன செய்ய வேண்டும் என்பதைத் தீர்மானிக்கிறது, client side-இல் ஒரு tool இயங்குகிறது, அதன் முடிவு API-க்கு அனுப்பப்படுகிறது, பின்னர் அந்த cycle மீண்டும் நடக்கிறது. அந்த pattern-இல் சிறிய overhead கூட விரைவாகச் சேர்ந்து பெரிதாகிறது.
OpenAI-யின் கூற்றுப்படி, inference தானாகவே வேகமானதால் performance பிரச்சினை மேலும் தெளிவாகப் பார்க்கப்பட்டது. Responses API-இல் இருந்த earlier flagship models சுமார் 65 tokens per second வேகத்தில் இயங்கின என்று நிறுவனம் கூறியது. GPT-5.3-Codex-Spark-க்காக, Cerebras hardware-ஐ பயன்படுத்தி 1,000 tokens per second-ஐ விட அதிகமான வேகத்தை OpenAI இலக்காக வைத்தது. model generation அந்த அளவு வேகமான பிறகு, loop-இன் மெதுவான பகுதிகளை மறைத்துவைப்பது கடினமானது.
Inference Bottleneck-இலிருந்து API Bottleneck-க்கு
OpenAI agent latency-யை மூன்று broad stages-ஆகப் பிரிக்கிறது: API service work, model inference, மற்றும் client-side time. tools இயங்க வேண்டும், context அமைக்கப்பட வேண்டும் என்பதால் client side இன்னும் முக்கியம் தான், ஆனால் API layer itself ஒரு முக்கிய bottleneck ஆக மாறியதாக நிறுவனம் கூறுகிறது.
அந்த மாற்றம் ஒரு வேறுபட்ட optimization strategy-யைத் தேவைப்படுத்தியது. GPU throughput-ஐ மட்டும் கவனிப்பதற்குப் பதிலாக, request path முழுவதிலும் friction-ஐ நீக்கத் தொடங்கியதாக OpenAI கூறுகிறது. சுமார் 2025 நவம்பரில், Responses API-க்கு நிறுவனம் ஒரு performance sprint-ஐ தொடங்கியது. இதில் rendered tokens மற்றும் model configuration-ஐ memory-யில் cache செய்வது, inference services-ஐ மேலும் நேரடியாக call செய்து கூடுதல் network hops-ஐ குறைப்பது, மற்றும் சில conversations-ஐ வேகமாக classify செய்ய safety stack-இன் பகுதிகளை வேகப்படுத்துவது ஆகியவை அடங்கும்.
இந்த மாற்றங்கள் time to first token-ஐ கிட்டத்தட்ட 45% மேம்படுத்தின என்று நிறுவனம் கூறுகிறது. ஆனால் புதிய inference stack-இன் speed gains-ஐ முழுமையாக வெளிப்படுத்த இது இன்னும் போதுமானதாக இல்லை என்று OpenAI சொல்கிறது.





