Warum schnellere Agenten-Loops wichtig sind

OpenAI sagt, es habe die Infrastruktur hinter seiner Responses API überarbeitet, um agentenartige Workflows deutlich schneller zu machen. Ziel ist es, die Zeit zu verkürzen, die Nutzer warten, während Werkzeuge, Modelle und API-Aufrufe bei komplexen Aufgaben hin und her springen.

In einem technischen Beitrag vom 22. April beschrieb das Unternehmen, wie Systeme wie Codex Dutzende sequentielle Anfragen benötigen können, um eine einzelne Aufgabe abzuschließen: Das Modell entscheidet, was als Nächstes zu tun ist, ein Tool läuft auf der Client-Seite, das Ergebnis wird an die API zurückgesendet, und der Zyklus wiederholt sich. Dieses Muster sorgt dafür, dass sich selbst kleine Overheads schnell summieren.

Laut OpenAI wurde das Leistungsproblem sichtbarer, als die Inferenz selbst schneller wurde. Frühere Flaggschiff-Modelle in der Responses API liefen demnach mit etwa 65 Tokens pro Sekunde. Für GPT-5.3-Codex-Spark zielte OpenAI mit Cerebras-Hardware auf mehr als 1.000 Tokens pro Sekunde. Sobald die Modellerzeugung so schnell wurde, waren die langsameren Teile des Loops nicht mehr leicht zu verstecken.

Vom Inferenz-Engpass zum API-Engpass

OpenAI teilt die Latenz von Agenten in drei grobe Stufen auf: Arbeit des API-Dienstes, Modellinferenz und Zeit auf der Client-Seite. Die Client-Seite bleibt wichtig, weil Tools ausgeführt und Kontext zusammengesetzt werden müssen, doch das Unternehmen sagte, die API-Schicht selbst sei zu einem relevanten Engpass geworden.

Dieser Wandel erforderte eine andere Optimierungsstrategie. Statt sich nur auf GPU-Durchsatz zu konzentrieren, begann OpenAI nach eigener Aussage, Reibung entlang des Request-Pfads zu entfernen. Um November 2025 startete das Unternehmen das, was es als Performance-Sprint für die Responses API bezeichnete. Dazu gehörten das Caching gerenderter Tokens und der Modellkonfiguration im Speicher, weniger unnötige Netzwerksprünge durch direktere Aufrufe der Inferenzdienste und schnellere Teile des Safety-Stacks, damit einige Unterhaltungen schneller klassifiziert werden konnten.

Diese Änderungen verbesserten laut dem Unternehmen die Zeit bis zum ersten Token um fast 45 %. OpenAI sagt jedoch, dass das immer noch nicht ausreichte, um die Geschwindigkeitsgewinne seines neueren Inferenz-Stacks vollständig sichtbar zu machen.