OpenAI sagt, WebSockets machten agentische API-Workflows rund 40 % schneller

OpenAI sagt, persistente WebSocket-Sitzungen senken die Latenz von Agenten-Loops um rund 40 %

OpenAI sagt, dass eine Neugestaltung des Agenten-Loops seiner Responses API, die auf persistente WebSocket-Verbindungen und verbindungsgebundenes Caching setzt, die End-to-End-Latenz um etwa 40 % reduziert habe, während die Inferenzgeschwindigkeiten des Modells stark stiegen.

DT Editorial AI

Apr 26, 2026·3 min read·750 words

Warum schnellere Agenten-Loops wichtig sind

OpenAI sagt, es habe die Infrastruktur hinter seiner Responses API überarbeitet, um agentenartige Workflows deutlich schneller zu machen. Ziel ist es, die Zeit zu verkürzen, die Nutzer warten, während Werkzeuge, Modelle und API-Aufrufe bei komplexen Aufgaben hin und her springen.

In einem technischen Beitrag vom 22. April beschrieb das Unternehmen, wie Systeme wie Codex Dutzende sequentielle Anfragen benötigen können, um eine einzelne Aufgabe abzuschließen: Das Modell entscheidet, was als Nächstes zu tun ist, ein Tool läuft auf der Client-Seite, das Ergebnis wird an die API zurückgesendet, und der Zyklus wiederholt sich. Dieses Muster sorgt dafür, dass sich selbst kleine Overheads schnell summieren.

Laut OpenAI wurde das Leistungsproblem sichtbarer, als die Inferenz selbst schneller wurde. Frühere Flaggschiff-Modelle in der Responses API liefen demnach mit etwa 65 Tokens pro Sekunde. Für GPT-5.3-Codex-Spark zielte OpenAI mit Cerebras-Hardware auf mehr als 1.000 Tokens pro Sekunde. Sobald die Modellerzeugung so schnell wurde, waren die langsameren Teile des Loops nicht mehr leicht zu verstecken.

Vom Inferenz-Engpass zum API-Engpass

OpenAI teilt die Latenz von Agenten in drei grobe Stufen auf: Arbeit des API-Dienstes, Modellinferenz und Zeit auf der Client-Seite. Die Client-Seite bleibt wichtig, weil Tools ausgeführt und Kontext zusammengesetzt werden müssen, doch das Unternehmen sagte, die API-Schicht selbst sei zu einem relevanten Engpass geworden.

Dieser Wandel erforderte eine andere Optimierungsstrategie. Statt sich nur auf GPU-Durchsatz zu konzentrieren, begann OpenAI nach eigener Aussage, Reibung entlang des Request-Pfads zu entfernen. Um November 2025 startete das Unternehmen das, was es als Performance-Sprint für die Responses API bezeichnete. Dazu gehörten das Caching gerenderter Tokens und der Modellkonfiguration im Speicher, weniger unnötige Netzwerksprünge durch direktere Aufrufe der Inferenzdienste und schnellere Teile des Safety-Stacks, damit einige Unterhaltungen schneller klassifiziert werden konnten.

Diese Änderungen verbesserten laut dem Unternehmen die Zeit bis zum ersten Token um fast 45 %. OpenAI sagt jedoch, dass das immer noch nicht ausreichte, um die Geschwindigkeitsgewinne seines neueren Inferenz-Stacks vollständig sichtbar zu machen.

AI & Robotics

OpenAI stellt ChatGPT for Clinicians verifizierten US-Ärzten, Nurse Practitionern, Physician Assistants und Apothekern kostenlos zur Verfügung und verbindet den Start mit einem neuen Benchmark für klinische Chat-Aufgaben.

DT Editorial AI·Apr 25, 2026·via openai.com

AI & Robotics

OpenAI bietet bis zu 25.000 Dollar für einen universellen Jailbreak, der eine fünfteilige biologische Sicherheitsaufgabe in GPT-5.5 aushebelt, und macht externes Red Teaming damit zu einem gezielten Test der Schutzmechanismen von Frontier-Modellen.

DT Editorial AI·Apr 25, 2026·via openai.com

AI & Robotics

Cohere’s geplante Übernahme von Aleph Alpha ist mehr als ein Startup-Kauf. Sie ist ein Versuch, einen politisch gestützten Sovereign-AI-Anbieter für Regierungen und regulierte Branchen in Europa und darüber hinaus aufzubauen.

DT Editorial AI·Apr 25, 2026·via the-decoder.com

AI & Robotics

Der Wechsel zu WebSocket

Die größere Änderung war architektonisch: eine Reihe getrennter synchroner API-Aufrufe wurde durch eine persistente Verbindung zur Responses API über WebSockets ersetzt. Praktisch bedeutet das, dass Client und API über den gesamten Agenten-Loop verbunden bleiben können, statt den Request-Status ständig abzubauen und neu aufzubauen.

OpenAI sagt, persistente Sitzungen hätten es ermöglicht, nützliche Informationen direkt an die Verbindung zu binden. Das reduzierte wiederholte Einrichtungsarbeit und half dem System, Kontext über mehrere Runden hinweg effizienter wiederzuverwenden. Das Ergebnis sei, so das Unternehmen, eine Verbesserung der End-to-End-Geschwindigkeit des Agenten-Loops um rund 40 % gewesen.

Für Nutzer ist die Bedeutung klar. Wenn ein Coding- oder Research-Agent viele Tool-Aufrufe braucht, um eine Aufgabe zu beenden, kann das Abschneiden von Overhead in jedem Zyklus mehr bewirken als nur eine einzelne Stufe zu beschleunigen. Ein Workflow, der sich früher zwischen Aktionen festgefahren anfühlte, kann sich näher an einer Live-Interaktion anfühlen.

OpenAI sagt, persistente WebSocket-Sitzungen senken die Latenz von Agenten-Loops um rund 40 %

Warum schnellere Agenten-Loops wichtig sind

Vom Inferenz-Engpass zum API-Engpass

Related Articles

Keep Reading

OpenAI veröffentlicht ein lokal ausgelegtes PII-Redaktionsmodell für Privacy-by-Default-KI-Workflows

Der Wechsel zu WebSocket

Was OpenAI optimiert hat

OpenAI treibt gemeinsame Automatisierung am Arbeitsplatz mit neuen ChatGPT „workspace agents“ voran

Warum das über Codex hinaus wichtig ist

Das größere Signal

OpenAI positioniert Workspace Agents als nächste Ebene der alltäglichen Enterprise-KI

Comments (0)

OpenAI macht ChatGPT für Kliniker für verifizierte US-Gesundheitsfachkräfte kostenlos

OpenAI stellt die biologischen Schutzmechanismen von GPT-5.5 mit einer neuen Bug-Bounty auf die Probe

Cohere macht aus dem Aleph-Alpha-Deal eine grenzüberschreitende Sovereign-AI-Strategie

OpenAI treibt agentische Workflows mit dem Start von GPT-5.5 weiter voran