Wenn der Toolmaker den Blueprint offenbart
Monatelang setzten Entwickler, die Claude Code nutzen, Best Practices aus Trial and Error, Blog-Posts und Community-Foren zusammen. Dann brach der Schöpfer des Tools selbst sein Schweigen. Boris Cherny, der Claude Code bei Anthropic leitet, teilte seinen persönlichen Entwicklungs-Workflow in einem Thread auf X, der schnell in der Engineering-Community viral ging.
„Wenn Sie die Claude Code Best Practices nicht direkt vom Creator lesen, sind Sie als Programmierer im Rückstand", schrieb Jeff Tang, eine prominente Entwicklerstimme. Kyle McNease nannte es Anthropic's „ChatGPT-Moment" — den Wendepunkt, an dem eine Technologie aufhört, beeindruckend zu sein, und unentbehrlich wird.
Fünf Agenten gleichzeitig: Das Fleet-Commander-Modell
Das Herzstück von Chernys Ansatz ist Parallelität. Statt Entwicklungsaufgaben linear zu bearbeiten, führt Cherny fünf Claude-Instanzen gleichzeitig in separaten Terminal-Tabs aus und verwaltet sie wie ein Kommandant Einheiten im Feld.
„Ich führe 5 Claudes parallel in meinem Terminal aus", schrieb Cherny. „Ich nummeriere meine Tabs 1-5 und nutze System-Benachrichtigungen, um zu wissen, wenn ein Claude Input braucht." Er führt auch zusätzliche Sessions im Browser aus und nutzt einen benutzerdefinierten Teleport-Befehl, um Arbeit zwischen Web- und Local-Machine-Kontexten zu übergeben.
Ein Agent führt eine Test Suite aus, während ein anderer Legacy Code umgestaltet, ein dritter dokumentiert und zwei weitere unabhängige Feature-Arbeit angehen. Die Rolle des Menschen verschiebt sich vom Code-Schreiben zum Lenken von Agenten und Beheben von Blockern — ein fundamental anderer kognitiver Modus, den Cherny mit dem Spielen eines Echtzeit-Strategiespiels vergleicht, statt Syntax zu tippen.
Das Argument für das langsamste Modell
Eine von Chernys kontraintuitivsten Offenbarungen war seine Modellwahl. In einer Branche besessen von Inferenzgeschwindigkeit, nutzt er ausschließlich Opus 4.5 — Anthropic's größtes, langsamstes Modell — für alles.
„Ich nutze Opus 4.5 mit Thinking für alles", schrieb er. „Es ist das beste Coding-Modell, das ich je genutzt habe, und obwohl es größer und langsamer als Sonnet ist, da man es weniger steuern muss und es besser bei Tool-Nutzung ist, ist es fast immer schneller als ein kleineres Modell am Ende."
Die Logik ist solide. Der Latenz-Engpass bei AI-gestützter Entwicklung ist nicht die Token-Generierungsgeschwindigkeit — es ist die menschliche Korrekturzeit. Ein schnelleres, aber weniger fähiges Modell erledigt Aufgaben schnell, benötigt aber häufige Interventionen, um Fehler zu beheben. Ein langsameres, aber genaueres Modell verlagert die Rechenkosten nach vorne, während es die Korrekturkosten eliminiert, und wenn fünf Instanzen parallel laufen, summiert sich der Wall-Clock-Vorteil erheblich.
CLAUDE.md: Jeden Fehler in eine Regel verwandeln
Standard-LLMs haben keine persistente Erinnerung über Sessions hinweg. Chernys Team adressiert dies mit einer Datei namens CLAUDE.md, die in das git-Repository des Projekts eingecheckt ist. „Jedes Mal, wenn wir sehen, dass Claude etwas falsch macht, fügen wir es zu CLAUDE.md hinzu, damit Claude weiß, es nächstes Mal nicht zu tun", erklärte er.
Die Datei dient als wachsendes Regelwerk, das jedem Session-Kontext vorangestellt wird. Ein menschlicher Reviewer entdeckt einen Fehler in einem Pull Request, markiert Claude, um den Fehler als Regel zu dokumentieren, und jede zukünftige Session profitiert. Im Laufe der Zeit wird CLAUDE.md zu einem Präzisionsinstrument, das auf die spezifischen Konventionen und Fallstricke jeder Codebasis abgestimmt ist.
Verifizierung als der wahre Multiplikator
Chernys Workflow gibt dem Agent die Fähigkeit, seine eigene Arbeit durch Browser-Automatisierung, bash-Befehlsausführung und Test Suite Läufe zu verifizieren. „Claude testet jede einzelne Änderung, die ich bei claude.ai/code lande, mit der Claude Chrome Extension", schrieb er. „Es öffnet einen Browser, testet die UI und iteriert, bis der Code funktioniert und die UX gut funktioniert." Er schätzt, dass diese Verifikationsschleife die Output-Qualität um 2 bis 3x im Vergleich zu Generierung ohne Verifizierung verbessert — ein multiplikativer Effekt, der unabhängig von der zugrunde liegenden Modell-Fähigkeit gilt.
Dieser Artikel basiert auf Berichterstattung von VentureBeat. Lesen Sie den Originalartikel.




