Claude Opus 4.7 lässt sich am besten als Modell für komplexes Schlussfolgern, agentisches Coding und längere Arbeitsabläufe verstehen – nicht als Modell, das man sauber auf eine einzige Benchmark-Zahl reduzieren kann. Anthropic beschreibt Opus 4.7 in der eigenen Dokumentation als sein leistungsfähigstes allgemein verfügbares Modell für komplexes Reasoning und agentisches Coding [1]. AWS wiederum stellt es als Upgrade gegenüber Opus 4.6 für produktionsnahe Workflows wie agentisches Coding, Wissensarbeit, visuelles Verständnis und lang laufende Aufgaben dar [
7].
Für Entwicklerinnen, Entwickler und Teams mit Coding-Agenten sticht eine Zahl klar heraus: 87,6 % in SWE-bench Verified, berichtet von AWS auf Basis von Anthropic-Daten [7]. Das ist ein starkes Signal für Software-Engineering-Aufgaben. Es ist aber keine allgemeine Schulnote für „wie gut das Modell insgesamt ist“. AWS weist zudem darauf hin, dass Opus 4.7 Änderungen beim Prompting und Anpassungen am Test-Harness benötigen kann, um das Modell richtig auszureizen [
7].
Die wichtigsten gemeldeten Werte
| Einsatzfeld | Benchmark | Gemeldeter Wert | So sollte man ihn lesen |
|---|---|---|---|
| Coding und Agenten | SWE-bench Verified | 87,6 % | Der prominenteste Wert für Softwareaufgaben und Coding-Agenten bei Claude Opus 4.7 [ |
| Coding und Agenten | SWE-bench Pro | 64,3 % | Ergänzende Perspektive auf anspruchsvollere oder anders gelagerte Softwareaufgaben [ |
| Terminal-Agenten | Terminal-Bench 2.0 | 69,4 % | Besonders relevant, wenn ein Modell in terminalähnlichen Umgebungen oder mit Tools arbeiten soll [ |
| Finanz-Agenten | Finance Agent v1.1 | 64,4 % | Nützlicher für Workflows rund um Finanzanalyse oder finanzbezogene Automatisierung [ |
| Internes Coding | Interner Benchmark mit 93 Aufgaben | +13 % Lösungsrate gegenüber Opus 4.6 | Eine relative Verbesserung in einer konkreten internen Bewertung, keine Garantie für jeden Codebestand [ |
| Interner Research-Agent | Gesamtscore | 0,715 | Anthropic stellt dies als starkes Ergebnis für mehrstufige Arbeit im eigenen Research-Agent-Benchmark dar [ |
| Interner Research-Agent | General Finance | 0,813 gegenüber 0,767 bei Opus 4.6 | Zeigt in Anthropics internem Finanzmodul eine Verbesserung gegenüber Opus 4.6 [ |
Was 87,6 % in SWE-bench Verified wirklich aussagen
Für Teams, die Modelle als Coding-Agenten vergleichen, ist SWE-bench Verified der griffigste Wert aus den verfügbaren Quellen: AWS berichtet 87,6 % für Claude Opus 4.7 [7]. Praktisch heißt das: Der Schwerpunkt des Modells liegt klar auf Software-Engineering-Aufgaben und Problemlösung im Code – passend zu Anthropics Beschreibung von Opus 4.7 als starkem Modell für komplexes Reasoning und agentisches Coding [
1].
Wichtig ist die Grenze des Werts: SWE-bench Verified misst eine bestimmte Klasse von Softwareaufgaben. Der Wert bedeutet nicht, dass Opus 4.7 in jedem Unternehmen, jedem Repository oder jeder Tool-Kette automatisch ähnlich abschneidet. Er ersetzt auch keine Tests für Terminal-Nutzung, Finanzaufgaben, visuelle Analyse, lange Kontexte oder Research-Workflows. Für eine belastbare technische Auswahl sollte man daher mindestens auch SWE-bench Pro und Terminal-Bench 2.0 einbeziehen [6][
7].
Warum unterschiedliche Zahlen kursieren
Nicht alle Quellen nennen denselben SWE-bench-Verified-Wert. Eine Sekundärquelle berichtet 82,4 % in SWE-bench Verified, während AWS für Claude Opus 4.7 87,6 % angibt [2][
7]. Das ist keine Kleinigkeit: Wer Modelle vergleicht, sollte nicht nur eine Prozentzahl übernehmen, sondern immer auch den genauen Benchmark, den Score und die Quelle nennen.
Aus den vorliegenden Quellen lässt sich die Abweichung nicht eindeutig auf eine einzelne Ursache zurückführen. Sicher ist aber: Die Evaluierungskonfiguration kann eine Rolle spielen. AWS schreibt ausdrücklich, dass Opus 4.7 unter Umständen geänderte Prompts und Anpassungen am Harness braucht, um die bestmögliche Leistung zu erreichen [7].
Welcher Benchmark für welchen Einsatz zählt
Wenn der wichtigste Anwendungsfall Programmierung ist, ist SWE-bench Verified ein sinnvoller Einstieg. Dabei sollte es aber nicht bleiben. SWE-bench Pro und Terminal-Bench 2.0 helfen, Szenarien einzuordnen, in denen das Modell komplexere Softwareaufgaben lösen oder mit Umgebungen und Werkzeugen interagieren muss [6][
7].
Geht es um Finanzen oder Research, sind die internen Daten von Anthropic näher an diesem Nutzungsmuster. Im internen Research-Agent-Benchmark erreichte Opus 4.7 einen Gesamtscore von 0,715 und im Modul General Finance 0,813; Opus 4.6 lag dort bei 0,767 [8]. Diese Werte sind hilfreich, sollten aber als interne Evaluation gelesen werden – nicht als unabhängige externe Prüfung.
Für lange Unternehmens-Workflows deuten die öffentlichen Angaben auf Verbesserungen bei lang laufenden Aufgaben, genauerem Befolgen von Anweisungen und dem Umgang mit Ambiguität hin, wie AWS mit Verweis auf Anthropic beschreibt [7]. Gerade dort sind Benchmarks aber nur der Anfang. Entscheidend ist ein eigener Test mit den tatsächlichen Prompts, Tools, Daten und dem eigenen Evaluierungs-Harness.
Fazit
Der am stärksten herausstechende Benchmark-Wert von Claude Opus 4.7 ist 87,6 % in SWE-bench Verified – besonders relevant für agentisches Coding [7]. Die seriöse Einordnung ist jedoch breiter: Zusätzlich werden 64,3 % in SWE-bench Pro, 69,4 % in Terminal-Bench 2.0 und 64,4 % in Finance Agent v1.1 genannt; Anthropic hebt außerdem interne Verbesserungen bei mehrstufiger Research-Arbeit und im Finanzmodul hervor [
7][
8].
Die bessere Frage lautet daher nicht: „Wie gut ist Claude Opus 4.7 in einem Benchmark?“ Sondern: „Welcher Benchmark ähnelt meinem echten Workflow – und wurde das Modell unter vergleichbaren Bedingungen getestet?“ Für Softwareentwicklung ist SWE-bench Verified der Startpunkt. Für Agenten, Terminal-Nutzung, Finanzanalyse oder Research können die ergänzenden Werte mindestens genauso wichtig sein.




