OpenAI positioniert GPT-5.6 Sol als neue Spitze in drei Schlüsselbereichen: Programmierung, Biologie und Cybersicherheit .
Terminal-Bench 2.1 testet Kommandozeilen-Workflows, die mehrstufige Planung, Werkzeugkoordination und Iteration erfordern . Der Benchmark umfasst 89 komplexe Programmieraufgaben
. Die Ergebnisse:
| Modell | Punktzahl |
|---|---|
| GPT-5.6 Sol Ultra | 91,9% |
| GPT-5.6 Sol (max) | 88,8% |
| Claude Mythos 5 | 88,0% |
| GPT-5.6 Terra | 84,3% |
| Claude Fable 5 | 84,3% |
| GPT-5.5 | 83,4% |
| GPT-5.6 Luna | 82,5% |
GPT-5.6 Sol Ultra setzt mit 91,9% einen neuen Bestwert . Die Standardversion Sol liegt mit 88,8% knapp einen Punkt vor Anthropics eingeschränktem Spitzenmodell Claude Mythos 5 (88,0%)
.
Im GeneBench v1, einem Benchmark für langfristige Genom- und quantitative Biologie-Analysen, erzielt Sol laut OpenAI bessere Ergebnisse als GPT-5.5 – und das mit weniger Ausgabetokens . Das ist ein bedeutender Effizienzgewinn für wissenschaftliche Forschungsabläufe.
Im ExploitBench, einem Cybersicherheits-Benchmark, erreicht GPT-5.6 Sol fast die Leistung von Anthropics Mythos Preview – bei nur etwa einem Drittel der Ausgabetokens .
Im ExploitGym, einem von Forschern der UC Berkeley in Zusammenarbeit mit OpenAI und anderen KI-Labors entwickelten Benchmark, zeigen alle drei GPT-5.6-Modelle verbesserte Cybersicherheitsfähigkeiten, je mehr Reasoning zum Einsatz kommt .
Wichtig: OpenAI betont, dass GPT-5.6 Sol die kritische Schwelle für Cybersicherheit (Cyber Critical) gemäß dem eigenen Preparedness Framework nicht überschreitet . In Tests mit Chromium und Firefox identifizierte das Modell zwar Sicherheitslücken und Exploit-Grundbausteine, erzeugte aber unter den getesteten Bedingungen keinen funktionsfähigen vollständigen Exploit
. Die gesamte GPT-5.6-Modellreihe wurde intern als "hohes" Risiko (für Cybersicherheit und Biowaffen-Fähigkeiten) eingestuft, nicht jedoch als die höchste Stufe "kritisch"
.
OpenAI gibt an, dass GPT-5.6 Sol mit der "bisher robustesten Sicherheitsarchitektur" startet . Der Sicherheitsansatz umfasst:
Während der Vorschauphase können einige Anfragen verlangsamt oder blockiert werden, während OpenAI die Fehlerraten (falsch-positive und falsch-negative) optimiert .
Die Einführung von GPT-5.6 unterscheidet sich von allen früheren OpenAI-Releases. Auf Wunsch der US-Regierung gewährt OpenAI zunächst nur einer kleinen Gruppe vertrauenswürdiger Partner und Organisationen Zugang – laut Axios umfasst die Vorschau rund 20 genehmigte Unternehmen –, während das Modell zusätzlichen nationalen Sicherheitsprüfungen unterzogen wird .
Die Vorschau ist kein breites Selbstbedienungsprogramm. In dieser Zeit sind GPT-5.6 Sol, Terra und Luna nur über die OpenAI-API und Codex für diese begrenzte Gruppe verfügbar . Die Modelle sind während der Vorschau nicht in ChatGPT nutzbar
. OpenAI kündigt eine breitere Verfügbarkeit in ChatGPT, Codex und der API "in den kommenden Wochen" an
.
OpenAI stellte klar, dass der staatlich gelenkte Zugang als vorübergehende Maßnahme betrachtet wird: "Wir glauben an breiten Zugang, und dieser Prozess sollte nicht zum langfristigen Standard werden" . In einer internen Mitteilung erklärte CEO Sam Altman den Mitarbeitern, dass die Regierung "während dieser Vorschauphase den Zugang Kunde für Kunde genehmigen" werde, mit einer breiteren Freigabe in einigen Wochen
.
Diese Regelung ging aus Gesprächen mit dem Office of the National Cyber Director und dem Office of Science and Technology Policy hervor und spiegelt ein neues Rahmenwerk für Spitzenmodelle wider, das von der Trump-Administration getestet wird
.
| Modell | Input / 1 Mio. Tokens | Output / 1 Mio. Tokens |
|---|---|---|
| GPT-5.6 Sol | 5,00 $ | 30,00 $ |
| GPT-5.6 Terra | 2,50 $ | 15,00 $ |
| GPT-5.6 Luna | 1,00 $ | 6,00 $ |
Die Preise von Sol entsprechen denen von GPT-5.5, während Terra etwa 2x günstiger ist als GPT-5.5 . Zum Vergleich: Sol ist preislich näher an Claude Opus 4.8 (5 $/25 $) als an Anthropics eingeschränktem Mythos 5 (10 $/50 $)
.
OpenAI kündigte außerdem an, dass GPT-5.6 Sol im Juli auf Cerebras-Hardware bereitgestellt wird , mit Inferenzgeschwindigkeiten von bis zu 750 Tokens pro Sekunde
.
Die GPT-5.6-Familie stellt eine deutliche Abkehr von früheren OpenAI-Veröffentlichungen dar. Die dreistufige Aufmachung (Sol, Terra, Luna) führt ein dauerhaftes Branding ein, das die Modellserie von den Leistungsstufen entkoppelt. Die Benchmark-Ergebnisse – insbesondere Sols Spitzenwert beim Programmieren (Terminal-Bench 2.1) und seine Effizienzsteigerungen bei ExploitBench – zeigen bedeutende Fortschritte, vor allem in der Cybersicherheit und Biologie. Das vielleicht markanteste Merkmal dieses Starts sind jedoch die von der Regierung geforderten Zugangsbeschränkungen, die ein neues Paradigma für die Bereitstellung von Spitzen-KI darstellen.
Comments
0 comments