studioglobal
Khám phá xu hướng
Câu trả lờiĐã xuất bản10 nguồn

GPT-5.5 vs. Claude Opus 4.7: Welches Modell ist stärker fürs Coding und den Arbeitsalltag?

Claude Opus 4.7 liegt bei den zitierten Coding Agent Benchmarks vorn: VentureBeat meldet 64,3 % auf SWE bench Pro; Interesting Engineering meldet 58,6 % für GPT 5.5.[33][39] GPT 5.5 ist vor allem für ChatGPT/Codex Workflows interessant: OpenAI beschreibt es für Code, Online Recherche, Informationsanalyse, Dokumente,...

18K0
Minh họa so sánh GPT-5.5 và Claude Opus 4.7 trong benchmark, coding-agent và workflow AI
GPT-5.5 vs Claude Opus 4.7: Claude nhỉnh benchmark, GPT-5.5 mạnh workflowẢnh minh họa cho cuộc so sánh GPT-5.5 và Claude Opus 4.7.
Prompt AI

Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7: Claude nhỉnh benchmark, GPT-5.5 mạnh workflow. Article summary: Claude Opus 4.7 hiện có lợi thế benchmark công khai cho coding agent với 64,3% SWE bench Pro so với báo cáo 58,6% của GPT 5.5, nhưng chưa có head to head độc lập cùng điều kiện nên chưa thể gọi model nào thắng toàn di.... Topic tags: ai, openai, anthropic, chatgpt, claude. Reference image context from search candidates: Reference image 1: visual subject "# Claude Opus 4.7 vs GPT 5.5: Full Comparison (April 2026). claude-opus-4-7-vs-gpt-5-5. Anthropic dropped Claude Opus 4.7 on April 16. Both with 1M token context windows. Both clai" source context "Claude Opus 4.7 vs GPT 5.5: Full Comparison (April 2026) - FwdSlash" Reference image 2: visual subject "# Claude Opus 4.7 vs GPT 5.5: Full Comparison (April 2026). claude-opus-4-7-v

openai.com

Wer GPT-5.5 und Claude Opus 4.7 vergleicht, sollte nicht nur auf eine Rangliste schauen. In den hier zitierten öffentlichen Quellen ergibt sich ein zweigeteiltes Bild: Claude Opus 4.7 liefert die stärkeren Signale bei Coding-Agent-Benchmarks; GPT-5.5 ist in ChatGPT und Codex breiter für mehrstufige Arbeitsabläufe rund um Code, Recherche, Analyse, Dokumente, Tabellen und Tool-Nutzung positioniert.[13][20][25][33][39]

Kurzurteil: Es gibt keinen klaren Gesamtsieger

Die faire Antwort lautet: Für einen eindeutigen Gesamtsieger reicht die öffentliche Beweislage nicht aus. Die wichtigsten Zahlen stammen aus unterschiedlichen Quellen. VentureBeat berichtet für Claude Opus 4.7 von 64,3 % auf SWE-bench Pro, 94,2 % auf GPQA Diamond und einem Elo-Wert von 1753 auf GDPVal-AA; Interesting Engineering nennt für GPT-5.5 58,6 % auf SWE-Bench Pro; LLM Stats führt sowohl GPT-5.5 als auch Claude Opus 4.7 bei rund 0,94 auf GPQA.[33][39][41]

Diese Werte helfen beim Shortlisting. Sie ersetzen aber keinen unabhängigen Head-to-Head-Test mit denselben Prompts, denselben Tools, demselben Token-Budget, derselben Testumgebung und denselben Inference-Bedingungen.[33][39][41]

Als Arbeitsregel lässt sich daraus ableiten:

  • Coding-Agenten und öffentliche Benchmarks: derzeit eher Claude Opus 4.7.[33][39]
  • Produktivität in ChatGPT und Codex: GPT-5.5 zuerst testen.[13][20][25]
  • Produktintegration: beide Modelle mit echten Aufgaben prüfen, weil API-Status, Preise und Token-Nutzung unterschiedlich ausfallen können.[1][8][25][26]

Schnellvergleich

KriteriumGPT-5.5Claude Opus 4.7Was das bedeutet
Start und ZugangOpenAI stellte GPT-5.5 am 23. April 2026 vor; laut OpenAI ist es in ChatGPT und Codex verfügbar, die API folgt später.[24][25]Anthropic nennt den 16. April 2026 als Launch von Claude Opus 4.7 auf der Claude Platform.[1]Für ChatGPT/Codex-Workflows ist GPT-5.5 direkt relevant; für API-Projekte wirkt Opus 4.7 in den zitierten Quellen derzeit klarer verfügbar.[1][25]
Coding-AgentenInteresting Engineering meldet 58,6 % auf SWE-Bench Pro; OpenAI führt GPT-5.5 in Codex für komplexes Coding, Computer-Nutzung, Wissensarbeit und Research-Workflows.[13][39]VentureBeat meldet 64,3 % auf SWE-bench Pro.[33]Nur nach den hier zitierten SWE-bench-Pro-Zahlen liegt Opus 4.7 vorn. Für die Praxis zählt aber Ihr eigenes Repository.[33][39]
ReasoningLLM Stats listet GPT-5.5 bei rund 0,94 auf GPQA.[41]VentureBeat meldet 94,2 % auf GPQA Diamond und Elo 1753 auf GDPVal-AA; LLM Stats listet Opus 4.7 ebenfalls bei rund 0,94 auf GPQA.[33][41]Opus 4.7 hat auffällige Benchmark-Signale, aber GPQA zeigt in LLM Stats keinen klaren Abstand zu GPT-5.5.[33][41]
Wissensarbeit und WorkflowOpenAI beschreibt GPT-5.5 für Code, Online-Recherche, Informationsanalyse, Dokumente, Tabellen und das Arbeiten über mehrere Tools hinweg.[20]Anthropic beschreibt Opus 4.7 als sein stärkstes allgemein verfügbares Modell für komplexes Reasoning und agentisches Coding.[1]GPT-5.5 wirkt stärker als Workflow-Modell im OpenAI-Ökosystem; Opus 4.7 ist besonders interessant für Reasoning- und Coding-Agent-Szenarien.[1][13][20][25]
Kosten und TokensOpenAIs Preisseite führt GPT-5.5 als coming soon mit einem Input-Preis von 5,00 US-Dollar pro 1 Mio. Tokens.[26]Anthropic nennt für Opus 4.7 denselben Preis wie für Opus 4.6: 5/25 US-Dollar pro MTok, also pro Million Tokens.[1] Anthropic warnt zudem, dass der neue Tokenizer denselben Input je nach Inhalt auf etwa 1,0–1,35× so viele Tokens abbilden kann.[8]Nicht nur Listenpreise vergleichen: Entscheidend sind echte Token-Zahlen, Output-Länge und Tool-Calls in Ihrem Workflow.[8][26]

Coding-Agenten: Claude Opus 4.7 hat den greifbareren Benchmark-Vorsprung

Für die enge Frage „Welches Modell ist stärker als Coding-Agent?“ hat Claude Opus 4.7 derzeit die klarere öffentliche Zahl auf seiner Seite. VentureBeat berichtet, Opus 4.7 löse 64,3 % der Aufgaben auf SWE-bench Pro; Interesting Engineering nennt für GPT-5.5 auf SWE-Bench Pro 58,6 %.[33][39]

Das heißt nicht, dass Claude in jedem Codebestand automatisch besser ist. Ein Benchmark ist nicht Ihr Repository. Coding-Benchmarks reagieren auf Test-Harness, Umgebung, Tool-Rechte, Prompting, Token-Limits und Bewertungskriterien. Die nüchterne Schlussfolgerung lautet daher: Opus 4.7 liegt bei den hier genannten SWE-bench-Pro-Werten vorn, aber die Entscheidung sollte an realen Repos und realen Workflows geprüft werden.[33][39]

GPT-5.5 bleibt für Entwicklerinnen und Entwickler trotzdem ein naheliegender Kandidat, wenn sie bereits Codex nutzen. OpenAI schreibt, GPT-5.5 sei in Codex als neues Frontier-Modell für komplexes Coding, Computer-Nutzung, Wissensarbeit und Research-Workflows verfügbar.[13] Wenn die Aufgabe nicht nur „Bug fixen“ heißt, sondern auch Kontext finden, ein System verstehen, Tools bedienen, Dokumentation schreiben und längere Aufgabenketten abschließen soll, kann die Integration in Codex ein wichtiger Faktor sein.[13][20]

Reasoning und Wissensarbeit: Opus glänzt, GPT-5.5 ist nicht abgeschlagen

Auch beim Reasoning hat Claude Opus 4.7 starke öffentliche Signale. VentureBeat berichtet 94,2 % auf GPQA Diamond und einen Elo-Wert von 1753 auf GDPVal-AA.[33] Das spricht für anspruchsvolle Denk- und Wissensaufgaben, sollte aber nicht so gelesen werden, als würde ein einzelner Benchmark alle Arten von Reasoning abdecken.[33]

Der Abstand sollte außerdem nicht überzeichnet werden. LLM Stats führt Claude Opus 4.7 und GPT-5.5 beide bei rund 0,94 auf GPQA.[41] Plausibel ist deshalb diese Lesart: Opus 4.7 hat bei einigen veröffentlichten Messpunkten die stärkeren Schlagzeilen, aber die Daten reichen nicht aus, um GPT-5.5 pauschal bei jedem Reasoning-Szenario zurückzustufen.[33][41]

Wo GPT-5.5 besonders interessant wird: ChatGPT, Codex und mehrstufige Arbeit

Die stärkste Karte von GPT-5.5 liegt weniger in einer einzelnen Benchmark-Zahl als im Arbeitskontext. OpenAI beschreibt GPT-5.5 als Modell für komplexe reale Arbeit: Code schreiben, online recherchieren, Informationen analysieren, Dokumente und Tabellen erstellen und zwischen Tools wechseln, um Aufgaben zu erledigen.[20]

Dazu passt die Produktlage: OpenAI gibt an, dass GPT-5.5 derzeit in ChatGPT und Codex verfügbar ist, während die API-Verfügbarkeit später folgen soll.[25] Im Codex-Changelog wird GPT-5.5 ebenfalls als neues Frontier-Modell für komplexes Coding, Computer-Nutzung, Wissensarbeit und Research-Workflows beschrieben.[13]

Wenn Ihr Alltag also stark in ChatGPT oder Codex stattfindet – etwa mit Datei-Analyse, Code-Änderungen, Recherche, Planung, Dokumentation, Tabellenarbeit oder mehrstufigen Tool-Abläufen –, ist GPT-5.5 wahrscheinlich das Modell, das Sie früh testen sollten.[13][20][25]

API, Preise und Tokenizer: Hier kann die Modellwahl teuer werden

Für Produktteams ist eine Leaderboard-Zahl nur die halbe Miete. Entscheidend ist auch, ob das Modell per API verfügbar ist, wie Input und Output abgerechnet werden, wie viele Tokens tatsächlich anfallen, wie oft Tools aufgerufen werden und wie stabil lange Agentenläufe funktionieren.[1][8][25][26]

Bei GPT-5.5 schreibt OpenAI in der Modelldokumentation, dass das Modell in ChatGPT und Codex verfügbar ist und die API später kommt.[25] Auf der OpenAI-Preisseite wird GPT-5.5 als coming soon geführt; dort steht ein Input-Preis von 5,00 US-Dollar pro 1 Mio. Tokens.[26]

Bei Claude Opus 4.7 meldet Anthropic den Launch auf der Claude Platform und nennt 5/25 US-Dollar pro MTok, also pro Million Tokens, wie bei Opus 4.6.[1] Gleichzeitig weist Anthropic auf zwei praktische Kostenfaktoren hin: Der neue Tokenizer kann denselben Input je nach Inhalt auf etwa 1,0–1,35× so viele Tokens abbilden, und das Modell kann bei höheren Effort-Stufen – besonders in späteren agentischen Turns – mehr Output-Tokens erzeugen.[8]

Kurz gesagt: Ein Modell mit besseren Benchmark-Werten ist nicht automatisch das günstigere oder passendere Modell, wenn Ihr Workflow lange Kontexte, viele Turns, viele Tool-Calls oder strikte Kostenlimits hat.[8]

Welche Wahl ist sinnvoll?

Claude Opus 4.7 ist die naheliegende Wahl, wenn:

  • Coding-Agenten und öffentliche Coding-Benchmarks Ihr Hauptkriterium sind, insbesondere rund um SWE-bench Pro.[33][39]
  • Sie ein von Anthropic als stärkstes allgemein verfügbares Modell für komplexes Reasoning und agentisches Coding beschriebenes Modell einsetzen wollen.[1]
  • Sie über die Claude Platform deployen und die Auswirkungen des neuen Tokenizers auf Ihre realen Kosten messen können.[1][8]

GPT-5.5 ist die naheliegende Wahl, wenn:

  • Sie viel in ChatGPT oder Codex arbeiten und ein Modell für Code, Recherche, Analyse, Dokumente, Tabellen und Tool-Nutzung suchen.[13][20][25]
  • Ihnen die Einbettung in den Arbeitsfluss wichtiger ist als ein einzelner Benchmark-Sieg.[13][25]
  • Sie ein Modell testen wollen, das OpenAI ausdrücklich für komplexe reale Arbeit über mehrere Tools hinweg beschreibt.[20]

Beide Modelle sollten Sie testen, wenn:

  • Sie einen internen Codebestand, eigene Agenten-Workflows oder unternehmensspezifische Qualitätskriterien haben.
  • die Modellwahl Kosten, Latenz, Fehlerraten oder Nutzererlebnis deutlich beeinflusst.
  • Sie Qualität, Stabilität, Token-Verbrauch, Korrekturschleifen und Abschlussquote langer Aufgaben gleichzeitig optimieren müssen.

So testen Sie fair auf Ihrem eigenen Workload

Ein kleiner, praxisnaher Evaluation-Satz ist oft wertvoller als eine große, aber fremde Rangliste:

  1. Wählen Sie echte Aufgaben: Bugs aus Ihrem Repository, Datenanalysen, Rechercheaufträge, Dokumentations-Prompts oder Workflows mit mehreren Tools.
  2. Geben Sie beiden Modellen dieselben Inputs, Dateien, Tool-Rechte, Zeitlimits und Bewertungskriterien.
  3. Bewerten Sie das Endergebnis, nicht die Selbstsicherheit der Antwort.
  4. Erfassen Sie Korrekturschleifen, fachliche Fehler, Test-Pass/Fail, Token-Verbrauch, Laufzeit und geschätzte Kosten.
  5. Trennen Sie die Auswertung nach Aufgabentyp: Coding-Agent, Reasoning, Schreiben, Datenanalyse, Tabellenarbeit und Tool-Nutzung.

Das ist wichtig, weil das Gesamtbild nicht eindimensional ist: Claude Opus 4.7 hat in den zitierten Quellen die stärkeren öffentlichen Coding- und Reasoning-Signale; GPT-5.5 ist dagegen tiefer in ChatGPT- und Codex-Workflows für mehrstufige praktische Arbeit eingebettet.[13][20][25][33][39]

Fazit

Claude Opus 4.7 wirkt stärker, wenn Sie nach den zitierten öffentlichen Benchmarks für Coding-Agenten und einigen Reasoning-/Knowledge-Work-Messpunkten urteilen. VentureBeat berichtet 64,3 % auf SWE-bench Pro, 94,2 % auf GPQA Diamond und Elo 1753 auf GDPVal-AA.[33]

GPT-5.5 wirkt stärker, wenn der Fokus auf produktiven Workflows in ChatGPT und Codex liegt. OpenAI beschreibt das Modell für Code, Online-Recherche, Informationsanalyse, Dokumente, Tabellen und Arbeit über mehrere Tools hinweg; außerdem ist GPT-5.5 laut OpenAI derzeit in ChatGPT und Codex verfügbar.[20][25]

Die praktischste Antwort lautet deshalb: Claude Opus 4.7 hat den klareren Benchmark-Vorteil, GPT-5.5 den klareren Workflow-Vorteil. Für einen eindeutigen Gesamtsieger gibt es auf Basis der zitierten öffentlichen Quellen noch nicht genug Belege.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Tìm kiếm và kiểm chứng sự thật với Studio Global AI

Bài học chính

  • Claude Opus 4.7 liegt bei den zitierten Coding Agent Benchmarks vorn: VentureBeat meldet 64,3 % auf SWE bench Pro; Interesting Engineering meldet 58,6 % für GPT 5.5.[33][39]
  • GPT 5.5 ist vor allem für ChatGPT/Codex Workflows interessant: OpenAI beschreibt es für Code, Online Recherche, Informationsanalyse, Dokumente, Tabellen und Tool Wechsel.[13][20][25]
  • Für Produktteams zählen API Status, Preise und reale Token Nutzung: GPT 5.5 ist laut OpenAI in ChatGPT und Codex verfügbar, die API folgt später; Opus 4.7 hat einen neuen Tokenizer mit etwa 1,0–1,35× Token Mapping je...

Người ta cũng hỏi

Câu trả lời ngắn gọn cho "GPT-5.5 vs. Claude Opus 4.7: Welches Modell ist stärker fürs Coding und den Arbeitsalltag?" là gì?

Claude Opus 4.7 liegt bei den zitierten Coding Agent Benchmarks vorn: VentureBeat meldet 64,3 % auf SWE bench Pro; Interesting Engineering meldet 58,6 % für GPT 5.5.[33][39]

Những điểm chính cần xác nhận đầu tiên là gì?

Claude Opus 4.7 liegt bei den zitierten Coding Agent Benchmarks vorn: VentureBeat meldet 64,3 % auf SWE bench Pro; Interesting Engineering meldet 58,6 % für GPT 5.5.[33][39] GPT 5.5 ist vor allem für ChatGPT/Codex Workflows interessant: OpenAI beschreibt es für Code, Online Recherche, Informationsanalyse, Dokumente, Tabellen und Tool Wechsel.[13][20][25]

Tôi nên làm gì tiếp theo trong thực tế?

Für Produktteams zählen API Status, Preise und reale Token Nutzung: GPT 5.5 ist laut OpenAI in ChatGPT und Codex verfügbar, die API folgt später; Opus 4.7 hat einen neuen Tokenizer mit etwa 1,0–1,35× Token Mapping je...

Tôi nên khám phá chủ đề liên quan nào tiếp theo?

Tiếp tục với "Phân tích nghiên cứu: Trẻ học từ nhờ nghe nhiều hơn hay xử lý từ nhanh hơn?" để có góc nhìn khác và trích dẫn bổ sung.

Mở trang liên quan

Tôi nên so sánh điều này với cái gì?

Kiểm tra chéo câu trả lời này với "Trẻ học nói không chỉ nhờ nghe nhiều: cách người lớn đáp lời có liên quan ra sao?".

Mở trang liên quan

Tiếp tục nghiên cứu của bạn

Trao đổi nghiên cứu

Bạn

Câu hỏi nghiên cứu

So sánh sức mạnh của GPT 5.5 vs Claude Opus 4.7

Studio Global AI40 nguồn

Câu trả lời được trích dẫn

Nếu chốt nhanh: Claude Opus 4.7 hiện có lợi thế rõ hơn trên các benchmark công khai về reasoning/coding-agent, còn GPT-5.5 được OpenAI định vị là model reasoning mạnh nhất trong ChatGPT cho công việc khó và workflow nhiều bước.[2][10][15] Nhưng để nói model nào “mạnh hơn toàn diện” thì hiện vẫn là Insufficient evidence, vì tôi chưa thấy bộ head-to-head độc lập, cùng điều kiện, đối chiếu trực tiếp GPT-5.5 với Opus 4.7 trong các nguồn tôi kiểm được.[2][15]

  • Anthropic mô tả Claude Opus 4.7 là model generally available mạnh nhất của họ cho complex reasoning và agentic coding.[2]

  • OpenAI mô tả GPT-5.5 Thinking là model reasoning mạnh nhất trong ChatGPT, và nói nó tốt hơn các Thinking model trước ở spreadsheet, editing, data analysis, coding, hiểu mục tiêu phức tạp, dùng tool, và tự kiểm tra kết quả.[15]

  • Về bằng chứng benchmark công khai, một nguồn tổng hợp báo cáo từ đợt ra mắt cho biết Opus 4.7 đạt 64.3% trên SWE-bench Pro, 94.2% trên GPQA Diamond, và Elo 1753 trên GDPVal-AA; nguồn này cũng nhận định Opus 4.7 “narrowly” lấy lại vị trí dẫn đầu trong nhóm model generally available.[10]

  • Trong các nguồn tôi truy xuất được, tôi không thấy OpenAI công bố ngay một bảng benchmark chính thức đối chiếu trực tiếp GPT-5.5 với Claude Opus 4.7 theo cùng test harness, nên không thể kết luận công bằng rằng GPT-5.5 đã vượt Opus 4.7 trên mọi mặt.[8][15]

  • Nếu ưu tiên code agent, benchmark công khai, và complex reasoning có số liệu thấy ngay, tôi sẽ nghiêng nhẹ về Claude Opus 4.7.[2][10]

  • Nếu ưu tiên trải nghiệm ChatGPT cho công việc tri thức tổng hợp như phân tích dữ liệu, chỉnh sửa nội dung, spreadsheet, và workflow nhiều bước có dùng tool, tôi sẽ nghiêng nhẹ về GPT-5.5.[15]

Nếu muốn, tôi có thể làm tiếp một bản so sánh rất thực dụng theo 3 tiêu chí: code, viết/phân tích, và giá/tốc độ.

Nguồn

  • [1] Claude Platform - Claude API Docsdocs.anthropic.com

    April 16, 2026 We've launched Claude Opus 4.7, our most capable generally available model for complex reasoning and agentic coding, at the same $5 / $25 per MTok pricing as Opus 4.6. See What's new in Claude Opus 4.7 for capability improvements, new feature...

  • [8] Introducing Claude Opus 4.7 - Anthropicanthropic.com

    Migrating from Opus 4.6 to Opus 4.7 Opus 4.7 is a direct upgrade to Opus 4.6, but two changes are worth planning for because they affect token usage. First, Opus 4.7 uses an updated tokenizer that improves how the model processes text. The tradeoff is that...

  • [13] Codex changelog - OpenAI Developersdevelopers.openai.com

    Changelog Feature Maturity Open Source April 2026 March 2026 February 2026 January 2026 December 2025 November 2025 October 2025 September 2025 August 2025 June 2025 May 2025 Codex changelog Latest updates to Codex, OpenAI’s coding agent All updatesGeneralC...

  • [20] GPT-5.5 System Cardopenai.com

    GPT-5.5 System Card OpenAI Skip to main content Log inTry ChatGPT(opens in a new window) Research Products Business Developers Company Foundation(opens in a new window) GPT-5.5 System Card OpenAI April 23, 2026 SafetyPublication GPT‑5.5 System Card Read the...

  • [24] Introducing GPT-5.5openai.com

    Introducing GPT-5.5 OpenAI Skip to main content Log inTry ChatGPT(opens in a new window) Research Products Business Developers Company Foundation(opens in a new window) Try ChatGPT(opens in a new window)Login OpenAI Table of contents Model capabilities Next...

  • [25] Models | OpenAI APIdevelopers.openai.com

    Legacy APIs Assistants API Migration guide Deep dive Tools Resources Terms and policies Changelog Your data Permissions Rate limits Deprecations MCP for deep research Developer mode ChatGPT Actions Introduction Getting started Actions library Authentication...

  • [26] API Pricing - OpenAIopenai.com

    OpenAI API Pricing OpenAI Skip to main content Log inTry ChatGPT(opens in a new window) Research Products Business Developers Company Foundation(opens in a new window) OpenAI API Pricing OpenAI API Pricing Contact sales Flagship models Our frontier models a...

  • [33] Anthropic releases Claude Opus 4.7, narrowly retaking lead for most ...venturebeat.com

    Knowledge Work (GDPVal-AA): It achieved an Elo score of 1753, notably outperforming GPT-5.4 (1674) and Gemini 3.1 Pro (1314). Agentic Coding (SWE-bench Pro): The model resolved 64.3% of tasks, compared to 53.4% for its predecessor. Graduate-Level Reasoning...

  • [39] OpenAI's GPT-5.5 masters agentic coding with 82.7% benchmark ...interestingengineering.com

    On SWE-Bench Pro, it reached 58.6%, solving more real-world GitHub issues in a single pass than earlier versions. The model also outperformed its predecessor in long-horizon engineering tasks measured by internal benchmarks. These tasks often take human dev...

  • [41] GPT-5.5: Pricing, Benchmarks & Performancellm-stats.com

    9Image 42GPT-5 mini 0.22 10Image 43o3 0.16 GPQAView → 4 of 10 Image 44: LLM Stats Logo A challenging dataset of 448 multiple-choice questions written by domain experts in biology, physics, and chemistry. Questions are Google-proof and extremely difficult, w...