studioglobal
ค้นพบเทรนด์
คำตอบเผยแพร่แล้ว13 แหล่งที่มา

GPT-5.5 เทียบ Claude Opus 4.7: รุ่นไหนเหมาะกับงานของคุณ

ไม่มีแชมป์เดียว: GPT 5.5 นำใน Terminal Bench 2.0, FrontierMath และ BrowseComp ขณะที่ Claude Opus 4.7 นำใน SWE Bench Pro และ MCP Atlas [21][27][28][32]. งาน coding ต้องดูมากกว่า SWE Bench Verified ที่แทบเสมอ เพราะ SWE Bench Pro ซึ่งยากกว่าให้ Claude Opus 4.7 นำ 64.3% ต่อ 58.6% [17][32].

18K0
GPT-5.5 और Claude Opus 4.7 की benchmark तुलना दिखाता editorial AI visual
GPT-5.5 बनाम Claude Opus 4.7: Benchmarks में कौन आगे हैAI-generated editorial illustration for the GPT-5.5 vs Claude Opus 4.7 benchmark comparison.
AI พรอมต์

Create a landscape editorial hero image for this Studio Global article: GPT-5.5 बनाम Claude Opus 4.7: Benchmarks में कौन आगे है?. Article summary: कोई universal winner नहीं है: GPT 5.5 Terminal Bench 2.0 पर 82.7% और FrontierMath Tier 4 पर 35.4% दिखता है, जबकि Claude Opus 4.7 SWE Bench Pro पर 64.3% और MCP Atlas में 77.3–79.1% से आगे है; निर्णय workload पर निर्भर.... Topic tags: ai, llm, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "# OpenAI’s GPT-5.5 vs Claude Opus 4.7: Which is better? OpenAI released its latest model, GPT-5.5, on April 23, just a week after Anthropic introduced Claude Opus 4.7. **Spoiler al" source context "OpenAI's GPT-5.5 vs Claude Opus 4.7: Which is better? - Yahoo Tech" Reference image 2: visual subject "Compare their benchmark scores, pricing, and real-world performance before you commit. If you’re cho

openai.com

คำตอบสั้น ๆ คืออย่าถามว่าโมเดลไหนชนะทุกสนาม แต่ให้ถามว่างานของคุณคล้าย benchmark ไหนมากที่สุด. LLM Stats ก็วางกรอบไว้ในทำนองเดียวกันว่า ตัวเลข benchmark ไม่ได้เลือกผู้ชนะหนึ่งเดียว แต่เลือกประเภทงานที่เหมาะกับโมเดลนั้น ๆ [2].

จากข้อมูลที่มี GPT-5.5 ดูแข็งกว่าในงานแนว terminal, คณิตศาสตร์แบบ FrontierMath และงานวิจัยผ่านเว็บแบบ BrowseComp. ส่วน Claude Opus 4.7 เด่นกว่าในงาน software engineering ที่ยากกว่า และ workflow ที่ต้องเรียกใช้เครื่องมือหลายตัวผ่าน MCP หรือ tool orchestration [21][27][28][32].

ภาพรวมคะแนนสำคัญ

พื้นที่ / benchmarkGPT-5.5Claude Opus 4.7อ่านอย่างไร
SWE-Bench Verified88.7%87.6%แทบเสมอ; GPT-5.5 นำ 1.1 จุด แต่ยังไม่พอให้ถือว่าเหนือกว่าแบบเด็ดขาด [1][18].
SWE-Bench Pro58.6%64.3%Claude นำชัดในโจทย์วิศวกรรมซอฟต์แวร์ที่ยากกว่า [32].
Terminal-Bench 2.082.7%69.4% reportedGPT-5.5 นำในงานแนว terminal/CLI แต่ตัวเลขของ Opus จากแหล่งสาธารณะไม่สม่ำเสมอ [1][18][27].
MCP Atlas75.3%77.3–79.1%Claude นำใน tool-calling และการประสานเครื่องมือหลายตัว [21][27][32].
FrontierMath Tier 1–351.7%43.8%GPT-5.5 นำใน reasoning ที่หนักคณิตศาสตร์ [28].
FrontierMath Tier 435.4%22.9%ใน tier ที่ยากขึ้น GPT-5.5 ก็ยังนำ [28].
GPQA Diamond93.6%94.2%ใกล้เสมอมาก; Claude สูงกว่านิดเดียว [28].
Humanity’s Last Exam, no tools41.4%46.9%งาน reasoning/ความรู้กว้างแบบข้อสอบ Claude นำ [28].
Humanity’s Last Exam, with tools52.2%54.7%เมื่อมี tools Claude ยังนำเล็กน้อย [28].
BrowseComp84.4%79.3%GPT-5.5 นำในงานวิจัยผ่านเว็บหรือ browsing-heavy research [5][27].

มีสองแถวที่ควรอ่านด้วยความระมัดระวังเป็นพิเศษ. สำหรับ Terminal-Bench 2.0 บาง comparison แสดงคะแนน GPT-5.5 ที่ 82.7% แต่ไม่ได้ให้ตัวเลข public ของ Opus ขณะที่ LLM Stats และ summary อื่น ๆ รายงาน Opus 4.7 ที่ 69.4% [1][18][27]. ส่วน MCP Atlas นั้น BenchLM แสดง snapshot สาธารณะว่า Claude Opus 4.7 ได้ 77.3% และ GPT-5.5 ได้ 75.3% ขณะที่รายงานอื่นอ้าง Claude ที่ 79.1% เทียบกับ GPT-5.5 ที่ 75.3% [21][27][32].

สรุปเชิงทิศทางยังค่อนข้างนิ่ง: ถ้าเป็นงานที่ต้องทำคำสั่งใน terminal เป็นขั้น ๆ GPT-5.5 ดูแข็งกว่า; ถ้าเป็น agent ที่ต้องเรียกหลาย API หลาย service หรือหลาย tool ต่อเนื่องกัน Claude Opus 4.7 ดูน่าไว้ใจกว่า.

งาน coding: อย่าดูแค่คะแนนที่เหมือนเสมอ

SWE-Bench ใช้วัดความสามารถของโมเดลในการแก้ issue จริงบน GitHub และ variant ที่ชื่อ SWE-Bench Pro ถูกอธิบายว่าเป็นชุดโจทย์ที่ยากกว่า [17]. บน SWE-Bench Verified คะแนนของ GPT-5.5 อยู่ที่ 88.7% ส่วน Claude Opus 4.7 อยู่ที่ 87.6% จึงควรมองว่าใกล้เคียงกันมากในเชิงปฏิบัติ [1][18].

สัญญาณที่มีประโยชน์กว่าสำหรับงาน coding หนัก ๆ อยู่ที่ SWE-Bench Pro. ใน benchmark นี้ Claude Opus 4.7 ได้ 64.3% เทียบกับ GPT-5.5 ที่ 58.6% หรือ Claude นำ 5.7 จุด [32]. ความต่างนี้สำคัญเพราะชุด Pro โหดกว่า: overview หนึ่งระบุว่า SWE-Bench Verified มี 500 tasks จาก 12 repositories ที่เป็น Python ทั้งหมด ขณะที่ Pro มี 1,865 tasks จาก 41 repositories ครอบคลุม Python, Go, TypeScript และ JavaScript; จำนวนไฟล์ที่ต้องแก้เฉลี่ยก็เพิ่มจากราว 1 ไฟล์เป็น 4.1 ไฟล์ [22].

ความหมายสำหรับทีมที่เอาไปใช้จริงคือ ถ้างานของคุณเป็น multi-file bug fixing, ซ่อม pull request, refactoring หรือสร้าง production coding agents ควรลอง Claude Opus 4.7 ก่อน. MindStudio ยังระบุว่า Opus 4.7 แข็งแรงกว่าในงานที่ต้องใช้ architectural reasoning กว้าง ๆ ข้าม codebase ขนาดใหญ่ [3].

Agents และ tools: terminal ให้ GPT-5.5, orchestration ให้ Claude

ถ้า workflow ของคุณหนักไปทาง terminal หรือ command line เช่น shell automation, CLI-based agents หรือการทำงานบนเครื่องทีละขั้น GPT-5.5 มีเคสที่แข็งแรงกว่า. Terminal-Bench 2.0 รายงาน GPT-5.5 ที่ 82.7% และ Claude Opus 4.7 ที่ 69.4% [18][27]. แต่เพราะบาง comparison ไม่แสดงเลข public ของ Opus จึงควรใช้ผลนี้เป็นสัญญาณทิศทาง ไม่ใช่คำตัดสินจาก leaderboard แบบเด็ดขาด [1].

อีกด้านหนึ่ง ถ้า agent ของคุณต้องประสานเครื่องมือหลายตัว Claude Opus 4.7 ดูดีกว่า. MCP Atlas เป็น benchmark สำหรับ tool-calling ผ่าน Model Context Protocol integrations และ external tools [21]. Snapshot สาธารณะของ BenchLM ให้ Claude Opus 4.7 ที่ 77.3% และ GPT-5.5 ที่ 75.3% [21]. ขณะที่รายงานอื่นให้ภาพเดียวกันในรูป 79.1% ต่อ 75.3% [27][32].

พูดง่าย ๆ: ถ้า agent ของคุณต้องกดคำสั่งใน terminal ให้ลื่น GPT-5.5 น่าลองก่อน. แต่ถ้าต้องสลับเรียก API, service และ tool หลายตัวในลำดับยาว ๆ Claude Opus 4.7 เป็นจุดเริ่มต้นที่ดีกว่า.

Reasoning และ research: คณิตศาสตร์กับข้อสอบกว้าง ๆ ไม่ใช่เรื่องเดียวกัน

คำว่า reasoning กว้างเกินไปที่จะตัดสินจาก benchmark เดียว. ในตารางของ OpenAI, GPT-5.5 ได้ 51.7% บน FrontierMath Tier 1–3 เทียบกับ Claude Opus 4.7 ที่ 43.8%; และบน FrontierMath Tier 4 GPT-5.5 ได้ 35.4% เทียบกับ Claude ที่ 22.9% [28]. สำหรับงานที่หนักคณิตศาสตร์ GPT-5.5 จึงนำค่อนข้างชัด.

แต่ benchmark แบบความรู้และเหตุผลกว้าง ๆ ให้สัญญาณต่างออกไป. GPQA Diamond แทบเสมอกัน โดย GPT-5.5 ได้ 93.6% และ Claude Opus 4.7 ได้ 94.2% [28]. ส่วน Humanity’s Last Exam รายงานว่า Claude นำทั้งแบบไม่ใช้ tools ที่ 46.9% ต่อ GPT-5.5 ที่ 41.4% และแบบใช้ tools ที่ 54.7% ต่อ 52.2% [28].

สำหรับงาน research ผ่านเว็บ ภาพกลับมาเข้าทาง GPT-5.5. BrowseComp รายงาน GPT-5.5 ที่ 84.4% เทียบกับ Claude Opus 4.7 ที่ 79.3% [5][27]. ดังนั้นถ้า use case ของคุณคือการ browse, ค้นข้อมูล, ตรวจแหล่งอ้างอิง และสรุป research จำนวนมาก GPT-5.5 เป็นตัวแรกที่ควรทดสอบ.

ควรเลือกโมเดลไหน

เลือก GPT-5.5 ถ้า

  • งานของคุณคือ terminal execution, shell automation, CLI-based agents หรือ computer work ที่ต้องทำทีละขั้น; Terminal-Bench 2.0 รายงานว่า GPT-5.5 นำ [18][27].
  • workload ของคุณหนักคณิตศาสตร์หรือคล้าย FrontierMath; GPT-5.5 นำทั้ง Tier 1–3 และ Tier 4 [28].
  • คุณต้องทำ web research หรือ browsing-heavy analysis แบบ BrowseComp; GPT-5.5 ได้ 84.4% เทียบกับ Claude Opus 4.7 ที่ 79.3% [5][27].

เลือก Claude Opus 4.7 ถ้า

  • งานหลักคือการแก้ codebase ที่ซับซ้อน, multi-file bug fixing หรือโจทย์แนว SWE-Bench Pro; Claude นำ 64.3% ต่อ GPT-5.5 ที่ 58.6% [32].
  • คุณกำลังสร้าง agent ที่ต้องใช้ MCP, API หรือ tool orchestration หลายชั้น; MCP Atlas snapshots ให้ Claude Opus 4.7 นำ GPT-5.5 [21][27][32].
  • workflow ของคุณพึ่งพา architectural reasoning ข้าม codebase ขนาดใหญ่; MindStudio ระบุว่า Opus 4.7 เด่นในงานประเภทนี้ [3].

อ่าน benchmark อย่างไรไม่ให้พลาด

อย่าใช้ตัวเลข benchmark เป็นความจริงสุดท้ายของ production. Anthropic ระบุใน release notes ของ Claude Opus 4.7 ว่ามีการเปลี่ยน harness, ใช้ internal implementations และมี methodology updates บางส่วน จนคะแนนบางรายการไม่สามารถเทียบกับ public leaderboard ได้โดยตรง [19]. ฝั่ง GPT-5.5 ก็มี summary สำหรับ builders ที่ flag ว่าคะแนน benchmark บางรายการเป็นตัวเลขที่ OpenAI รายงานเอง และยังไม่มี third-party replication ครบถ้วน [31].

วิธีที่ปลอดภัยกว่าคือทำ internal eval ขนาดเล็ก: นำ ticket ล่าสุด, repositories จริง, tool chains, prompts และเกณฑ์ pass/fail ของทีมคุณมาให้ทั้งสองโมเดลลองทำ. Leaderboard ช่วยบอกทิศทาง แต่การเลือกโมเดลควรขึ้นกับลักษณะงานจริง, latency ที่รับได้, เครื่องมือที่ต้องเชื่อม และต้นทุนของความผิดพลาด.

Verdict

ถ้าต้องการจุดเริ่มต้นสำหรับ general automation, terminal execution, math-heavy reasoning และ BrowseComp-style research GPT-5.5 ดูเป็นตัวเลือกแรกที่เหมาะกว่า [27][28]. แต่ถ้า outcome หลักคือ hard coding, production coding agents หรือ multi-tool orchestration Claude Opus 4.7 เป็น candidate ที่แข็งแรงกว่า [21][32].

ข้อสรุปที่ปลอดภัยที่สุดคือ GPT-5.5 เด่นในงาน execution กว้าง ๆ และคณิตศาสตร์ ส่วน Claude Opus 4.7 เด่นในงาน software engineering ที่ยากและ workflow แบบ tool-agent.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

ค้นหาและตรวจสอบข้อเท็จจริงด้วย Studio Global AI

ประเด็นสำคัญ

  • ไม่มีแชมป์เดียว: GPT 5.5 นำใน Terminal Bench 2.0, FrontierMath และ BrowseComp ขณะที่ Claude Opus 4.7 นำใน SWE Bench Pro และ MCP Atlas [21][27][28][32].
  • งาน coding ต้องดูมากกว่า SWE Bench Verified ที่แทบเสมอ เพราะ SWE Bench Pro ซึ่งยากกว่าให้ Claude Opus 4.7 นำ 64.3% ต่อ 58.6% [17][32].
  • อย่าตัดสินจาก leaderboard อย่างเดียว: วิธีวัดและการรายงานคะแนนต่างกันได้ จึงควรทดสอบกับ repositories, tools และ prompts ของตนเองก่อน rollout [19][31].

คนยังถาม

คำตอบสั้น ๆ สำหรับ "GPT-5.5 เทียบ Claude Opus 4.7: รุ่นไหนเหมาะกับงานของคุณ" คืออะไร

ไม่มีแชมป์เดียว: GPT 5.5 นำใน Terminal Bench 2.0, FrontierMath และ BrowseComp ขณะที่ Claude Opus 4.7 นำใน SWE Bench Pro และ MCP Atlas [21][27][28][32].

ประเด็นสำคัญที่ต้องตรวจสอบก่อนคืออะไร?

ไม่มีแชมป์เดียว: GPT 5.5 นำใน Terminal Bench 2.0, FrontierMath และ BrowseComp ขณะที่ Claude Opus 4.7 นำใน SWE Bench Pro และ MCP Atlas [21][27][28][32]. งาน coding ต้องดูมากกว่า SWE Bench Verified ที่แทบเสมอ เพราะ SWE Bench Pro ซึ่งยากกว่าให้ Claude Opus 4.7 นำ 64.3% ต่อ 58.6% [17][32].

ฉันควรทำอย่างไรต่อไปในทางปฏิบัติ?

อย่าตัดสินจาก leaderboard อย่างเดียว: วิธีวัดและการรายงานคะแนนต่างกันได้ จึงควรทดสอบกับ repositories, tools และ prompts ของตนเองก่อน rollout [19][31].

ฉันควรสำรวจหัวข้อที่เกี่ยวข้องใดต่อไป

ดำเนินการต่อด้วย "Claude Security รุ่นเบต้า: Anthropic ใช้ AI สแกนช่องโหว่โค้ดองค์กรอย่างไร" เพื่อดูอีกมุมหนึ่งและการอ้างอิงเพิ่มเติม

เปิดหน้าที่เกี่ยวข้อง

ฉันควรเปรียบเทียบสิ่งนี้กับอะไร?

ตรวจสอบคำตอบนี้กับ "Grok 4.3 API ของ xAI: 1M context ราคาต่ำ และเกมรุกสู่แพลตฟอร์มเสียง"

เปิดหน้าที่เกี่ยวข้อง

ทำการวิจัยต่อ

การสนทนาการวิจัย

คุณ

คำถามวิจัย

बेंचमार्क रिपोर्ट के आधार पर GPT-5.5 और Claude Opus 4.7 की तुलना करें।

Studio Global AI36 แหล่งที่มา

อ้างถึงคำตอบ

GPT-5.5 कुल मिलाकर reasoning, terminal/agent execution और कई academic benchmarks में आगे दिखता है, जबकि Claude Opus 4.7 कठिन software-engineering और multi-tool orchestration में मजबूत है। इसलिए “बेहतर” मॉडल use case पर निर्भर है: general reasoning/terminal tasks के लिए GPT-5.5, और complex coding/agentic tool workflows के लिए Opus 4.7 बेहतर विकल्प दिखता है।

  • Coding: मिश्रित नतीजा

    • SWE-Bench Verified में GPT-5.5 को मामूली बढ़त दी गई है: 88.7% बनाम Claude Opus 4.7 का 87.6% [7].
    • SWE-Bench Pro में Claude Opus 4.7 स्पष्ट रूप से आगे है: 64.3% बनाम GPT-5.5 का 58.6% [7][6].
    • Opus 4.7 के लिए रिपोर्टों में SWE-bench Pro पर Opus 4.6 से 53.4% से 64.3% तक सुधार बताया गया है, यानी कठिन real-world coding tasks में बड़ा लाभ [3][6].
  • Terminal / agent execution

    • Terminal-Bench 2.0 में GPT-5.5 को 82.7% और Opus 4.7 को 69.4% बताया गया है, इसलिए shell/terminal-style execution tasks में GPT-5.5 मजबूत दिखता है [12][7].
    • कुछ रिपोर्टों में GPT-5.5 के लिए Terminal-Bench 2.0 score 82.7% है, लेकिन Opus के public number को लेकर स्रोतों में असंगति है; इसलिए इस benchmark को थोड़ी सावधानी से पढ़ना चाहिए [7][12].
  • Tool use और orchestration

    • MCP Atlas जैसे tool-integration benchmark में Claude Opus 4.7 को 79.1% बनाम GPT-5.5 का 75.3% बताया गया है, इसलिए multi-tool/API orchestration में Opus 4.7 आगे दिखता है [10][2].
    • Vellum की रिपोर्ट भी Opus 4.7 को MCP-Atlas पर 77.3% के साथ production-agent workflows के लिए मजबूत बताती है [3].
  • Academic / reasoning

    • OpenAI की GPT-5.5 रिपोर्ट में FrontierMath Tier 1–3 पर GPT-5.5 को 51.7% और Claude Opus 4.7 को 43.8% बताया गया है [15][7].
    • उसी रिपोर्ट में FrontierMath Tier 4 पर GPT-5.5 को 35.4% और Claude Opus 4.7 को 22.9% बताया गया है [15][7].
    • GPQA Diamond में दोनों बहुत करीब हैं: GPT-5.5 93.6% और Claude Opus 4.7 94.2% [15][7].
  • निष्कर्ष

    • GPT-5.5 चुनें अगर आपको broad reasoning, math-heavy tasks, terminal automation, या general-purpose high-performance assistant चाहिए।
    • Claude Opus 4.7 चुनें अगर आपका मुख्य काम complex codebase changes, SWE-Bench Pro जैसे कठिन coding tasks, या multi-tool enterprise agents हैं।
    • स्वतंत्र, समान harness पर चले benchmarks कम उपलब्ध हैं; official lab numbers और third-party summaries को सीधे “अंतिम सत्य” न मानकर workload-specific testing से validate करना बेहतर होगा।

แหล่งที่มา

  • [1] GPT-5.5 vs Claude Opus 4.7: 2026 Frontier Showdown (Benchmarks)tokenmix.ai

    Head-to-Head: The Numbers That Matter Benchmark GPT-5.5 Claude Opus 4.7 Winner --- --- SWE-Bench Verified 88.7% 87.6% GPT-5.5 by 1.1 SWE-Bench Pro 58.6% 64.3% Opus 4.7 by 5.7 MMLU 92.4% 91% GPT-5.5 Terminal-Bench 2.0 82.7% — GPT-5.5 (no public Opus number)...

  • [2] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarks - LLM Statsllm-stats.com

    Within seven days, I had two new frontier models to compare against the workloads I run for LLM Stats:Claude Opus 4.7shipped on April 16, 2026, andGPT-5.5 on April 23. Both land at the same input price. Both ship 1M-token context. Both pitch significantly b...

  • [3] GPT-5.5 vs Claude Opus 4.7: Real-World Coding Performance ...mindstudio.ai

    SWE-Bench and Coding Tasks On SWE-Bench Verified — the standard benchmark for evaluating real GitHub issue resolution — both models score competitively at the top of the 2026 leaderboard. GPT-5.5 holds a slight edge on problems requiring precise tool use an...

  • [5] OpenAI's GPT-5.5 vs Claude Opus 4.7: Which is better? | Mashablemashable.com

    Thanks for signing up! SWE-Bench Pro: GPT-5.5 scored 58.6; Opus 4.7 scored 64.3 percent Terminal-Bench 2.0: GPT-5.5 scored 82.7 percent; Opus 4.7 scored 69.4 percent Humanity's Last Exam: GPT-5.5 scored 40.6 percent; Opus 4.7 scored 31.2 percent\ Humanity's...

  • [17] Claude Opus 4.7: Anthropic's New Best (Available) Modeldatacamp.com

    SWE-bench tests a model's ability to resolve real GitHub issues in open-source Python repositories. Pro is a harder variant with more complex issues. The 10.9-point gain over Opus 4.6 on SWE-bench Pro is the largest improvement in this release (percentage p...

  • [18] Claude Opus 4.7: Benchmarks, Pricing, Context & What's Newllm-stats.com

    Benchmarks Agentic coding Benchmark Opus 4.7 Opus 4.6 Delta --- --- SWE-bench Verified 87.6% 80.8% +6.8 SWE-bench Pro 64.3% 53.4% +10.9 Terminal-Bench 2.0 69.4% 65.4% +4.0 The jump on SWE-bench Pro (+10.9 points) is larger than on SWE-bench Verified, sugges...

  • [19] Introducing Claude Opus 4.7 - Anthropicanthropic.com

    CyberGym: Opus 4.6’s score has been updated from the originally reported 66.6 to 73.8, as we updated our harness parameters to better elicit cyber capability. SWE-bench Multimodal: We used an internal implementation for both Opus 4.7 and Opus 4.6. Scores ar...

  • [21] MCP Atlas Benchmark 2026: 13 model averages | BenchLM.aibenchlm.ai

    Core Rankings Specialized Use Cases Dashboards Directories Guides & Lists Tools MCP Atlas A benchmark for tool-calling over Model Context Protocol integrations and external tools. Benchmark score on MCP Atlas — April 23, 2026 BenchLM mirrors the published s...

  • [22] SWE-Bench Pro Leaderboard (2026): Why 46% Beats 81%morphllm.com

    Dimension SWE-Bench Verified SWE-Bench Pro --- Tasks 500 1,865 Repositories 12 (all Python) 41 (Python, Go, TS, JS) Avg lines changed 11 (median: 4) 107.4 Avg files changed 1 4.1 Top score (Mar 2026) 80.9% (Claude Opus 4.5) 59% (agent systems) Contamination...

  • [27] GPT-5.5: The Honest Take on OpenAI's Response to Opus ...alexlavaee.me

    Benchmark GPT-5.5 GPT-5.4 Opus 4.7 Gemini 3.1 Pro --- --- Terminal-Bench 2.0 82.7% 75.1% 69.4% 68.5% SWE-Bench Pro (public)\ 58.6% 57.7% 64.3% 54.2% Expert-SWE (OpenAI internal) 73.1% 68.5% — — OSWorld-Verified 78.7% 75.0% 78.0% — MCP Atlas (tool use) 75.3%...

  • [28] Introducing GPT-5.5 - OpenAIopenai.com

    Academic EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaudeOpus 4.7Gemini 3.1 Pro GeneBench 25.0%19.0%33.2%25.6%-- FrontierMath Tier 1–3 51.7%47.6%52.4%50.0%43.8%36.9% FrontierMath Tier 4 35.4%27.1%39.6%38.0%22.9%16.7% BixBench 80.5%74.0%---- GPQA Diamond 93.6%...

  • [31] What Is GPT-5.5 for Builders in 2026? | WaveSpeedAI Blogwavespeed.ai

    Item Status --- Release date: April 23, 2026 Confirmed — OpenAI official Live in ChatGPT (Plus/Pro/Business/Enterprise) Confirmed — OpenAI official Live in Codex (Plus/Pro/Business/Enterprise/Edu/Go) Confirmed — OpenAI official 400K context in Codex Confirm...

  • [32] Everything You Need to Know About GPT-5.5 - Vellumvellum.ai

    SWE-bench Pro: the coding crown stays with Anthropic Claude Opus 4.7 scores 64.3% versus GPT-5.5's 58.6% — a 5.7-point gap on real GitHub issue resolution. OpenAI's system card includes an asterisk noting "evidence of memorization" from other labs on this e...