คำตอบเผยแพร่แล้ว5 พ.ค. 2026Last edited 6 พ.ค. 20267 แหล่งที่มา

GPT-5.4 vs GPT-5.3-Codex vs Claude Opus 4.6 สำหรับงานโค้ด

ยังไม่มีผู้ชนะเดียวสำหรับงานโค้ดทั้งหมด: Claude Opus 4.6 เด่นที่ SWE Bench Verified ราว 79–81%, GPT 5.3 Codex เด่นใน Terminal Bench 2.0 ฝั่ง OpenAI และ GPT 5.4 ขยับเหนือ GPT 5.3 Codex เพียงเล็กน้อยใน SWE Bench Pro [1]... ถ้างานคือแก้บั๊กในรีโพซิทอรี ให้เริ่มที่ Opus 4.6; งานเอเจนต์ผ่านเทอร์มินัลควรทดสอบ GPT 5.3 Code...

ค้นหาและตรวจสอบข้อเท็จจริงด้วย Studio Global AI เรียกดูเพิ่มเติมจาก Discover

4.8K0

Abstract comparison of AI coding models on a benchmark leaderboard — GPT-5.4 vs GPT-5.3-Codex vs Claude Opus 4.6: The Coding Winner Depends on the BenchmarkBenchmark results point to different winners depending on the test variant and agent harness.
AI พรอมต์
Create a landscape editorial hero image for this Studio Global article: GPT-5.4 vs GPT-5.3-Codex vs Claude Opus 4.6: The Coding Winner Depends on the Benchmark. Article summary: There is no universal coding winner: Claude Opus 4.6 has the strongest reported SWE Bench Verified signal at about 79 81%, GPT 5.3 Codex leads the cited Terminal Bench 2.0 comparison at 77.3%, and GPT 5.4's same sourc.... Topic tags: ai, ai benchmarks, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "gpt-5.4 vs opus 4.6. # GPT-5.4 vs Claude Opus 4.6: Which One Is Better for Coding? OpenAI has launched GPT-5.4, the latest iteration of its GPT-5 family, and, as per them, it’s the" source context "GPT-5.4 vs Claude Opus 4.6: Which One Is Better for Coding? - Bind AI" Reference image 2: visual subject "gpt-5.4 vs opus 4.6. # GPT-5.4 vs Claude Opus 4.6: Whic
openai.com

ถ้าถามว่าโมเดลไหนเขียนโค้ดดีที่สุด คำตอบที่ปลอดภัยที่สุดคือ ยังไม่มีตัวเดียวที่ชนะทุกสนาม จากรายงานที่อ้างถึง Claude Opus 4.6 ดูแข็งที่สุดในงานแก้บั๊กแบบ SWE-Bench Verified, GPT-5.3-Codex เป็นตัวเลือก OpenAI ที่เด่นในสาย Terminal-Bench 2.0, ส่วน GPT-5.4 ดูเหมือนเป็นการขยับขึ้นด้านโค้ดแบบค่อยเป็นค่อยไปมากกว่าการชนะขาด ^[1]^[3]^[5]^[7]^[9].

ประเด็นสำคัญคือ ตัวเลขเหล่านี้ไม่ได้วัดสิ่งเดียวกันทั้งหมด SWE-Bench มีหลายเวอร์ชัน และผล Terminal-Bench สาธารณะขึ้นอยู่กับทั้งโมเดลและเอเจนต์หรือ harness ที่ห่อโมเดลไว้ให้ลงมือทำงาน ^[1]^[6]^[7]^[10].

คำตอบเร็ว: เลือกตามงาน ไม่ใช่ตามชื่อโมเดล

งานที่ต้องทำ	โมเดลที่ควรลองก่อน	หลักฐานหลัก	จุดที่ต้องระวัง
แก้บั๊กในรีโพซิทอรีแบบ SWE-Bench Verified	Claude Opus 4.6	รายงานหลายแหล่งให้ Opus 4.6 อยู่ราว 79.2%–80.8% บน SWE-Bench Verified ^[3]^[5]^[6]^[7]^[9].	อย่านำไปเทียบตรงกับ SWE-Bench Pro Public เหมือนเป็นข้อสอบเดียวกัน ^[6]^[7]^[10].
งาน coding agent ผ่านเทอร์มินัล	GPT-5.3-Codex แต่ต้องเช็ก harness	บทวิเคราะห์ GPT-5.4 รายงานว่า GPT-5.3-Codex ได้ 77.3% บน Terminal-Bench 2.0 สูงกว่า GPT-5.4 ที่ 75.1% และ Claude Opus 4.6 ที่ 65.4% ^[3].	กระดานสาธารณะจัดอันดับเป็นคู่เอเจนต์/โมเดล และ Claude Opus 4.6 กับ ForgeCode ขึ้นถึง 79.8% ^[1].
เลือกเฉพาะในตระกูล OpenAI	GPT-5.4 แต่คาดหวังผลเพิ่มแบบค่อยเป็นค่อยไป	แหล่งเดียวกันรายงาน GPT-5.4 ที่ 57.7% บน SWE-Bench Pro เทียบกับ GPT-5.3-Codex ที่ 56.8% ^[3].	ใน Terminal-Bench 2.0 GPT-5.4 ต่ำกว่า GPT-5.3-Codex คือ 75.1% ต่อ 77.3% ^[3].
ระบบที่เรียกใช้เครื่องมือจำนวนมากผ่าน MCP	GPT-5.4 ควรได้รอบทดสอบของตัวเอง	บทวิเคราะห์ GPT-5.4 ระบุว่า tool search ลดการใช้โทเคน MCP ได้ 47% ด้วยการโหลดนิยามเครื่องมือเมื่อต้องใช้ ^[3].	การประหยัดโทเคนไม่ใช่สิ่งเดียวกับการชนะเบนช์มาร์กแก้บั๊ก ^[3].

กับดักของเบนช์มาร์ก: เลขสูงกว่าไม่ได้แปลว่าดีกว่าเสมอ

SWE-Bench Verified กับ SWE-Bench Pro Public เป็นคนละสัญญาณ

กรณีที่ Claude Opus 4.6 ดูแข็งที่สุดมาจาก SWE-Bench Verified เป็นหลัก แหล่งข้อมูลที่อ้างถึงให้คะแนนอยู่ในช่วงใกล้กัน คือ 79.2%, 79.4% หรือ 80.8% แล้วแต่รายงาน ^[3]^[5]^[6]^[7]^[9]. สำหรับงานที่หน้าตาเหมือนการแก้ issue ในโค้ดเบสจริง ตัวเลขชุดนี้ทำให้ Opus 4.6 เป็นตัวเริ่มที่น่าลองที่สุด

แต่ GPT-5.3-Codex สรุปยากกว่า เพราะรายงานที่ให้มาใช้เส้น SWE-Bench ต่างกัน บทวิเคราะห์ GPT-5.4 ระบุ GPT-5.3-Codex ที่ 56.8% บน SWE-Bench Pro ขณะที่บทเปรียบเทียบ Opus กับ Codex บางแหล่งระบุ GPT-5.3-Codex ที่ 78.2% บน SWE-Bench Pro Public ^[3]^[6]^[7]. ตัวเลขสองชุดนี้จึงไม่ควรถูกนำมาเฉลี่ย หรือจัดอันดับรวมเหมือนมาจากสนามเดียวกัน

สำหรับ GPT-5.4 จุดที่เทียบกับ GPT-5.3-Codex ได้ตรงที่สุดในแหล่งเดียวกันคือ 57.7% บน SWE-Bench Pro เทียบกับ 56.8% ของ GPT-5.3-Codex ซึ่งเป็นส่วนต่างที่เล็กมาก ^[3]. อีกบทสรุปหนึ่งก็พูดถึงตัวเลข 57.7% ของ GPT-5.4 บน SWE-Bench Pro Public พร้อมเตือนว่าการประกาศผู้ชนะรวมระหว่าง Claude กับ GPT จากตัวเลขคนละชุดนั้นไม่ใช่การเทียบแบบ apples-to-apples ^[10].

Terminal-Bench ต้องดูทั้งโมเดลและเอเจนต์

Terminal-Bench 2.0 เป็นสนามที่อ่านผิดได้ง่าย เพราะกระดานสาธารณะไม่ได้ให้คะแนนโมเดลล้วน ๆ แต่จัดอันดับเป็นคู่เอเจนต์/โมเดล ^[1]. พูดง่าย ๆ คือ โมเดลเดียวกันอาจทำคะแนนต่างกันเมื่ออยู่ในระบบเอเจนต์หรือ harness คนละแบบ

บนกระดานสาธารณะ GPT-5.3-Codex ปรากฏที่ 78.4% เมื่อจับคู่กับ SageAgent, 77.3% กับ Droid และ 75.1% กับ Simple Codex ^[1]. ฝั่ง Claude Opus 4.6 ปรากฏที่ 79.8% กับ ForgeCode, 75.3% กับ Capy และ 62.9% กับ Terminus 2 ^[1].

ช่องว่างระดับนี้มากพอจะเปลี่ยนหน้าตาผู้ชนะได้ บทวิเคราะห์ GPT-5.4 รายงานว่า GPT-5.3-Codex นำ Claude Opus 4.6 บน Terminal-Bench 2.0 ที่ 77.3% ต่อ 65.4% ^[3]. แต่กระดานสาธารณะมีรายการ ForgeCode/Claude Opus 4.6 ที่ 79.8% สูงกว่า SageAgent/GPT-5.3-Codex ที่ 78.4% ^[1]. ดังนั้นถ้าจะตัดสินงานเทอร์มินัลจริง ควรล็อกเอเจนต์และสภาพแวดล้อมให้เหมือนกันก่อน แล้วค่อยสรุปว่าโมเดลไหนดีกว่า

อ่านเป็นรายโมเดล

Claude Opus 4.6: ตัวเริ่มที่แข็งแรงสำหรับงานแก้บั๊กแบบ Verified

ถ้าตัวแทนคุณภาพการเขียนโค้ดของคุณคือ SWE-Bench Verified, Claude Opus 4.6 มีหลักฐานหนุนแน่นที่สุดในชุดข้อมูลนี้ คะแนนที่ถูกรายงานเกาะกลุ่มแถว 79%–81% ได้แก่ 79.2% ในบทวิเคราะห์ GPT-5.4, 79.4% ในบทเปรียบเทียบ Opus-vs-Codex และ 80.8% ในบทสรุปเบนช์มาร์กอื่น ๆ ^[3]^[5]^[6]^[7]^[9].

อย่างไรก็ตาม นี่ไม่ได้แปลว่า Opus 4.6 ชนะทุกงานโค้ด ภาพของ Terminal-Bench ยังปนกันอยู่ เพราะบางรายงานให้ 65.4% ขณะที่กระดานสาธารณะให้ได้ตั้งแต่ 62.9% ถึง 79.8% ตามเอเจนต์ที่จับคู่ ^[1]^[3]^[7]^[9]. สรุปคือ Opus 4.6 น่าเริ่มก่อนสำหรับงานซ่อมรีโพซิทอรีแบบ Verified แต่ยังไม่ควรถูกเรียกว่าแชมป์โค้ดสากล

GPT-5.3-Codex: ตัวเด่นของ OpenAI ในงานเทอร์มินัลเอเจนต์

GPT-5.3-Codex มีกรณีที่ชัดที่สุดเมื่อภาระงานคล้าย Terminal-Bench คือให้เอเจนต์ใช้ shell, แก้ไฟล์ และทำงานหลายขั้นตอนในสภาพแวดล้อมเทอร์มินัล รายงานเปรียบเทียบบางแหล่งให้ GPT-5.3-Codex ที่ 77.3% บน Terminal-Bench 2.0 และกระดานสาธารณะก็แสดง GPT-5.3-Codex ที่ 78.4% กับ SageAgent, 77.3% กับ Droid และ 75.1% กับ Simple Codex ^[1]^[3]^[7]^[9].

ฝั่ง SWE-Bench ต้องระวังกว่าเดิม บางแหล่งรายงาน GPT-5.3-Codex ที่ 78.2% บน SWE-Bench Pro Public ขณะที่อีกแหล่งรายงาน 56.8% บน SWE-Bench Pro ^[3]^[6]^[7]^[9]. เพราะแหล่งข้อมูลเองเตือนว่าแต่ละเวอร์ชันเทียบตรงกันไม่ได้ การประเมิน GPT-5.3-Codex จึงควรใช้เวอร์ชันเบนช์มาร์กและชุดทดสอบเดียวกับงานที่คุณจะใช้จริง ^[6]^[7]^[10].

GPT-5.4: ขยับด้านโค้ดไม่มาก แต่มีมุมเด่นเรื่องเครื่องมือ

จากชุดตัวเลขที่ให้มา GPT-5.4 ยังไม่ใช่การก้าวกระโดดด้านโค้ดแบบชนะขาด การเปรียบเทียบในแหล่งเดียวกันให้ GPT-5.4 นำ GPT-5.3-Codex บน SWE-Bench Pro เพียง 57.7% ต่อ 56.8% แต่ตามหลังใน Terminal-Bench 2.0 ที่ 75.1% ต่อ 77.3% ^[3].

จุดที่น่าสนใจกว่าคือการใช้เครื่องมือ บทวิเคราะห์ GPT-5.4 ระบุว่า tool search ลดการใช้โทเคน MCP ได้ 47% เพราะโหลดนิยามเครื่องมือเมื่อจำเป็น แทนที่จะยัดนิยามทั้งหมดเข้า context ตั้งแต่ต้น ^[3]. สำหรับระบบ coding agent ที่เรียกใช้เครื่องมือจำนวนมาก นี่อาจเป็นข้อได้เปรียบเชิงระบบ แต่ควรวัดแยกจากคะแนนแก้บั๊กหรือคะแนน Terminal-Bench

วิธีเทียบให้ไม่หลอกตัวเอง

เลือกเวอร์ชันเบนช์มาร์กก่อนเลือกผู้ชนะ SWE-Bench Verified, SWE-Bench Pro และ SWE-Bench Pro Public ไม่ควรถูกยุบเป็นคะแนนเดียว ^[6]^[7]^[10].
งานเทอร์มินัลต้องล็อก harness ให้คงที่ กระดาน Terminal-Bench 2.0 แสดงชัดว่าโมเดลเดียวกันทำคะแนนต่างกันได้มากเมื่อจับคู่กับเอเจนต์คนละตัว ^[1].
แยกความแม่นยำด้านโค้ดออกจากประสิทธิภาพการใช้เครื่องมือ ตัวเลขลดโทเคน MCP 47% ของ GPT-5.4 เป็นหลักฐานที่มีประโยชน์สำหรับระบบเครื่องมือหนัก แต่ไม่ใช่ข้ออ้างว่าโมเดลชนะ SWE-Bench หรือ Terminal-Bench ^[3].
ใช้การจัดอันดับข้ามแหล่งเป็นทิศทาง ไม่ใช่คำตัดสินสุดท้าย เพราะชุดข้อมูลนี้ชี้ผู้ชนะต่างกันตามสนามทดสอบและสภาพแวดล้อม ^[1]^[3]^[6]^[7]^[10].

สรุป

ถ้างานหลักคือแก้บั๊กในรีโพซิทอรีแบบ SWE-Bench Verified ให้เริ่มจาก Claude Opus 4.6 ถ้างานเป็นเอเจนต์ที่ต้องทำงานผ่านเทอร์มินัล ให้ใส่ GPT-5.3-Codex ไว้ในรอบทดสอบเสมอ และถ้าต้องการโมเดล OpenAI รุ่นล่าสุดหรือระบบของคุณใช้เครื่องมือผ่าน MCP หนักมาก GPT-5.4 ก็ควรถูกทดสอบแยกต่างหาก ^[1]^[3]^[5]^[7]^[9].

คำตอบสุดท้ายจึงไม่ใช่ โมเดลไหนเก่งโค้ดที่สุดแบบถาวร แต่คือ ผู้ชนะเปลี่ยนตามเวอร์ชันเบนช์มาร์ก เอเจนต์ที่ใช้ และงานจริงที่คุณจะรัน ^[1]^[6]^[7]^[10].

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

ค้นหาและตรวจสอบข้อเท็จจริงด้วย Studio Global AI

ประเด็นสำคัญ

ยังไม่มีผู้ชนะเดียวสำหรับงานโค้ดทั้งหมด: Claude Opus 4.6 เด่นที่ SWE Bench Verified ราว 79–81%, GPT 5.3 Codex เด่นใน Terminal Bench 2.0 ฝั่ง OpenAI และ GPT 5.4 ขยับเหนือ GPT 5.3 Codex เพียงเล็กน้อยใน SWE Bench Pro [1]...
ถ้างานคือแก้บั๊กในรีโพซิทอรี ให้เริ่มที่ Opus 4.6; งานเอเจนต์ผ่านเทอร์มินัลควรทดสอบ GPT 5.3 Codex; ส่วนระบบเครื่องมือเยอะผ่าน MCP ควรลอง GPT 5.4 เพราะมีรายงานว่าลดการใช้โทเคน MCP ได้ 47% [1][3].
อย่าเอา SWE Bench Verified, SWE Bench Pro และ SWE Bench Pro Public มาเทียบตรง ๆ หรือเฉลี่ยรวมกัน เพราะแหล่งข้อมูลหลายแห่งเตือนว่าเป็นคนละตัวแปรทดสอบ [6][7][10].

คนยังถาม

คำตอบสั้น ๆ สำหรับ "GPT-5.4 vs GPT-5.3-Codex vs Claude Opus 4.6 สำหรับงานโค้ด" คืออะไร

ประเด็นสำคัญที่ต้องตรวจสอบก่อนคืออะไร?

ฉันควรทำอย่างไรต่อไปในทางปฏิบัติ?

อย่าเอา SWE Bench Verified, SWE Bench Pro และ SWE Bench Pro Public มาเทียบตรง ๆ หรือเฉลี่ยรวมกัน เพราะแหล่งข้อมูลหลายแห่งเตือนว่าเป็นคนละตัวแปรทดสอบ [6][7][10].

ฉันควรสำรวจหัวข้อที่เกี่ยวข้องใดต่อไป

ดำเนินการต่อด้วย "Claude Security รุ่นเบต้า: Anthropic ใช้ AI สแกนช่องโหว่โค้ดองค์กรอย่างไร" เพื่อดูอีกมุมหนึ่งและการอ้างอิงเพิ่มเติม

เปิดหน้าที่เกี่ยวข้อง

ฉันควรเปรียบเทียบสิ่งนี้กับอะไร?

ตรวจสอบคำตอบนี้กับ "Grok 4.3 API ของ xAI: 1M context ราคาต่ำ และเกมรุกสู่แพลตฟอร์มเสียง"

เปิดหน้าที่เกี่ยวข้อง

ทำการวิจัยต่อ

IT Consulting Orange County CA, IT Services, IT Outsourcing - Technijian. # Anthropic Claude Security for Enterprise: What You Need to Know. Anthropic has officially opened Claude

Claude Security รุ่นเบต้า: Anthropic ใช้ AI สแกนช่องโหว่โค้ดองค์กรอย่างไร

Claude Security คืออะไร: AI ของ Anthropic สำหรับสแกนช่องโหว่โค้ดองค์กร

抽象 AI 介面顯示 Grok 4.3 API、1M context、token 價格與語音波形

Grok 4.3 API ของ xAI: 1M context ราคาต่ำ และเกมรุกสู่แพลตฟอร์มเสียง

Grok 4.3 API: 1M context กับราคา $1.25/$2.50 เปลี่ยนการแข่งขันโมเดลและเสียงอย่างไร

Xiaomi Q5 น่าจะไม่ใช่ MIX 5: เบาะแสล่าสุดชี้ไปที่ Xiaomi 18

Xiaomi Q5 ใช่ MIX 5 ไหม? ข่าวหลุดล่าสุดชี้ไปที่ Xiaomi 18 มากกว่า

Metas KI-Altersprüfung: Neue Regeln für Jugendliche in EU, USA und Brasilien

Meta ใช้ AI ตรวจอายุ: Instagram และ Facebook จะเข้มกับบัญชีเด็กอย่างไร

แหล่งที่มา

[1] 2.0 Leaderboardtbench.ai
Rank Agent Model Date Agent Org Model Org Accuracy -- -- -- -- -- -- -- -- 4 ForgeCode Claude Opus 4.6 2026-03-12 ForgeCode Anthropic 79.8%± 1.6 5 SageAgent GPT-5.3-Codex 2026-03-13 OpenSage OpenAI 78.4%± 2.2 6 ForgeCode Gemini 3.1 Pro 2026-03-02 ForgeCode...
[3] GPT-5.4: The Real Leap Isn't Coding | Blog - Alex Lavaeealexlavaee.me
- Coding benchmarks are flat. SWE-Bench Pro: 57.7% vs 56.8% for GPT-5.3-Codex. Terminal-Bench 2.0 actually regressed from 77.3% to 75.1%. - Tool search cuts MCP token usage by 47% by loading tool definitions on demand instead of cramming them all into conte...
[5] Best AI for Coding 2026: SWE-Bench Breakdown—Opus 4.6 ...marc0.dev
I dug into all of them. Here's what the benchmarks actually say, what they don't, and which model is worth your money depending on what you actually build. … Benchmark Claude Opus 4.6 GPT-5.3 Codex Winner -- -- -- -- SWE-bench Verified 80.8% 56.8% Opus 4.6...
[6] Claude Opus 4.6 vs GPT-5.3 Codex: Complete Comparisondigitalapplied.com
79.4% Claude SWE-bench Verified 78.2% GPT-5.3 SWE-bench Pro 77.3% Claude GPQA Diamond 25% GPT-5.3 Speed Gain Key Takeaways Claude leads SWE-bench Verified:: Opus 4.6 scores 79.4% on SWE-bench Verified while GPT-5.3-Codex leads SWE-bench Pro Public at 78.2%...
[7] Claude Opus 4.6 vs GPT-5.3 Codex: We Tested Both on Real ...intelligibberish.com
The Benchmark Numbers Before getting to practical testing, here’s how the flagship models compare on standardized benchmarks. Claude Opus 4.6: - SWE-bench Verified: 79.4% - GPQA Diamond: 77.3% - Terminal-Bench 2.0: 65.4% GPT-5.3 Codex: - SWE-bench Pro Publi...
[9] New GPT and Claude Releases Continue to One-Up Themselvesblog.kilo.ai
- Agent Teams (preview) — multiple Claude instances collaborating in parallel on tasks like code review, testing, and documentation - 80.8% on SWE-Bench Verified — the highest score on real-world bug-fixing evaluations - 65.4% on Terminal-Bench 2.0 — a new...
[10] SWE-bench 2026: Claude Opus 4.6 vs GPT-5.4 Coding Benchmarksevolink.ai
Here is the practical answer: - Claude Opus 4.6 has strong official coding claims from Anthropic, including public discussion of SWE-bench Verified methodology and strong performance on Terminal-Bench 2.0. - GPT-5.4 has strong official coding claims from Op...

ค้นพบเทรนด์

คำตอบเผยแพร่แล้ว5 พ.ค. 2026Last edited 6 พ.ค. 20267 แหล่งที่มา

GPT-5.4 vs GPT-5.3-Codex vs Claude Opus 4.6 สำหรับงานโค้ด

ค้นหาและตรวจสอบข้อเท็จจริงด้วย Studio Global AI เรียกดูเพิ่มเติมจาก Discover

4.8K0

คำตอบเร็ว: เลือกตามงาน ไม่ใช่ตามชื่อโมเดล

งานที่ต้องทำ	โมเดลที่ควรลองก่อน	หลักฐานหลัก	จุดที่ต้องระวัง
แก้บั๊กในรีโพซิทอรีแบบ SWE-Bench Verified	Claude Opus 4.6	รายงานหลายแหล่งให้ Opus 4.6 อยู่ราว 79.2%–80.8% บน SWE-Bench Verified ^[3]^[5]^[6]^[7]^[9].	อย่านำไปเทียบตรงกับ SWE-Bench Pro Public เหมือนเป็นข้อสอบเดียวกัน ^[6]^[7]^[10].
งาน coding agent ผ่านเทอร์มินัล	GPT-5.3-Codex แต่ต้องเช็ก harness	บทวิเคราะห์ GPT-5.4 รายงานว่า GPT-5.3-Codex ได้ 77.3% บน Terminal-Bench 2.0 สูงกว่า GPT-5.4 ที่ 75.1% และ Claude Opus 4.6 ที่ 65.4% ^[3].	กระดานสาธารณะจัดอันดับเป็นคู่เอเจนต์/โมเดล และ Claude Opus 4.6 กับ ForgeCode ขึ้นถึง 79.8% ^[1].
เลือกเฉพาะในตระกูล OpenAI	GPT-5.4 แต่คาดหวังผลเพิ่มแบบค่อยเป็นค่อยไป	แหล่งเดียวกันรายงาน GPT-5.4 ที่ 57.7% บน SWE-Bench Pro เทียบกับ GPT-5.3-Codex ที่ 56.8% ^[3].	ใน Terminal-Bench 2.0 GPT-5.4 ต่ำกว่า GPT-5.3-Codex คือ 75.1% ต่อ 77.3% ^[3].
ระบบที่เรียกใช้เครื่องมือจำนวนมากผ่าน MCP	GPT-5.4 ควรได้รอบทดสอบของตัวเอง	บทวิเคราะห์ GPT-5.4 ระบุว่า tool search ลดการใช้โทเคน MCP ได้ 47% ด้วยการโหลดนิยามเครื่องมือเมื่อต้องใช้ ^[3].	การประหยัดโทเคนไม่ใช่สิ่งเดียวกับการชนะเบนช์มาร์กแก้บั๊ก ^[3].