LaporanDipublikasikan28 Apr 2026Last edited 6 Mei 202614 sumber

Claude Opus 4.7 vs GPT-5.5 Spud: Apa yang Benar-Benar Bisa Dibuktikan Benchmark

Belum ada pemenang yang bisa dinyatakan secara bertanggung jawab: Claude Opus 4.7 terverifikasi, GPT 5.5 Spud belum terverifikasi lewat sumber primer OpenAI dalam kumpulan bukti ini. Benchmark yang kuat harus punya metode terbuka, tugas yang sebanding, kondisi akses yang jelas, penilaian objektif, dan replikasi inde...

Cari dan periksa fakta dengan Studio Global AI Jelajahi lebih banyak dari Discover

17K0

Editorial illustration of Claude Opus 4.7 and GPT-5.5 Spud benchmark claims being compared on scorecards — Claude Opus 4.7 vs GPT-5.5 Spud: Why the Benchmark Winner Isn’t Proven YetAI-generated editorial image visualizing a benchmark comparison where one model is verified and the other remains unconfirmed in the supplied evidence.
AI Perintah
Create a landscape editorial hero image for this Studio Global article: Claude Opus 4.7 vs GPT-5.5 Spud: Why the Benchmark Winner Isn’t Proven Yet. Article summary: Claude Opus 4.7 is documented by Anthropic and reported as publicly released, while GPT 5.5 Spud is not verified here by a primary OpenAI source; a reliable head to head winner cannot be named yet.. Topic tags: ai, ai benchmarks, anthropic, claude, openai. Reference image context from search candidates: Reference image 1: visual subject "# Claude 4.7 vs GPT-5.5: Who Actually Wins in 2026? Both offer a 1,000,000-token context window. Both charge $5.00 per million input tokens. The difference between choosing the rig" source context "Claude 4.7 vs GPT-5.5: Who Actually Wins in 2026? | Topify" Reference image 2: visual subject "# OpenAI’s GPT-5.5 vs Claude Opus 4.7: Which is better? OpenAI released its latest model, GPT-5.5, on
openai.com

Perbandingan Claude Opus 4.7 vs GPT-5.5 Spud sekilas terdengar seperti balapan biasa: model mana yang lebih pintar, lebih cepat, atau lebih unggul di leaderboard. Namun dari bukti yang tersedia, persoalannya belum sampai ke sana. Ini lebih dulu soal kualitas sumber.

Anthropic menyatakan pengembang dapat menggunakan claude-opus-4-7 melalui Claude API, dan VentureBeat melaporkan Claude Opus 4.7 sebagai rilis publik. ^[8]^[1] Sebaliknya, bukti yang disediakan untuk GPT-5.5 Spud hanya berupa halaman pihak ketiga yang membahas kemungkinan atau model OpenAI mendatang, bukan model card, system card, catatan rilis, atau dokumen API primer dari OpenAI. ^[19]^[20]

Kesimpulannya tidak simetris: Claude Opus 4.7 dapat diperlakukan sebagai model nyata dalam kumpulan bukti ini; GPT-5.5 Spud belum dapat diperlakukan sebagai model OpenAI yang sudah terverifikasi dirilis. Karena itu, klaim pemenang benchmark head-to-head belum terbukti.

Fakta yang bisa diverifikasi

Pertanyaan	Yang didukung bukti	Mengapa penting
Apakah Claude Opus 4.7 ada sebagai model Anthropic?	Ya. Anthropic mencantumkan `claude-opus-4-7` untuk penggunaan melalui Claude API. ^[8]	Tim teknis dapat memasukkannya ke evaluasi internal yang terkontrol.
Apakah Claude Opus 4.7 dilaporkan dirilis ke publik?	Ya. VentureBeat melaporkan rilis publik Claude Opus 4.7 oleh Anthropic. ^[1]	Klaim rilis lebih kuat jika ditopang sumber resmi atau liputan bereputasi.
Apakah GPT-5.5 Spud terverifikasi di sini sebagai model OpenAI yang sudah dirilis?	Tidak. Sumber Spud yang tersedia adalah halaman pihak ketiga tentang model OpenAI berikutnya atau yang masih mungkin. ^[19]^[20]	Klaim performa langsung tentang Spud harus diperlakukan sebagai belum terkonfirmasi dalam bukti ini.
Apakah ada benchmark independen yang membandingkan Claude Opus 4.7 dan GPT-5.5 Spud secara setara?	Tidak ada benchmark seperti itu dalam sumber yang disediakan.	Menyusun peringkat langsung akan melebih-lebihkan bukti.

Benchmark bisa membuktikan apa?

Benchmark AI bukan stempel juara mutlak. Ia hanya menunjukkan bagaimana sebuah model bekerja pada kumpulan tugas tertentu, dengan aturan pengujian tertentu, metode penilaian tertentu, izin alat tertentu, dan kondisi akses tertentu.

Perbedaan itu penting. Literatur evaluasi LLM, atau model bahasa besar, memperingatkan bahwa benchmark statis dapat mengalami saturasi, kontaminasi data, dan minim replikasi independen. ^[26] Risiko ini makin besar ketika satu model dalam perbandingan sudah terdokumentasi, sementara model lainnya belum terverifikasi lewat dokumentasi primer.

Agar klaim Claude Opus 4.7 vs GPT-5.5 Spud layak dipercaya, setidaknya diperlukan:

Sumber primer OpenAI yang mengonfirmasi Spud.
Model identifier Spud yang stabil.
Kondisi akses yang dapat direproduksi untuk kedua model.
Pengaturan benchmark yang dibuka, termasuk prompt, alat, jumlah percobaan ulang, dan metode skor.
Replikasi independen dengan kondisi yang sebanding.

Bukti Spud yang tersedia belum memenuhi standar itu. ^[19]^[20]

Mengapa risiko kontaminasi bisa mengubah peringkat

Dalam konteks benchmark, kontaminasi berarti model mungkin pernah terpapar materi uji, pola solusi, atau artefak benchmark publik selama pelatihan atau penyetelan. Jika itu terjadi, skor tinggi belum tentu mencerminkan kemampuan umum yang kuat.

Riset benchmark terbaru berulang kali menyoroti risiko kontaminasi dan kebocoran data, terutama pada dataset statis atau publik. ^[25]^[26]^[45] Survei benchmark LLM juga menyebut desain dinamis seperti LiveBench dapat mengurangi risiko kebocoran data. ^[25]

Artinya, leaderboard yang sering diperbarui dan dirancang untuk membatasi kontaminasi biasanya lebih informatif dibanding benchmark lama yang statis. Namun tetap saja, satu leaderboard tidak otomatis cukup untuk keputusan besar seperti migrasi model produksi.

LiveBench: sinyal kuat, bukan jawaban akhir

LiveBench termasuk desain benchmark publik yang lebih kuat dalam kumpulan bukti ini. Ia dibangun di sekitar tugas yang dibatasi dari sisi kontaminasi, pertanyaan yang sering diperbarui dari sumber terbaru, pembuatan soal secara prosedural, dan penilaian berbasis jawaban benar yang objektif. ^[37]

Situs LiveBench juga menautkan leaderboard, detail, kode, data, dan paper, sehingga evaluasinya lebih dapat diperiksa daripada grafik peluncuran yang berdiri sendiri. ^[36]

Namun LiveBench tetap harus dibaca sebagai sinyal publik yang kuat, bukan keputusan pengadaan. Untuk memilih model, tim tetap perlu menguji prompt sendiri, basis kode sendiri, batas latensi, biaya, izin alat, dan toleransi terhadap kegagalan.

SWE-bench berguna, tetapi mudah disalahbaca

SWE-bench dan variannya penting untuk menilai kemampuan coding serta agen rekayasa perangkat lunak. Tetapi nama benchmark saja tidak cukup. Hasil dapat berubah karena varian benchmark, harness pengujian, akses alat, kondisi repositori, kebijakan retry, dan cara skor dihitung.

SWE-bench Live dirancang untuk mengurangi kontaminasi dari pretraining dengan membatasi tugas pada issue yang dibuat antara 1 Januari 2024 dan 20 April 2025, dan penulisnya mencatat bahwa konfigurasi leaderboard dapat berbeda secara substansial. ^[43] SWE-bench Pro diposisikan sebagai benchmark yang lebih menantang dan lebih tahan kontaminasi untuk tugas rekayasa perangkat lunak jangka panjang. ^[44]

Catatannya tidak kecil. SWE-Bench++ berargumen bahwa benchmark perangkat lunak open-source menghadapi risiko kontaminasi yang serius dan kebocoran solusi dapat membelokkan peringkat leaderboard. ^[45] Analisis 2026 terhadap leaderboard SWE-bench juga melaporkan adanya submission terbaru di SWE-bench Verified dengan kontaminasi data. ^[47]

Ada pula masalah saturasi. Sebuah paper tentang infrastruktur benchmarking melaporkan bahwa hasil pada SWE-bench Verified dapat turun menjadi 23% ketika diuji pada SWE-bench Pro. ^[46] SWE-ABS juga menyatakan leaderboard SWE-bench Verified mendekati saturasi dan dapat menunjukkan tingkat keberhasilan yang terlalu tinggi sampai tugasnya diperkuat secara adversarial. ^[49]

Tangga kredibilitas benchmark

Gunakan benchmark publik sebagai penyaring awal, bukan vonis final.

Jenis bukti	Tingkat kepercayaan praktis	Catatan utama
Evaluasi privat pada beban kerja sendiri	Paling bernilai secara praktis karena sesuai dengan prompt, alat, kode, dan batasan nyata Anda.	Perlu harness yang bisa diulang dan penilaian yang rapi.
Benchmark publik yang dinamis atau membatasi kontaminasi	Lebih kuat daripada tes statis karena tugas yang diperbarui menekan risiko kebocoran. ^[25]^[37]	Belum tentu sama dengan pekerjaan produksi Anda.
SWE-bench Live dan SWE-bench Pro	Berguna untuk agen software engineering dan dirancang dengan kontrol kontaminasi yang lebih kuat. ^[43]^[44]	Perbedaan harness dan alat dapat mengubah peringkat. ^[43]
SWE-bench Verified dan leaderboard serupa	Berguna sebagai sinyal pasar yang luas.	Kontaminasi, kebocoran, dan saturasi dapat mengganggu skor mentah. ^[45]^[47]^[49]
Grafik peluncuran vendor	Membantu memahami kekuatan yang diklaim pembuat model.	Perlu replikasi independen sebelum dipakai untuk keputusan berisiko tinggi. ^[26]
Halaman rumor dan artikel perbandingan SEO	Hanya berguna sebagai petunjuk awal untuk ditelusuri.	Bukan bukti primer untuk model yang belum terverifikasi. ^[19]^[20]

Cara menguji sebelum pindah model

Jika Anda membandingkan Claude Opus 4.7 dengan model lain, mulai dari validasi identitas model, lalu akhiri dengan uji beban kerja sendiri.

Pastikan model ID yang tepat. Untuk Claude Opus 4.7, Anthropic mendokumentasikan claude-opus-4-7 untuk penggunaan Claude API. ^[8] Untuk GPT-5.5 Spud, kumpulan bukti ini tidak menyediakan model identifier primer dari OpenAI. ^[19]^[20]
Gunakan harness yang sama. SWE-bench Live memperingatkan bahwa konfigurasi leaderboard dapat berbeda substansial, sehingga setup yang tidak sebanding dapat menciptakan peringkat palsu. ^[43]
Utamakan tugas terbaru, privat, atau tahan kontaminasi. Benchmark dinamis dan benchmark software engineering yang tahan kontaminasi dirancang untuk mengurangi risiko kebocoran. ^[25]^[37]^[44]
Catat batasan praktis. Rekam jumlah retry, latensi, biaya, izin penggunaan alat, mode kegagalan, dan apakah model menyelesaikan tugas dengan bersih atau hanya setelah percobaan mahal.
Ulangi evaluasi. Satu hasil leaderboard sebaiknya diperlakukan sebagai hipotesis sampai didukung pengujian internal atau replikasi pihak ketiga. ^[26]

Apa yang bisa mengubah kesimpulan?

Kesimpulan akan berubah jika tersedia pengumuman primer, model card, system card, atau dokumen API OpenAI untuk GPT-5.5 Spud; model identifier yang stabil; akses yang dapat direproduksi; serta hasil benchmark independen dengan harness dan izin alat yang sebanding.

Bukti akan lebih kuat lagi jika hasil tersebut muncul pada evaluasi yang membatasi atau menahan kontaminasi seperti LiveBench, SWE-bench Live, atau SWE-bench Pro, dan jika tim independen dapat mereproduksinya. ^[37]^[43]^[44]^[26]

Batasan penting

Analisis ini hanya berdasarkan bukti yang disediakan. Tidak adanya sumber primer OpenAI untuk GPT-5.5 Spud di sini tidak membuktikan bahwa sumber seperti itu tidak ada di tempat lain; artinya, klaim tersebut belum terverifikasi oleh sumber yang tersedia. ^[19]^[20]

Sebagian sumber metodologi benchmark yang dikutip adalah catatan arXiv, OpenReview, atau SSRN, bukan artikel jurnal final. Sumber-sumber itu berguna untuk memahami desain evaluasi, risiko kontaminasi, dan masalah replikasi, tetapi status publikasinya tetap perlu diperhatikan. ^[25]^[26]^[37]^[43]^[44]^[45]^[46]^[47]^[49]

Intinya

Claude Opus 4.7 terverifikasi dalam bukti yang tersedia; GPT-5.5 Spud belum terverifikasi di sini melalui dokumentasi primer OpenAI. ^[8]^[1]^[19]^[20] Karena itu, pemenang Claude Opus 4.7 vs GPT-5.5 Spud belum layak dipublikasikan sampai Spud dikonfirmasi, dapat diakses dengan model ID stabil, dan diuji dalam kondisi yang sebanding.

Untuk memilih model, beri bobot terbesar pada benchmark yang membatasi atau menahan kontaminasi, memiliki metode yang dapat diperiksa, dan didukung pengujian berulang. LiveBench, SWE-bench Live, dan SWE-bench Pro lebih informatif daripada benchmark statis atau grafik vendor saja, tetapi tidak satu pun menggantikan evaluasi terkontrol pada pekerjaan nyata Anda. ^[37]^[25]^[43]^[44]^[26]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Cari dan periksa fakta dengan Studio Global AI

Poin-poin penting

Belum ada pemenang yang bisa dinyatakan secara bertanggung jawab: Claude Opus 4.7 terverifikasi, GPT 5.5 Spud belum terverifikasi lewat sumber primer OpenAI dalam kumpulan bukti ini.
Benchmark yang kuat harus punya metode terbuka, tugas yang sebanding, kondisi akses yang jelas, penilaian objektif, dan replikasi independen.
LiveBench, SWE bench Live, dan SWE bench Pro lebih berguna daripada grafik peluncuran vendor, tetapi tetap bukan pengganti uji coba pada beban kerja nyata.

Orang-orang juga bertanya

Apa jawaban singkat untuk "Claude Opus 4.7 vs GPT-5.5 Spud: Apa yang Benar-Benar Bisa Dibuktikan Benchmark"?

Belum ada pemenang yang bisa dinyatakan secara bertanggung jawab: Claude Opus 4.7 terverifikasi, GPT 5.5 Spud belum terverifikasi lewat sumber primer OpenAI dalam kumpulan bukti ini.

Apa poin penting yang harus divalidasi terlebih dahulu?

Apa yang harus saya lakukan selanjutnya dalam latihan?

LiveBench, SWE bench Live, dan SWE bench Pro lebih berguna daripada grafik peluncuran vendor, tetapi tetap bukan pengganti uji coba pada beban kerja nyata.

Topik terkait manakah yang harus saya jelajahi selanjutnya?

Lanjutkan dengan "Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6: siapa unggul di benchmark 2026?" untuk sudut pandang lain dan kutipan tambahan.

Buka halaman terkait

Dengan apa saya harus membandingkannya?

Periksa ulang jawaban ini dengan "Northwest vs. Southeast Timber: Mengapa Jawabannya larger; larger?".

Buka halaman terkait

Lanjutkan penelitian Anda

Comparativa de benchmarks 2026 entre Claude Opus 4.7, GPT-5.5, DeepSeek V4 y Kimi K2.6

Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6: siapa unggul di benchmark 2026?

Benchmark AI 2026: Claude Opus 4.7, GPT-5.5, DeepSeek V4, dan Kimi K2.6 dibandingkan

Northwest vs. Southeast Timber: Mengapa Jawabannya larger; larger?

Northwest vs. Southeast Timber: Mengapa Substitusi Lebih Tinggi Berarti larger; larger

抽象 AI 晶片與多個聊天機器人平台競爭的示意圖，象徵 DeepSeek 挑戰 OpenAI、Claude、Gemini 與 Grok

Bisakah DeepSeek Mengalahkan OpenAI, Claude, Gemini, dan Grok? Masalahnya Bukan Cuma Benchmark

Bisakah DeepSeek Mengalahkan OpenAI, Claude, Gemini, dan Grok? Kuncinya Biaya dan Kepercayaan

Illustration of an AI coding agent connected to cloud database and backup systems

Insiden PocketOS: Pelajaran di Balik Klaim AI Menghapus Database

Klaim AI menghapus database PocketOS: apa yang diketahui dari insiden Claude/Cursor

Percakapan penelitian

kamu21 Apr 2026

Pertanyaan penelitian

Research and fact-check: Claude Opus 4.7 vs GPT-5.5 Spud, Benchmark credibility, contamination risk, and independent replication.

Studio Global AI21 Apr 202640 sumber

Jawaban yang dikutip

Claude Opus 4.7 is verified: Anthropic officially announced it on Apr. 16, 2026 and said it is generally available.^[1] In the retrieved evidence, “GPT-5.5 Spud” appeared on third-party pages about upcoming OpenAI models rather than in a primary OpenAI release document, so the evidence does not support a clean Claude-vs-Spud head-to-head yet.^[2]^[3] On benchmark credibility, the strongest signals come from contamination-limited or contamination-resistant public benchmarks such as LiveBench and newer SWE-bench variants, not from release-day charts alone.^[4]^[5]^[6]^[7]^[8]

Key findings

Model status: Claude Opus 4.7 is a real, released Anthropic model.^[1] In the retrieved evidence, mentions of “GPT-5.5 Spud” were on third-party pages describing “next” or unreleased OpenAI models.^[2]^[3]
Benchmark credibility: LiveBench was explicitly designed to resist contamination by using recent-source questions, objective ground-truth scoring, and monthly updates.^[4] A later benchmark survey says dynamic benchmark designs like LiveBench reduce data-leakage risk.^[5]
SWE-bench is useful, but raw leaderboard scores need caution: SWE-bench Live restricts tasks to issues created between Jan. 1, 2024 and Apr. 20, 2025 to reduce pretraining contamination, and its authors note that leaderboard setups can differ substantially.^[6] SWE-bench Pro is presented as a more contamination-resistant benchmark for longer-horizon software-engineering tasks.^[7]
Contamination risk remains material: SWE-Bench++ argues that public GitHub-based software benchmarks face critical contamination risk and that solution leakage can skew rankings.^[9] A 2026 analysis of SWE-Bench leaderboards also reports recent Verified submissions with data contamination.^[10]
Saturation and benchmark gaming are also real risks: one 2026 benchmarking paper says results that look strong on SWE-bench Verified can drop to 23% on SWE-bench Pro.^[11] SWE-ABS separately argues that Verified is approaching saturation and can show inflated success rates until tasks are adversarially strengthened.^[12]
Independent replication is still thin: a broader 2025 assessment of major LLM evaluations says many claims now have clearer methods but still limited independent replication.^[8] Inference: that caution applies to fresh Opus 4.7 launch claims until stronger third-party replications appear.^[1]^[8]
Practical takeaway: if you want the most trustworthy performance signal today, put the most weight on contamination-limited/resistant, publicly inspectable benchmarks and repeated third-party tests, and less weight on vendor launch charts.^[4]^[5]^[7]^[8]^[9]^[10]^[11]^[12]

Evidence notes

I did not retrieve a primary OpenAI announcement, model card, or system card for “GPT-5.5 Spud.”
I also did not retrieve a strong, independent, apples-to-apples replication of Claude Opus 4.7 versus a verified GPT-5.5 Spud model.
Sources
- ^[1] Anthropic, “Introducing Claude Opus 4.7” — https://www.anthropic.com/news/claude-opus-4-7
- ^[2] Pasquale Pillitteri, “GPT-5.5 Spud and GPT Image 2: Complete Guide to OpenAI Next Models in 2026” — https://pasqualepillitteri.it/en/news/741/gpt-5-5-spud-gpt-image-2-openai-complete-guide-2026
- ^[3] Idlen, “OpenAI Spud: GPT-6 Release Between April 14 and May 5, 2026” — https://www.idlen.io/news/openai-spud-gpt6-release-april-14-may-5-super-app-ambient-computing
- ^[4] White et al., “LiveBench: A Challenging, Contamination-Limited LLM Benchmark” — https://arxiv.org/abs/2406.19314
- ^[5] “A survey on large language model benchmarks” — https://arxiv.org/abs/2508.15361
- ^[6] “Swe-bench goes live!” — https://arxiv.org/abs/2505.23419
- ^[7] “Swe-bench pro: Can AI agents solve long-horizon software engineering tasks?” — https://arxiv.org/abs/2509.16941
- ^[8] “From Benchmarks to Real-World Performance: A Data-Driven Assessment of Large Language Models in 2025” — https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5991894
- ^[9] “SWE-Bench++: A Framework for the Scalable Generation of Software Engineering Benchmarks from Open-Source Repositories” — https://arxiv.org/abs/2512.17419
- ^[10] “What’s in a Benchmark? The Case of SWE-Bench in Automated Program Repair” — https://arxiv.org/abs/2602.04449
- ^[11] “Towards Comprehensive Benchmarking Infrastructure for LLMs In Software Engineering” — https://arxiv.org/abs/2601.21070
- ^[12] “SWE-ABS: Adversarial Benchmark Strengthening Exposes Inflated Success Rates on Test-based Benchmark” — https://arxiv.org/abs/2603.00520

Limitations / uncertainty

Because “GPT-5.5 Spud” was not verified from primary-source material in the retrieved evidence, any direct Opus-4.7-vs-Spud ranking claim should be treated as provisional.^[2]^[3]
Several benchmark-methodology sources here are recent arXiv or SSRN papers rather than final peer-reviewed journal versions.^[4]^[5]^[6]^[7]^[8]^[9]^[10]^[11]^[12]

Summary

The fact-checked conclusion is asymmetric: Claude Opus 4.7 is real and released, while “GPT-5.5 Spud” is not verified from primary-source material in the evidence I retrieved.^[1]^[2]^[3] For benchmark credibility, the best current evidence favors contamination-limited or contamination-resistant public evals such as LiveBench and SWE-bench Pro over static or vendor-only charts.^[4]^[5]^[6]^[7]^[8]^[9]^[10]^[11]^[12] If you want, I can turn this into a stricter buyer’s guide with a simple trust ranking for specific benchmarks like LiveBench, SWE-bench Verified, SWE-bench Pro, HumanEval, and vendor internal evals.

Sumber

[1] Anthropic releases Claude Opus 4.7, narrowly retaking lead for most powerful generally available LLM - VentureBeatventurebeat.com
Anthropic is publicly releasing its most powerful large language model yet,Claude Opus 4.7, today — as it continues to keep aneven more powerful successor, Mythos, restricted to a small number of external enterprise partners for cybersecurity testing and pa...
[8] Introducing Claude Opus 4.7 - Anthropicanthropic.com
Skip to main contentSkip to footer. . Developers can use claude-opus-4-7 via the Claude API. ![Image 3: logo](
[19] GPT-5.5 Spud and GPT Image 2: Complete Guide to OpenAI Next Models in 2026pasqualepillitteri.it
GPT-5.5 Spud and GPT Image 2: Complete Guide to OpenAI Next Models in 2026. Complete guide to GPT-5.5 Spud and GPT Image 2: everything about release date (ChatGPT 5.5 release date), capabilities, benchmarks, competitor comparison and how to test upcoming Op...
[20] OpenAI Spud: GPT-6 Release Between April 14 and May 5, 2026 | Idlenidlen.io
2. OpenAI Spud Drops Between April 14 and May 5 — 78% Polymarket, Greg Brockman Says 'Not Incremental': GPT-5.5 or GPT-6? OpenAI Spud Drops Between April 14 and May 5 — 78% Polymarket, Greg Brockman Says 'Not Incremental': GPT-5.5 or GPT-6? Spud, OpenAI's n...
[25] A survey on large language model benchmarksarxiv.org
… In this survey, we present a comprehensive review of LLM … The creation of dynamic, non-public benchmarks like LiveBench [100] … of the dataset but also reduces the risk of data leakage. … 2025
[26] From Benchmarks to Real-World Performance: A Data-Driven Assessment of Large Language Models in 2025papers.ssrn.com
… -relevant outcomes across major 2025 LLM systems. … of static benchmarks, including saturation effects, data contamination, and … with clear methods but limited independent replication. … 5991
[36] LiveBenchlivebench.ai
LeaderboardDetailsCodeDataPaper. GPT-5.4 Thinking xHigh Effort OpenAI 80.28 88.12 77.54 70.00 94.15 79.31 82.63 70.22 . Claude 4.6 Opus Thinking High Effort Anthropic 76.33 88.67 78.18 61.67 89.32 69.89 83.27 63.31 . [Claude 4.5 Opus Thinking High Effort](htt…
[37] LiveBench: A Challenging, Contamination-Limited LLM Benchmarkopenreview.net
TL;DR: LiveBench is a difficult LLM benchmark consisting of contamination-limited tasks that employ verifiable ground truth answers on frequently-updated questions from recent information sources and procedural question generation techniques. We release Liv...
[43] Swe-bench goes live!arxiv.org
… contamination from pretraining, we restrict the dataset to issues created between January 1, 2024, and April 20, 2025. … setups on the SWE-bench leaderboard often involve dramatically … 2025
[44] Swe-bench pro: Can ai agents solve long-horizon software engineering tasks?arxiv.org
… PRO, a substantially more challenging benchmark that … Overall, SWE-BENCH PRO provides a contamination-resistant … publicly in this paper and will update in the leaderboard. This is … 2025
[45] SWE-Bench++: A Framework for the Scalable Generation of Software Engineering Benchmarks from Open-Source Repositoriesarxiv.org
… benchmarks introduces a critical data contamination risk: most … SWE-bench and its manually curated variant SWE-bench … rather than reasoning, further skewing leaderboard rankings. … 2025
[46] Towards Comprehensive Benchmarking Infrastructure for LLMs In Software Engineeringarxiv.org
… context, and widespread contamination issues. To understand … on SWE-bench Verified drop to just 23% on SWE-bench Pro, … evaluation methods or reusing existing but often inadequate … 2026
[47] What's in a Benchmark? The Case of SWE-Bench in Automated Program Repairarxiv.org
… To carry out our study, we examine each entry in the SWE-Bench leaderboards. … We also observed in Verified several recent submissions (August 2025) with … Data Contamination. Some … 2602
[49] SWE-ABS: Adversarial Benchmark Strengthening Exposes Inflated Success Rates on Test-based Benchmarkarxiv.org
… The SWE-Bench Verified leaderboard is approaching saturation, with the … 2025) pioneered test augmentation for SWE-Bench, … effectiveness on contamination-resistant SWE-Bench Pro … 2026

Temukan yang Sedang Tren

LaporanDipublikasikan28 Apr 2026Last edited 6 Mei 202614 sumber