studioglobal
인기 있는 발견
답변게시됨10 소스

GPT-5.5 vs Claude Opus 4.7: panduan memilih untuk coding, UI, dan biaya

GPT 5.5 unggul di Terminal Bench 2.0 dengan 82,7% dibanding Claude Opus 4.7 di 69,4%, tetapi tabel yang sama memberi catatan bahwa harness evaluasinya berbeda.[8] Claude Opus 4.7 perlu masuk daftar uji untuk pekerjaan codebase nyata: SWE Bench Pro melaporkan Claude di 64,3% dan GPT 5.5 di 58,6% untuk penyelesaian is...

17K0
GPT-5.5와 Claude Opus 4.7의 코딩, UI, 가격 비교를 시각화한 추상 일러스트
GPT-5.5 vs Claude Opus 4.7: 코딩·UI·가격별 승자는코딩 벤치마크, UI 생성 품질, API 비용은 서로 다른 선택 기준을 제시한다.
AI 프롬프트

Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7: 코딩·UI·가격별 승자는?. Article summary: 전체 승자를 단정하기는 어렵습니다. GPT 5.5는 Terminal Bench 2.0에서 82.7%로 Claude Opus 4.7의 69.4%를 앞섰지만, Claude는 SWE Bench Pro에서 64.3%로 GPT 5.5의 58.6%보다 높아 작업별 선택이 필요합니다.[4][8]. Topic tags: ai, openai, anthropic, claude, gpt 5. Reference image context from search candidates: Reference image 1: visual subject "# OpenAI’s GPT-5.5 vs Claude Opus 4.7: Which is better? OpenAI released its latest model, GPT-5.5, on April 23, just a week after Anthropic introduced Claude Opus 4.7. **Spoiler al" source context "OpenAI's GPT-5.5 vs Claude Opus 4.7: Which is better? | Mashable" Reference image 2: visual subject "# OpenAI’s GPT-5.5 vs Claude Opus 4.7: Which is better? OpenAI released its latest model, GPT-5.5, on April 23, just a week after Anthropic introduced Claude Opus 4.7. **Spoil

openai.com

Memilih antara GPT-5.5 dan Claude Opus 4.7 bukan sekadar mencari model yang “paling pintar”. Untuk tim engineering, produk, atau founder yang menghitung biaya API, pertanyaan yang lebih berguna adalah: di pekerjaan apa model ini paling kecil risikonya membuat kita bolak-balik memperbaiki hasil?

OpenAI menggambarkan GPT-5.5 sebagai model untuk pekerjaan kompleks dunia nyata, termasuk menulis kode, riset online, analisis informasi, membuat dokumen dan spreadsheet, serta berpindah antar-tool untuk menyelesaikan tugas.[16] Anthropic, sementara itu, memperkenalkan Claude Opus 4.7 sebagai model umum publiknya yang paling kuat untuk penalaran kompleks dan agentic coding.[26]

Jika diringkas dari data publik yang tersedia, GPT-5.5 memberi sinyal kuat untuk pekerjaan terminal dan otomasi berbasis tool, sedangkan Claude Opus 4.7 lebih menarik untuk penyelesaian isu GitHub nyata, pembuatan UI-first, dan biaya output standar.[1][4][8][23][28]

Ringkasan cepat

  • Otomasi terminal dan agentic workflow: mulai uji dari GPT-5.5. RDWorld mencatat skor Terminal-Bench 2.0 GPT-5.5 sebesar 82,7%, dibanding Claude Opus 4.7 sebesar 69,4%; tetapi tabel yang sama memberi catatan bahwa harness evaluasinya berbeda.[8]
  • Bug fixing dan issue di repo nyata: Claude Opus 4.7 wajib dibandingkan. SWE-Bench Pro dilaporkan memberi Claude Opus 4.7 skor 64,3%, sementara GPT-5.5 58,6%; Yahoo Tech menjelaskan benchmark ini menilai penyelesaian isu GitHub dunia nyata.[4]
  • Draf UI, landing page, dashboard: Claude Opus 4.7 tampak lebih menjanjikan. Appwrite menilai Claude menghasilkan hierarki layout yang lebih jelas, tipografi lebih rapat, dan grid kartu yang tidak terlalu repetitif.[1]
  • Harga API standar: input keduanya sama-sama di kisaran US$5 per 1 juta token, tetapi output Claude Opus 4.7 mulai US$25 per 1 juta token, lebih rendah daripada GPT-5.5 yang diumumkan US$30 per 1 juta token.[23][28]

Tabel perbandingan utama

KriteriaGPT-5.5Claude Opus 4.7Makna praktis
Posisi modelDidesain untuk menulis kode, riset online, analisis informasi, dokumen, spreadsheet, dan penggunaan berbagai tool.[16]Diposisikan sebagai model Anthropic paling kuat yang tersedia umum untuk penalaran kompleks dan agentic coding.[26]Keduanya model premium untuk pekerjaan berat, tetapi penekanannya berbeda.
Terminal-Bench 2.082,7%.[8]69,4%.[8]Sinyal lebih kuat untuk GPT-5.5 pada pekerjaan terminal, dengan catatan perbedaan harness.[8]
SWE-Bench Pro58,6%.[4]64,3%.[4]Claude Opus 4.7 lebih kuat pada benchmark penyelesaian isu GitHub nyata.[4]
GPQA Diamond93,6%.[8]94,2%.[8]Selisih kecil; RDWorld menandai kategori ini sudah mendekati saturasi.[8]
HLE, tanpa tool41,4%.[8]46,9%.[8]Claude Opus 4.7 lebih tinggi pada evaluasi sulit tanpa bantuan tool.[8]
BrowseComp84,4%.[8]79,3%.[8]GPT-5.5 lebih tinggi, tetapi ada catatan contamination flagged.[8]
UI-firstAppwrite menyebut GPT-5.5 cenderung kembali ke grid kartu repetitif jika prompt tidak eksplisit.[1]Appwrite menilai Claude membuat hierarki lebih jelas, tipografi lebih rapi, dan grid kartu yang kurang repetitif.[1]Untuk draf antarmuka awal, Claude layak diuji lebih dulu.
Harga API standarInput US$5 dan output US$30 per 1 juta token, dengan context window 1 juta token.[23]Input mulai US$5 dan output mulai US$25 per 1 juta token.[28]Input mirip; output standar Claude lebih murah.[23][28]

Coding: pisahkan antara otomasi terminal dan issue GitHub

Untuk coding, satu angka benchmark tidak cukup. Jenis pekerjaannya sangat menentukan.

Pada Terminal-Bench 2.0, GPT-5.5 mencatat 82,7%, lebih tinggi daripada Claude Opus 4.7 di 69,4%.[8] VentureBeat juga menulis bahwa GPT-5.5 mengungguli model Anthropic dalam konteks Terminal-Bench 2.0, tetapi menekankan bahwa itu hanya satu benchmark.[6]

Namun gambarnya berubah saat masuk ke SWE-Bench Pro. Di sana Claude Opus 4.7 dilaporkan mencapai 64,3%, sedangkan GPT-5.5 58,6%.[4] Yahoo Tech menjelaskan SWE-Bench Pro sebagai benchmark yang menilai penyelesaian isu GitHub dunia nyata.[4]

Artinya, jika tugas Anda banyak berisi perintah shell, menjalankan test, berpindah tool, dan merangkai langkah otomasi, GPT-5.5 layak diuji lebih dulu.[8] Tetapi jika tugas utamanya memperbaiki bug di codebase yang sudah ada, memahami issue, lalu membuat patch sampai test lolos, Claude Opus 4.7 tidak boleh dilewatkan.[4]

Tetap ada catatan penting. Yahoo Tech melaporkan bahwa OpenAI menyebut kemungkinan memorization pada sebagian problem terkait skor Claude di SWE-Bench Pro, dan tabel RDWorld juga memberi catatan memorization concern untuk benchmark itu.[4][8] Karena itu, jangan menjadikan skor publik sebagai vonis akhir. Uji keduanya di repo, prompt, test suite, dan batas waktu yang sama.

UI dan front-end: Claude lebih kuat untuk draf awal

Untuk tim produk, benchmark coding belum tentu menjawab kebutuhan desain antarmuka. Landing page, dashboard SaaS, atau layar aplikasi membutuhkan hierarki informasi, ritme visual, pilihan komponen, dan tipografi yang tidak asal tersusun.

Di area ini, Appwrite menilai Claude Opus 4.7 masih lebih kuat untuk pekerjaan UI-first.[1] Penilaiannya: Claude membuat layout dengan hierarki lebih jelas, tipografi lebih ketat, dan lebih jarang jatuh ke pola grid kartu yang repetitif.[1]

Ini bukan benchmark kuantitatif seperti Terminal-Bench atau SWE-Bench Pro; ini evaluasi pihak ketiga terhadap hasil UI.[1] Meski begitu, sinyalnya berguna. Jika Anda ingin membuat draf antarmuka dari nol, Claude Opus 4.7 pantas dicoba lebih dulu. Jika memakai GPT-5.5 untuk tugas serupa, prompt sebaiknya lebih eksplisit: jelaskan struktur layout, gaya visual, prioritas informasi, komponen, state, dan batasan desain yang diinginkan.[1]

Penalaran dan browsing: hasilnya campuran

Pada benchmark penalaran, tidak ada gambaran bahwa satu model menang telak di semua sisi.

RDWorld mencatat GPQA Diamond GPT-5.5 di 93,6% dan Claude Opus 4.7 di 94,2%, dengan catatan bahwa kategori ini sudah mendekati saturasi.[8] Pada HLE tanpa tool, GPT-5.5 berada di 41,4%, sedangkan Claude Opus 4.7 lebih tinggi di 46,9%.[8]

Untuk BrowseComp, GPT-5.5 tercatat 84,4%, lebih tinggi daripada Claude Opus 4.7 di 79,3%.[8] Namun tabel yang sama memberi catatan contamination flagged, sehingga angka ini sebaiknya tidak dibaca sebagai bukti mutlak bahwa GPT-5.5 selalu lebih unggul untuk semua riset web.[8]

Harga: perhatikan output, bukan hanya input

Dalam API, biaya biasanya dihitung berdasarkan token. Praktisnya, semakin panjang prompt dan jawaban model, semakin banyak token yang dipakai. Karena itu, biaya output bisa menjadi penentu, terutama untuk tugas seperti membuat kode panjang, menulis dokumentasi, atau menjelaskan refactor.

OpenAI menyatakan GPT-5.5 akan tersedia untuk developer API melalui Responses API dan Chat Completions API dengan harga US$5 per 1 juta token input dan US$30 per 1 juta token output, serta context window 1 juta token.[23] OpenAI juga menyebut Batch dan Flex tersedia dengan setengah tarif API standar, sementara Priority processing memakai tarif 2,5 kali standar.[23]

Anthropic menyatakan harga Claude Opus 4.7 mulai dari US$5 per 1 juta token input dan US$25 per 1 juta token output.[28] Anthropic juga menyebut prompt caching dapat menghemat biaya hingga 90%, sementara batch processing dapat menghemat 50%.[28]

Jika hanya melihat harga standar, input keduanya mirip, tetapi output Claude Opus 4.7 lebih murah US$5 per 1 juta token dibanding GPT-5.5.[23][28] Untuk workload yang banyak menghasilkan teks atau kode panjang, Claude bisa lebih menarik secara biaya. Namun biaya akhir tetap bergantung pada panjang output, jumlah percobaan ulang, cache hit rate, dan apakah batch processing digunakan.[23][28]

OpenAI memang menyatakan GPT-5.5 lebih cerdas dan lebih efisien token dibanding GPT-5.4, tetapi pernyataan itu bukan perbandingan biaya langsung terhadap Claude Opus 4.7.[23]

Integrasi: ekosistem yang sudah dipakai bisa lebih menentukan

Di dunia nyata, model terbaik belum tentu yang paling mudah diadopsi. Tooling, pipeline, billing, permission, dan kebiasaan tim sering ikut menentukan.

OpenAI mengumumkan GPT-5.5 tersedia di Codex dan ChatGPT, serta menyatakan akses API akan hadir melalui Responses dan Chat Completions API.[14][23] Jika tim Anda sudah banyak memakai ChatGPT, Codex, atau workflow berbasis OpenAI API, menguji GPT-5.5 bisa lebih sederhana.[14][23]

Claude Opus 4.7 tersedia melalui Claude API dengan nama model claude-opus-4-7.[28] Namun Anthropic juga menyatakan Opus 4.7 membawa API breaking changes dibanding Opus 4.6, sehingga tim yang sudah memakai Claude perlu memeriksa migrasi sebelum upgrade.[26]

Kualitas hasil juga bisa dipengaruhi lapisan produk di atas model. Dalam postmortem terkait laporan kualitas Claude Code, Anthropic mengatakan perubahan system prompt menyebabkan penurunan 3% pada satu evaluasi untuk Opus 4.6 dan Opus 4.7, lalu perubahan itu dikembalikan pada rilis 20 April.[27] Dengan kata lain, model yang sama bisa terasa berbeda tergantung system prompt, wrapper produk, dan tool chain yang mengelilinginya.[27]

Rekomendasi routing berdasarkan pekerjaan

Prioritas kerjaModel yang diuji lebih duluAlasan
Perintah terminal, otomasi, agentic workflowGPT-5.5Terminal-Bench 2.0 mencatat GPT-5.5 di 82,7%, lebih tinggi daripada Claude Opus 4.7 di 69,4%.[8]
Penyelesaian issue di repo nyata, bug fixing, test passingClaude Opus 4.7SWE-Bench Pro melaporkan Claude Opus 4.7 di 64,3% dan GPT-5.5 di 58,6%.[4]
Landing page, dashboard, layar aplikasiClaude Opus 4.7Appwrite menilai Claude lebih kuat untuk UI-first work.[1]
Pembuatan kode atau dokumen dengan output panjangClaude Opus 4.7Harga output standar Claude mulai US$25 per 1 juta token, dibanding GPT-5.5 di US$30 per 1 juta token.[23][28]
Workflow berbasis ChatGPT dan CodexGPT-5.5OpenAI mengumumkan GPT-5.5 tersedia di Codex dan ChatGPT.[14]
Upgrade dari integrasi Claude yang sudah adaClaude Opus 4.7, dengan pengecekan migrasiAnthropic menyediakan claude-opus-4-7, tetapi juga mencatat breaking changes dibanding Opus 4.6.[26][28]

Kesimpulan

Tidak ada dasar publik yang cukup kuat untuk menyatakan GPT-5.5 mengalahkan Claude Opus 4.7 di semua hal. GPT-5.5 terlihat kuat pada pekerjaan terminal dan agentic automation, terutama dari Terminal-Bench 2.0.[8] Claude Opus 4.7, di sisi lain, punya sinyal kuat pada penyelesaian issue GitHub nyata, UI-first generation, dan harga output API standar.[1][4][23][28]

Pendekatan paling aman adalah routing, bukan fanatisme model. Untuk otomasi terminal dan workflow OpenAI, mulai dari GPT-5.5. Untuk bug fixing di repo nyata, draf UI, dan output panjang yang sensitif biaya, mulai dari Claude Opus 4.7. Setelah itu, jalankan uji internal dengan data, repo, prompt, dan metrik yang benar-benar mencerminkan pekerjaan Anda sendiri.[1][4][8][14][23][28]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AI로 검색 및 팩트체크

주요 시사점

  • GPT 5.5 unggul di Terminal Bench 2.0 dengan 82,7% dibanding Claude Opus 4.7 di 69,4%, tetapi tabel yang sama memberi catatan bahwa harness evaluasinya berbeda.[8]
  • Claude Opus 4.7 perlu masuk daftar uji untuk pekerjaan codebase nyata: SWE Bench Pro melaporkan Claude di 64,3% dan GPT 5.5 di 58,6% untuk penyelesaian isu GitHub.[4]
  • Untuk draf UI dan front end, Appwrite menilai Claude Opus 4.7 menghasilkan hierarki layout, tipografi, dan variasi grid kartu yang lebih baik.[1]
  • Harga input standar keduanya sama sama mulai US$5 per 1 juta token, tetapi output Claude Opus 4.7 mulai US$25, lebih rendah daripada GPT 5.5 di US$30 per 1 juta token.[23][28]

사람들은 또한 묻습니다.

"GPT-5.5 vs Claude Opus 4.7: panduan memilih untuk coding, UI, dan biaya"에 대한 짧은 대답은 무엇입니까?

GPT 5.5 unggul di Terminal Bench 2.0 dengan 82,7% dibanding Claude Opus 4.7 di 69,4%, tetapi tabel yang sama memberi catatan bahwa harness evaluasinya berbeda.[8]

먼저 검증할 핵심 포인트는 무엇인가요?

GPT 5.5 unggul di Terminal Bench 2.0 dengan 82,7% dibanding Claude Opus 4.7 di 69,4%, tetapi tabel yang sama memberi catatan bahwa harness evaluasinya berbeda.[8] Claude Opus 4.7 perlu masuk daftar uji untuk pekerjaan codebase nyata: SWE Bench Pro melaporkan Claude di 64,3% dan GPT 5.5 di 58,6% untuk penyelesaian isu GitHub.[4]

실무에서는 다음으로 무엇을 해야 합니까?

Untuk draf UI dan front end, Appwrite menilai Claude Opus 4.7 menghasilkan hierarki layout, tipografi, dan variasi grid kartu yang lebih baik.[1]

다음에는 어떤 관련 주제를 탐구해야 할까요?

다른 각도와 추가 인용을 보려면 "Claude Security 공개 베타: 앤트로픽의 AI 코드 취약점 스캐너가 하는 일"으로 계속하세요.

관련 페이지 열기

이것을 무엇과 비교해야 합니까?

"Grok 4.3 API 분석: 100만 토큰과 낮은 단가, xAI의 다음 승부수"에 대해 이 답변을 대조 확인하세요.

관련 페이지 열기

연구를 계속하세요

연구 대화

당신

연구문제

GPT 5.5와 Claude Opus 4.7의 성능을 비교해 보세요.

Studio Global AI35 소스

인용 답변

제공된 근거만 보면, GPT-5.5는 전반 벤치마크에서 Claude Opus 4.7보다 앞선다는 신호가 있지만, 근거가 제한적이어서 확정적 우위로 단정하긴 어렵습니다.[32] 반대로 UI 중심 결과물과 일부 사용 맥락에서는 Claude Opus 4.7이 더 강하다는 평가도 있어, 작업 유형에 따라 우열이 갈리는 모습입니다.[6]

현재 근거로 보이는 비교

  • ChatGPT 인스타그램 게시물에 따르면, GPT-5.5는 대부분의 평가 항목에서 Claude Opus 4.7과 Gemini 3.1 Pro보다 앞서며, 브라우징 과제에서만 약간의 격차가 있다고 합니다.[32]
  • 같은 게시물은 GPT-5.5가 이전 속도를 유지하면서 결과를 개선했고, 같은 작업을 더 적은 토큰으로 끝내 더 효율적이라고 주장합니다.[32]
  • Anthropic는 Claude Opus 4.7을 복잡한 추론과 에이전트형 코딩에서 자사의 가장 강력한 일반 공개 모델이라고 소개했습니다.[2]
  • 제3자 분석인 Appwrite 글은 UI-first 작업에서는 Claude Opus 4.7이 여전히 더 강하며, 레이아웃 계층과 시각적 구조가 더 좋다고 평가했습니다.[6]
  • Anthropic는 4월 20일 이전 시스템 프롬프트 이슈로 Opus 4.6과 4.7이 한 평가에서 각각 3% 하락했지만, 이후 되돌렸다고 밝혔습니다.[4]

실무적으로 해석하면

  • 일반적인 공개 평가 기준만 따르면, 현재 제공된 자료에서는 GPT-5.5가 전체 점수 측면에서 우세해 보입니다.[32]
  • 프런트엔드 시안 생성이나 UI 표현력처럼 시각적 결과물의 구조가 중요한 작업이라면, Claude Opus 4.7이 더 나을 가능성이 있습니다.[6]
  • 브라우징 성능은 GPT-5.5가 약간 뒤처질 수 있다는 신호가 있습니다.[32]
  • 복잡한 추론과 에이전트형 코딩은 Anthropic가 Opus 4.7의 핵심 강점으로 직접 강조한 영역입니다.[2]

한계와 불확실성

  • 근거가 충분하지 않습니다.
  • 제공된 자료에는 GPT-5.5와 Claude Opus 4.7의 동일 조건 head-to-head 공식 벤치마크 표, 테스트 방법, 표본 수, 통계적 유의성 정보가 없습니다.
  • GPT-5.5 우세 신호는 현재 자료상 주로 ChatGPT 인스타그램 게시물에 의존합니다.[32]
  • Claude 우세 신호는 현재 자료상 주로 제3자 블로그 평가에 의존합니다.[6]

원하시면 다음 단계로는 코딩, 글쓰기, 브라우징,

UI 생성
,
비용 효율
중 어떤 기준이 중요한지 정해서, 그 기준별로 더 실전적인 선택 가이드를 정리해드릴 수 있습니다.

출처

  • [1] GPT-5.5 is here: benchmarks, pricing, and what changes ... - Appwriteappwrite.io

    If you want something more opinionated (a proper storefront with counter rush, seasonal cues, a bento shop layout) you still have to prompt for it explicitly, and even then the fallback is a card grid. For UI-first work, Claude Opus 4.7 is still the stronge...

  • [4] OpenAI Releases GPT-5.5: Faster, Smarter—And Pricier - Yahoo Techtech.yahoo.com

    It’s also a pretty good coder, as expected. On Expert-SWE, an internal benchmark for long-horizon coding tasks with a median estimated human completion time of 20 hours, GPT-5.5 outperforms GPT-5.4. On SWE-Bench Pro, which grades real-world GitHub issue res...

  • [6] OpenAI's GPT-5.5 is here, and it's no potato - VentureBeatventurebeat.com

    The market for leading U.S.-made frontier models has become an increasingly tight race between OpenAI, Anthropic, and Google. Literally a week ago to the date, OpenAI rival Anthropic released Opus 4.7, its most powerful generally available model, to the pub...

  • [8] How OpenAI's recently released GPT-5.5 stacks up with Anthropic's ...rdworldonline.com

    The overlapping benchmarks stack up like this: Benchmark Mythos (gated) GPT-5.5 GPT-5.5 Pro Opus 4.7† Notes --- --- --- SWE-bench Pro 77.8% 58.6% — 64.3% Memorization concern¹ Terminal-Bench 2.0 82% / 92.1%² 82.7% — 69.4% Different harnesses² GPQA Diamond 9...

  • [14] GPT-5.5 is here! Available in Codex and ChatGPT todaycommunity.openai.com

    GPT-5.5 is here! Available in Codex and ChatGPT today - Announcements - OpenAI Developer Community Skip to last replySkip to top Skip to main content Image 1: OpenAI Developer Community Docs API Support Sign Up Log In ​ Topics More Resources Documentation A...

  • [16] GPT-5.5 System Cardopenai.com

    GPT-5.5 System Card OpenAI Skip to main content Log inTry ChatGPT(opens in a new window) Research Products Business Developers Company Foundation(opens in a new window) GPT-5.5 System Card OpenAI April 23, 2026 SafetyPublication GPT‑5.5 System Card Read the...

  • [23] Introducing GPT-5.5 | OpenAIopenai.com

    For API developers, gpt-5.5 will soon be available in the Responses and Chat Completions APIs at $5 per 1M input tokens and $30 per 1M output tokens, with a 1M context window. Batch and Flex pricing are available at half the standard API rate, while Priorit...

  • [26] Claude Platform - Claude API Docsdocs.anthropic.com

    April 16, 2026 We've launched Claude Opus 4.7, our most capable generally available model for complex reasoning and agentic coding, at the same $5 / $25 per MTok pricing as Opus 4.6. See What's new in Claude Opus 4.7 for capability improvements, new feature...

  • [27] An update on recent Claude Code quality reports - Anthropicanthropic.com

    As part of this investigation, we ran more ablations (removing lines from the system prompt to understand the impact of each line) using a broader set of evaluations. One of these evaluations showed a 3% drop for both Opus 4.6 and 4.7. We immediately revert...

  • [28] Claude Opus 4.7 - Anthropicanthropic.com

    Pricing for Opus 4.7 starts at $5 per million input tokens and $25 per million output tokens, with up to 90% cost savings with prompt caching and 50% savings with batch processing. To learn more, check out our pricing page. To get started, use claude-opus-4...