答え公開済み2026年4月28日Last edited 2026年5月6日10 ソース

Kimi K2.6、DeepSeek V4、GPT-5.5、Claude Opus 4.7比較：ベンチマークと料金で選ぶなら

品質最優先ならClaude Opus 4.7が有力。HLEではGPT 5.5とDeepSeek V4を上回り、CodeRouterのSWE Bench Proでも64.3%で首位とされる [3][16]。 GPT 5.5はTerminal Bench 2.0で82.7%と強く、OpenAI／Codex系の作業継続性も判断材料になる。Kimi K2.6はSWE Bench ProでGPT 5.5と同じ58.6%ながら、料金は100万トークンあたり入力$0.60／出力$4.00と報告されている [3][7][16]。

Studio Global AIで検索して事実確認 Discover からさらに閲覧する

16K0

Panel comparativo de modelos de IA generativa con Kimi K2.6, DeepSeek V4, GPT-5.5 y Claude Opus 4.7 — Kimi K2.6 vs DeepSeek V4 vs GPT-5.5 vs Claude Opus 4.7: benchmarks, precio y mejor usoIlustración editorial generada para representar una comparativa de modelos de IA; no contiene resultados reales de benchmark.
AI プロンプト
Create a landscape editorial hero image for this Studio Global article: Kimi K2.6 vs DeepSeek V4 vs GPT-5.5 vs Claude Opus 4.7: benchmarks, precio y mejor uso. Article summary: Claude Opus 4.7 es la apuesta de máxima calidad en las cifras comparables: 46,9%/54,7% en HLE y 64,3% en SWE Bench Pro, pero los benchmarks mezclan modos y conviene validarlo con tus propios prompts [3][16].. Topic tags: ai, llm benchmarks, openai, anthropic, deepseek. Reference image context from search candidates: Reference image 1: visual subject "[Sign in](https://medium.com/m/signin?operation=login&redirect=https%3A%2F%2Fmedium.com%2F%40cognidownunder%2Fclaude-opus-4-7-leads-on-code-gpt-5-5-wins-intelligence-and-kimi-k2-6-" source context "Claude Opus 4.7 Leads on Code, GPT 5.5 Wins Intelligence, and ..." Reference image 2: visual subject "[Sign in](https://medium.com/m/signin?operation=login&redirect=https%3
openai.com

結論から言えば、ベンチマークだけで決まる「一強」はありません。難しいタスクの品質を最優先するならClaude Opus 4.7、ターミナル操作やOpenAI／Codex周辺の流れを重視するならGPT-5.5、安価に強いコーディングモデルを試すならKimi K2.6、大量リクエストと長いコンテキストを低コストで回したいならDeepSeek V4が候補になります ^[3]^[4]^[7]^[16]。

ただし、ここで出てくる数字はそのまま横並びにできるものばかりではありません。ツールあり／なし、reasoningやhigh effortなどの設定、Pro／Flashのような別バリアントが混ざっているため、順位表ではなく「最初に検証する順番」を決める材料として読むのが安全です ^[3]^[6]^[14]^[16]。

まず結論：用途別に最初に試すモデル

優先したいこと	最初に試す候補	判断材料
難しいタスクでの品質	Claude Opus 4.7	VentureBeatの比較ではHLEでGPT-5.5とDeepSeek V4を上回り、CodeRouterのSWE-Bench Proでも64.3%で首位とされる ^[3]^[16]。
ターミナル、エージェント、OpenAI環境	GPT-5.5	Terminal-Bench 2.0で82.7%と報告され、Claude Opus 4.7とDeepSeek V4を大きく上回る。ChatGPT／Codex系の作業を続けたい場合の自然な選択肢としても挙げられている ^[3]^[7]。
低コストで競争力のあるコーディング	Kimi K2.6	SWE-Bench ProでGPT-5.5と同じ58.6%とされ、料金は100万トークンあたり入力$0.60／出力$4.00と報告されている ^[16]。
長いコンテキストを安く大量に使う	DeepSeek V4-Pro／V4 Flash	V4-Proは入力$1.74／出力$3.48、V4 Flashは入力$0.14／出力$0.28で、いずれも100万トークンのコンテキストが示されている。ただしFlashは別バリアントとして扱うべき ^[4]^[16]。
セルフホストの道筋	Kimi K2.6	K2.6の重みはHugging Faceにあり、vLLM、SGLang、KTransformersで動かせるとVerdentが説明している ^[5]。

ベンチマークの読み方

Humanity’s Last Exam（HLE）は、数学・人文学・自然科学など2,500問からなるマルチモーダルな学術ベンチマークで、検証可能な解答を使って最先端モデルの能力を見るものです ^[15]。SWE-Bench Proは、実際のGitHub issueに近い多言語ソフトウェアエンジニアリング課題を評価するベンチマークと説明されています ^[18]。Terminal-Bench 2.0は、VentureBeatの記事でエージェント型およびソフトウェアエンジニアリング系の結果として扱われています ^[3]。

ベンチマーク	読み取れること	公開されている主な数字
HLE、ツールなし	比較可能な範囲ではClaude Opus 4.7が上位。	Claude Opus 4.7が46.9%、GPT-5.5が41.4%、DeepSeek V4が37.7%。同じ抜粋内にKimi K2.6の比較値はない ^[3]。
HLE、ツールあり	ClaudeがGPT-5.5とDeepSeek V4を上回る。Kimiも近い数字を持つが、別ソースの表なので注意。	VentureBeatではClaude Opus 4.7が54.7%、GPT-5.5が52.2%、DeepSeek V4が48.2%。CodeRouterはKimi K2.6を54.0と載せているが、同じ表での直接比較ではない ^[3]^[16]。
SWE-Bench Pro	Claudeが首位、GPT-5.5とKimi K2.6が第2集団、DeepSeek V4-Proはやや下。	CodeRouterはClaude Opus 4.7を64.3%、GPT-5.5とKimi K2.6を58.6%、DeepSeek V4-Proを約55%と報告。VentureBeatはDeepSeekの値を55.4%としている ^[3]^[16]。
Terminal-Bench 2.0	GPT-5.5の最も強い根拠。	GPT-5.5が82.7%、Claude Opus 4.7が69.4%、DeepSeek V4が67.9%。入手できる抜粋にはKimi K2.6の値はない ^[3]。

実務的には、Claude Opus 4.7は総合品質、GPT-5.5はターミナル系、Kimi K2.6はコーディング性能と価格のバランス、DeepSeek V4は長いコンテキストを安く使う用途で見ると整理しやすくなります ^[3]^[4]^[16]。

料金とコンテキスト：ベンチマークは請求書を払ってくれない

AIエージェントや自動化パイプラインでは、1回の回答品質よりも「何回呼ぶか」が支配的になることがあります。小さなベンチマーク差より、100万トークンあたりの入出力料金やコンテキスト長のほうが最終コストに効く場面は少なくありません。公開情報では、Kimi K2.6とDeepSeek V4が低価格寄り、GPT-5.5とClaude Opus 4.7がプレミアム寄りに見えます ^[4]^[16]^[19]。

モデル／バリアント	報告されている料金	報告されているコンテキスト	メモ
Claude Opus 4.7	Artificial Analysisでは100万トークンあたり入力$5／出力$25 ^[19]。	100万トークン、最大出力128Kトークン ^[19]。	Artificial Analysisは、知能面で主要モデルの一つだが、高価で遅め、出力が長くなりがちとも評している ^[14]。
GPT-5.5	CodeRouterでは入力$5／出力$30 ^[16]。	100万トークン ^[16]。	Terminal-Bench 2.0の強さ、ChatGPT／Codex系の作業継続性を重視する場合に検討しやすい ^[3]^[7]。
Kimi K2.6	CodeRouterでは入力$0.60／出力$4.00 ^[16]。	256Kトークン ^[16]。	Artificial Analysisの比較でも、Kimi K2.6は256K、Claude Opus 4.7は1000Kのコンテキストと示されている ^[6]。
DeepSeek V4-Pro	CodeRouterでは入力$1.74／出力$3.48 ^[16]。	100万トークン ^[16]。	HLEやSWE-Bench Proでは首位ではないが、長いコンテキストを低コストで使う候補になる ^[3]^[16]。
DeepSeek V4 Flash	CodeRouterでは入力$0.14／出力$0.28 ^[4]。	100万トークン ^[4]。	V4-Proとは別バリアント。V4-ProやV4-Pro-MaxのベンチマークをそのままFlashに当てはめるのは避けたい ^[3]^[4]^[16]。

Claude Opus 4.7については、Artificial Analysisの個別記事が入力$5／出力$25、100万トークンのコンテキストを示す一方、Kimi比較に使われたCodeRouterの表では別の値も見られます ^[16]^[19]。本番導入では、必ず自社が使うプロバイダーの最新価格、SLA、契約条件で見積もるべきです。

どれを選ぶべきか

失敗のコストが高いならClaude Opus 4.7

複雑なコードレビュー、長い仕様書の検討、隠れた不具合の発見など、1回のミスが高くつくタスクではClaude Opus 4.7から検証するのが自然です。HLEでGPT-5.5とDeepSeek V4を上回り、CodeRouterのSWE-Bench Proでも64.3%で首位とされ、Artificial Analysisも知能面で主要モデルの一つと評価しています。ただし、コスト、速度、冗長さには注意が必要です ^[3]^[14]^[16]。

また、Artificial AnalysisによればClaude Opus 4.7は100万トークンのコンテキストと128Kトークンの最大出力に対応し、Anthropic API、Amazon Bedrock、Microsoft Azure、Google Vertex経由で利用できるとされています ^[19]。

ターミナル作業やOpenAI環境を重視するならGPT-5.5

GPT-5.5は、VentureBeatのHLE比較ではClaude Opus 4.7を上回っていません。しかしTerminal-Bench 2.0では82.7%と報告され、Claude Opus 4.7の69.4%、DeepSeek V4の67.9%を上回っています ^[3]。チームがすでにChatGPTやCodexを中心に開発フローを組んでいる場合、別プロバイダーへ全面移行する前にGPT-5.5を試す、という考え方も実務的です ^[7]。

低コストで強いコーディング性能を狙うならKimi K2.6

Kimi K2.6は、今回の公開情報の中で費用対効果が最も分かりやすいモデルです。CodeRouterはSWE-Bench ProでGPT-5.5と同じ58.6%としながら、料金は100万トークンあたり入力$0.60／出力$4.00と示しています ^[16]。コンテキストは256Kトークンで、同じ表にあるGPT-5.5やDeepSeek V4-Proの100万トークンより短いものの、リポジトリやタスクを適切に分割できるなら十分な場面もあります ^[16]。

セルフホストを重視する場合もKimi K2.6は目立ちます。Verdentは、K2.6の重みがHugging Faceにあり、vLLM、SGLang、KTransformersで実行できるとし、INT4バリアントを縮小コンテキストで動かす最低限の目安として4×H100を挙げています ^[5]。

大量処理と長いコンテキストが先ならDeepSeek V4

DeepSeek V4 Pro／Pro-Maxは、VentureBeatのHLE、Terminal-Bench 2.0、SWE-Bench Proの数字ではClaude Opus 4.7やGPT-5.5を上回っていません ^[3]。それでも、V4-Proは100万トークンのコンテキストと入力$1.74／出力$3.48という価格が示されており、大量のAPI呼び出しを伴う処理では候補になります ^[16]。

さらにコストを削りたい場合、DeepSeek V4 Flashは入力$0.14／出力$0.28、100万トークンのコンテキストとされています ^[4]。ただし、FlashはV4-Proとは別バリアントです。安いから同じ品質、と見なすのではなく、自分のタスクで別途検証する必要があります ^[4]^[16]。

乗り換える前の注意点

設定がそろっていない数字を混ぜない。 HLEにはツールあり／なしがあり、別ソースではhigh effort、max effort、thinkingなどのモードが使われています ^[3]^[6]^[14]^[16]。
モデル名だけでなくバリアントを見る。 GPT-5.5とGPT-5.5 Pro、DeepSeek V4-Pro／V4-Pro-Max／V4 Flashは同一視しないほうが安全です ^[3]^[4]^[16]。
価格とリーダーボードはすぐ古くなる。 Verdentも、継続的なリリース環境では数字が早く陳腐化しやすいと注意しています ^[5]。
最後は自分のワークロードで決める。 実務ガイドは、話題性のある新モデルを選ぶのではなく、同じタスクを実際に走らせてから判断することを勧めています ^[7]。

まとめ

品質だけを最優先するなら、まずClaude Opus 4.7。ターミナル操作、エージェント的な作業、OpenAI／Codexとの継続性を重く見るならGPT-5.5。安価に競争力のあるコーディング性能を試すならKimi K2.6。長いコンテキストを低コストで大量に使うならDeepSeek V4-ProまたはV4 Flashを検証する、という選び方が現実的です ^[3]^[4]^[7]^[16]^[19]。

ただし、どれを選んでも本番導入の前には、同じプロンプト、同じコードベース、同じツール設定で小さな評価セットを作るべきです。ベンチマークは出発点にはなりますが、請求額、遅延、失敗時の修正コストまで含めて初めて、自社の「最適なモデル」が見えてきます。

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AIで検索して事実確認

重要なポイント

品質最優先ならClaude Opus 4.7が有力。HLEではGPT 5.5とDeepSeek V4を上回り、CodeRouterのSWE Bench Proでも64.3%で首位とされる [3][16]。
GPT 5.5はTerminal Bench 2.0で82.7%と強く、OpenAI／Codex系の作業継続性も判断材料になる。Kimi K2.6はSWE Bench ProでGPT 5.5と同じ58.6%ながら、料金は100万トークンあたり入力$0.60／出力$4.00と報告されている [3][7][16]。
DeepSeek V4 Pro／V4 Flashは安価な大量処理と長いコンテキスト向き。V4 Proは入力$1.74／出力$3.48、V4 Flashは入力$0.14／出力$0.28で、いずれも100万トークンのコンテキストが示されている [4][16]。

人々も尋ねます

「Kimi K2.6、DeepSeek V4、GPT-5.5、Claude Opus 4.7比較：ベンチマークと料金で選ぶなら」の短い答えは何ですか?

品質最優先ならClaude Opus 4.7が有力。HLEではGPT 5.5とDeepSeek V4を上回り、CodeRouterのSWE Bench Proでも64.3%で首位とされる [3][16]。

最初に検証する重要なポイントは何ですか?

次の実践では何をすればいいでしょうか？

DeepSeek V4 Pro／V4 Flashは安価な大量処理と長いコンテキスト向き。V4 Proは入力$1.74／出力$3.48、V4 Flashは入力$0.14／出力$0.28で、いずれも100万トークンのコンテキストが示されている [4][16]。

次にどの関連トピックを検討すればよいでしょうか?

別の角度からの引用や追加の引用については、「Claude Securityとは：AnthropicのAIコード脆弱性スキャナーを企業はどう使うべきか」に進みます。

関連ページを開く

これを何と比較すればいいでしょうか？

この回答を「Grok 4.3 APIの読み方：100万トークン文脈と低単価でxAIは何を狙うのか」と照合してください。

関連ページを開く

研究を続けてください

IT Consulting Orange County CA, IT Services, IT Outsourcing - Technijian. # Anthropic Claude Security for Enterprise: What You Need to Know. Anthropic has officially opened Claude

Claude Securityとは：AnthropicのAIコード脆弱性スキャナーを企業はどう使うべきか

Claude Security公開ベータ版とは：AnthropicがAIで企業コードの脆弱性を探す仕組み

抽象 AI 介面顯示 Grok 4.3 API、1M context、token 價格與語音波形

Grok 4.3 APIの読み方：100万トークン文脈と低単価でxAIは何を狙うのか

For the part of factors contributing to the issue, please use Logical synthesis of factors And using leadership frameworks, and gap analysis

香港RCHEで「住み慣れた場所での看取り」が進みにくい理由

香港RCHEの看取りを阻む要因：リーダーシップとギャップ分析

Xiaomi Q5はMIX 5ではなさそう　最新情報はXiaomi 18シリーズ寄り

Xiaomi Q5はMIX 5なのか？最新リークはXiaomi 18シリーズを示唆

研究に関する会話

あなた2026年4月25日

リサーチクエスチョン

A partir de los benchmarks de Kimi K2.6, DeepSeek V4, GPT-5.5 y Claude Opus 4.7, compáralos.

Studio Global AI2026年4月25日22 ソース

引用された回答

En conjunto: Claude Opus 4.7 parece liderar en razonamiento general y coding difícil, GPT-5.5 queda muy cerca y suele ser la opción “premium equilibrada”, Kimi K2.6 destaca por relación calidad/precio y código, y DeepSeek V4 compite fuerte en coste pero queda por detrás en los benchmarks de frontera más duros.

Los datos públicos no son perfectamente homogéneos: algunos benchmarks comparan variantes con herramientas, “high effort”, modos de razonamiento o configuraciones distintas, así que conviene leerlos como señales, no como ranking absoluto.
Donde hay cifras comparables, Opus 4.7 y GPT-5.5 tienden a estar arriba; Kimi K2.6 sorprende en coding/coste; DeepSeek V4 es competitivo por precio y contexto.

Modelo	Lo más fuerte	Benchmarks / señales públicas	Coste y uso
Claude Opus 4.7	Razonamiento, coding complejo, visión/documentos, contexto largo	Artificial Analysis lo describe como uno de los modelos líderes en inteligencia, aunque caro, lento y verboso; soporta entrada de texto e imagen y contexto de 1M tokens ^[2]. En HLE sin herramientas aparece con 46.9%, por encima de GPT-5.5 y DeepSeek V4; con herramientas aparece con 54.7% ^[5]. En SWE-Bench Pro, una comparativa lo sitúa en 64.3%, por encima de Kimi K2.6 y GPT-5.5 ^[8].	Precio reportado: $5 por 1M tokens de entrada y $25 por 1M de salida, con disponibilidad vía API de Anthropic, Bedrock, Azure y Vertex ^[14].
GPT-5.5	Equilibrio general, razonamiento con herramientas, ecosistema OpenAI/Codex	En HLE sin herramientas aparece con 41.4%, por detrás de Opus 4.7 pero por delante de DeepSeek V4; con herramientas sube a 52.2% ^[5]. En SWE-Bench Pro, una comparativa lo pone empatado con Kimi K2.6 en 58.6% ^[8].	Una fuente reporta precio API de $5 por 1M tokens de entrada y $30 por 1M de salida, con contexto de 1M tokens ^[3].
Kimi K2.6	Coding agente y coste/rendimiento	CodeRouter lo describe como ganador de coste/calidad y dice que empata con GPT-5.5 en SWE-Bench Pro ^[7]. En la tabla de esa fuente, Kimi K2.6 obtiene 58.6% en SWE-Bench Pro, 54.0 en HLE con herramientas, 96.4% en AIME 2026 y 90.5% en GPQA-Diamond ^[8].	Se reporta precio de $0.60/$4.00 por 1M tokens de entrada/salida, muy por debajo de Opus 4.7 y GPT-5.5 ^[7]. Tiene ventana de contexto de 256k tokens, menor que el 1M de Opus 4.7 ^[12].
DeepSeek V4	Coste, API barata, buena opción si el presupuesto importa	En HLE sin herramientas aparece con 37.7%, por debajo de GPT-5.5 y Opus 4.7; con herramientas sube a 48.2%, pero sigue por debajo de GPT-5.5 y Opus 4.7 ^[5]. En SWE-Bench Pro, una comparativa sitúa DeepSeek V4-Pro alrededor de 55%, por debajo de Kimi K2.6, GPT-5.5 y Opus 4.7 ^[8].	Una fuente reporta precio de $1.74 por 1M tokens de entrada y $3.48 por 1M de salida, con contexto de 1M tokens ^[3].

Ranking práctico

Mejor calidad bruta: Claude Opus 4.7, especialmente si importan razonamiento difícil, documentos largos, visión y coding complejo ^[2]^[5]^[8].
Mejor equilibrio premium: GPT-5.5, cerca de Opus en HLE con herramientas y empatado con Kimi K2.6 en SWE-Bench Pro según una comparativa ^[5]^[8].
Mejor coste/rendimiento para coding: Kimi K2.6, porque empata con GPT-5.5 en SWE-Bench Pro en la comparativa citada y cuesta bastante menos ^[7]^[8].
Mejor opción barata con contexto largo: DeepSeek V4, aunque sus resultados HLE y SWE-Bench Pro quedan por detrás de Opus 4.7, GPT-5.5 y Kimi K2.6 en las cifras disponibles ^[3]^[5]^[8].

Si tuviera que elegir uno: Opus 4.7 para máxima calidad, Kimi K2.6 para producción sensible a coste, GPT-5.5 para integración OpenAI/Codex, y DeepSeek V4 para alto volumen barato con rendimiento razonable.

情報源

[3] DeepSeek-V4 arrives with near state-of-the-art intelligence at 1/6th ...venturebeat.com
On Humanity’s Last Exam without tools, DeepSeek scores 37.7%, behind GPT-5.5 at 41.4%, GPT-5.5 Pro at 43.1% and Claude Opus 4.7 at 46.9%. With tools enabled, DeepSeek rises to 48.2%, but still trails GPT-5.5 at 52.2%, GPT-5.5 Pro at 57.2% and Claude Opus 4....
[4] GPT-5.5, DeepSeek V4, Kimi K2.6 at a Glance - CodeRoutercoderouter.io
TL;DR — In one week (April 20–23, 2026), four frontier coding models shipped: Kimi K2.6 (Moonshot, Apr 20), GPT-5.5 (OpenAI, Apr 23), DeepSeek V4 Pro + V4 Flash (preview, April). Claude Opus 4.7 is still the SWE-Bench Pro champion. Kimi K2.6 is the new cost...
[5] Kimi K2.6 vs Claude Opus 4.6 vs GPT-5.4: Agentic Coding Benchmarks (2026) - Verdent Guidesverdent.ai
Yes. K2.6 weights are on Hugging Face and run on vLLM, SGLang, or KTransformers. Minimum viable hardware is 4× H100 for the INT4 variant at reduced context. Claude and GPT-5.4 are API-only — there is no self-hosted path. If data sovereignty is a requirement...
[6] Kimi K2.6 vs Claude Opus 4.7 (Non-reasoning, High Effort): Model Comparisonartificialanalysis.ai
Highlights Model Comparison Metric Kimi logoKimi K2.6 Anthropic logoClaude Opus 4.7 (Non-reasoning, High Effort) Analysis --- --- Creator Kimi Anthropic Context Window 256k tokens ( 384 A4 pages of size 12 Arial font) 1000k tokens ( 1500 A4 pages of size 12...
[7] Kimi K2.6 vs DeepSeek V4 vs GPT-5.5 vs Claude Opus 4.7blog.laozhang.ai
As of Apr 24, 2026, this comparison should be built around DeepSeek V4, not an older DeepSeek label. Test Kimi K2.6 first when the job is low-cost coding-agent exploration, test DeepSeek V4 Flash or V4 Pro when you need a cheap callable API route today, use...
[14] Claude Opus 4.7 (max) - Intelligence, Performance & Price Analysisartificialanalysis.ai
Comparison Summary Claude Opus 4.7 (Adaptive Reasoning, Max Effort) is amongst the leading models in intelligence, but particularly expensive when comparing to other models of similar price. It's also slower than average and very verbose. The model supports...
[15] DeepSeek-V4-Pro-Max: Pricing, Benchmarks & Performancellm-stats.com
14 of 11 Image 23: LLM Stats Logo Humanity's Last Exam (HLE) is a multi-modal academic benchmark with 2,500 questions across mathematics, humanities, and natural sciences, designed to test LLM capabilities at the frontier of human knowledge with unambiguous...
[16] Kimi K2.6 Review: The $0.60 Model That Matches GPT-5.5 on SWE-Bench Pro | CodeRouter Blogcoderouter.io
Benchmark numbers Benchmark Kimi K2.6 GPT-5.5 Claude Opus 4.7 GPT-5.4 DeepSeek V4-Pro ---:---:---: SWE-Bench Pro 58.6% 58.6% 64.3% 57.7% 55% HLE (Humanity's Last Exam) w/ tools 54.0 — 53.0\ 52.1 — AIME 2026 96.4% — — 99.2% — GPQA-Diamond 90.5% — — 92.8% — I...
[18] Kimi K2.6 vs Claude Opus 4.7 - Detailed Performance & Feature Comparisondocsbot.ai
SWE-Bench Verified Evaluates software engineering capabilities through verified code modifications and custom agent setups 80.2% SWE-Bench Verified, thinking mode Source Not available SWE-Bench Pro Evaluates software engineering on multi-language SWE-Bench...
[19] Opus 4.7: Everything you need to know - Artificial Analysisartificialanalysis.ai
➤ Context window: 1M tokens (unchanged from Opus 4.6) ➤ Max output tokens: 128K tokens (unchanged from Opus 4.6) ➤ Pricing: $5/$25 per 1M input/output tokens (unchanged from Opus 4.5 and Opus 4.6) ➤ Availability: Claude Opus 4.7 is available via Anthropic's...

トレンドを発見する

答え公開済み2026年4月28日Last edited 2026年5月6日10 ソース

Kimi K2.6、DeepSeek V4、GPT-5.5、Claude Opus 4.7比較：ベンチマークと料金で選ぶなら

Studio Global AIで検索して事実確認 Discover からさらに閲覧する

16K0

まず結論：用途別に最初に試すモデル

優先したいこと	最初に試す候補	判断材料
難しいタスクでの品質	Claude Opus 4.7	VentureBeatの比較ではHLEでGPT-5.5とDeepSeek V4を上回り、CodeRouterのSWE-Bench Proでも64.3%で首位とされる ^[3]^[16]。
ターミナル、エージェント、OpenAI環境	GPT-5.5	Terminal-Bench 2.0で82.7%と報告され、Claude Opus 4.7とDeepSeek V4を大きく上回る。ChatGPT／Codex系の作業を続けたい場合の自然な選択肢としても挙げられている ^[3]^[7]。
低コストで競争力のあるコーディング	Kimi K2.6	SWE-Bench ProでGPT-5.5と同じ58.6%とされ、料金は100万トークンあたり入力$0.60／出力$4.00と報告されている ^[16]。
長いコンテキストを安く大量に使う	DeepSeek V4-Pro／V4 Flash	V4-Proは入力$1.74／出力$3.48、V4 Flashは入力$0.14／出力$0.28で、いずれも100万トークンのコンテキストが示されている。ただしFlashは別バリアントとして扱うべき ^[4]^[16]。
セルフホストの道筋	Kimi K2.6	K2.6の重みはHugging Faceにあり、vLLM、SGLang、KTransformersで動かせるとVerdentが説明している ^[5]。

ベンチマークの読み方

ベンチマーク	読み取れること	公開されている主な数字
HLE、ツールなし	比較可能な範囲ではClaude Opus 4.7が上位。	Claude Opus 4.7が46.9%、GPT-5.5が41.4%、DeepSeek V4が37.7%。同じ抜粋内にKimi K2.6の比較値はない ^[3]。
HLE、ツールあり	ClaudeがGPT-5.5とDeepSeek V4を上回る。Kimiも近い数字を持つが、別ソースの表なので注意。	VentureBeatではClaude Opus 4.7が54.7%、GPT-5.5が52.2%、DeepSeek V4が48.2%。CodeRouterはKimi K2.6を54.0と載せているが、同じ表での直接比較ではない ^[3]^[16]。
SWE-Bench Pro	Claudeが首位、GPT-5.5とKimi K2.6が第2集団、DeepSeek V4-Proはやや下。	CodeRouterはClaude Opus 4.7を64.3%、GPT-5.5とKimi K2.6を58.6%、DeepSeek V4-Proを約55%と報告。VentureBeatはDeepSeekの値を55.4%としている ^[3]^[16]。
Terminal-Bench 2.0	GPT-5.5の最も強い根拠。	GPT-5.5が82.7%、Claude Opus 4.7が69.4%、DeepSeek V4が67.9%。入手できる抜粋にはKimi K2.6の値はない ^[3]。

料金とコンテキスト：ベンチマークは請求書を払ってくれない

モデル／バリアント	報告されている料金	報告されているコンテキスト	メモ
Claude Opus 4.7	Artificial Analysisでは100万トークンあたり入力$5／出力$25 ^[19]。	100万トークン、最大出力128Kトークン ^[19]。	Artificial Analysisは、知能面で主要モデルの一つだが、高価で遅め、出力が長くなりがちとも評している ^[14]。
GPT-5.5	CodeRouterでは入力$5／出力$30 ^[16]。	100万トークン ^[16]。	Terminal-Bench 2.0の強さ、ChatGPT／Codex系の作業継続性を重視する場合に検討しやすい ^[3]^[7]。
Kimi K2.6	CodeRouterでは入力$0.60／出力$4.00 ^[16]。	256Kトークン ^[16]。	Artificial Analysisの比較でも、Kimi K2.6は256K、Claude Opus 4.7は1000Kのコンテキストと示されている ^[6]。
DeepSeek V4-Pro	CodeRouterでは入力$1.74／出力$3.48 ^[16]。	100万トークン ^[16]。	HLEやSWE-Bench Proでは首位ではないが、長いコンテキストを低コストで使う候補になる ^[3]^[16]。
DeepSeek V4 Flash	CodeRouterでは入力$0.14／出力$0.28 ^[4]。	100万トークン ^[4]。	V4-Proとは別バリアント。V4-ProやV4-Pro-MaxのベンチマークをそのままFlashに当てはめるのは避けたい ^[3]^[4]^[16]。

どれを選ぶべきか

失敗のコストが高いならClaude Opus 4.7

ターミナル作業やOpenAI環境を重視するならGPT-5.5

低コストで強いコーディング性能を狙うならKimi K2.6

大量処理と長いコンテキストが先ならDeepSeek V4

乗り換える前の注意点

設定がそろっていない数字を混ぜない。 HLEにはツールあり／なしがあり、別ソースではhigh effort、max effort、thinkingなどのモードが使われています ^[3]^[6]^[14]^[16]。
モデル名だけでなくバリアントを見る。 GPT-5.5とGPT-5.5 Pro、DeepSeek V4-Pro／V4-Pro-Max／V4 Flashは同一視しないほうが安全です ^[3]^[4]^[16]。
価格とリーダーボードはすぐ古くなる。 Verdentも、継続的なリリース環境では数字が早く陳腐化しやすいと注意しています ^[5]。
最後は自分のワークロードで決める。 実務ガイドは、話題性のある新モデルを選ぶのではなく、同じタスクを実際に走らせてから判断することを勧めています ^[7]。

まとめ

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AIで検索して事実確認

重要なポイント

品質最優先ならClaude Opus 4.7が有力。HLEではGPT 5.5とDeepSeek V4を上回り、CodeRouterのSWE Bench Proでも64.3%で首位とされる [3][16]。
GPT 5.5はTerminal Bench 2.0で82.7%と強く、OpenAI／Codex系の作業継続性も判断材料になる。Kimi K2.6はSWE Bench ProでGPT 5.5と同じ58.6%ながら、料金は100万トークンあたり入力$0.60／出力$4.00と報告されている [3][7][16]。
DeepSeek V4 Pro／V4 Flashは安価な大量処理と長いコンテキスト向き。V4 Proは入力$1.74／出力$3.48、V4 Flashは入力$0.14／出力$0.28で、いずれも100万トークンのコンテキストが示されている [4][16]。

人々も尋ねます

「Kimi K2.6、DeepSeek V4、GPT-5.5、Claude Opus 4.7比較：ベンチマークと料金で選ぶなら」の短い答えは何ですか?

品質最優先ならClaude Opus 4.7が有力。HLEではGPT 5.5とDeepSeek V4を上回り、CodeRouterのSWE Bench Proでも64.3%で首位とされる [3][16]。

最初に検証する重要なポイントは何ですか?

次の実践では何をすればいいでしょうか？

次にどの関連トピックを検討すればよいでしょうか?

別の角度からの引用や追加の引用については、「Claude Securityとは：AnthropicのAIコード脆弱性スキャナーを企業はどう使うべきか」に進みます。

関連ページを開く

これを何と比較すればいいでしょうか？

この回答を「Grok 4.3 APIの読み方：100万トークン文脈と低単価でxAIは何を狙うのか」と照合してください。

関連ページを開く

研究を続けてください

Claude Securityとは：AnthropicのAIコード脆弱性スキャナーを企業はどう使うべきか

Claude Security公開ベータ版とは：AnthropicがAIで企業コードの脆弱性を探す仕組み

Grok 4.3 APIの読み方：100万トークン文脈と低単価でxAIは何を狙うのか

香港RCHEで「住み慣れた場所での看取り」が進みにくい理由

香港RCHEの看取りを阻む要因：リーダーシップとギャップ分析

Xiaomi Q5はMIX 5ではなさそう　最新情報はXiaomi 18シリーズ寄り

Xiaomi Q5はMIX 5なのか？最新リークはXiaomi 18シリーズを示唆

研究に関する会話

あなた2026年4月25日

リサーチクエスチョン

A partir de los benchmarks de Kimi K2.6, DeepSeek V4, GPT-5.5 y Claude Opus 4.7, compáralos.

Studio Global AI2026年4月25日22 ソース

引用された回答

Los datos públicos no son perfectamente homogéneos: algunos benchmarks comparan variantes con herramientas, “high effort”, modos de razonamiento o configuraciones distintas, así que conviene leerlos como señales, no como ranking absoluto.
Donde hay cifras comparables, Opus 4.7 y GPT-5.5 tienden a estar arriba; Kimi K2.6 sorprende en coding/coste; DeepSeek V4 es competitivo por precio y contexto.

Modelo	Lo más fuerte	Benchmarks / señales públicas	Coste y uso
Claude Opus 4.7	Razonamiento, coding complejo, visión/documentos, contexto largo	Artificial Analysis lo describe como uno de los modelos líderes en inteligencia, aunque caro, lento y verboso; soporta entrada de texto e imagen y contexto de 1M tokens ^[2]. En HLE sin herramientas aparece con 46.9%, por encima de GPT-5.5 y DeepSeek V4; con herramientas aparece con 54.7% ^[5]. En SWE-Bench Pro, una comparativa lo sitúa en 64.3%, por encima de Kimi K2.6 y GPT-5.5 ^[8].	Precio reportado: $5 por 1M tokens de entrada y $25 por 1M de salida, con disponibilidad vía API de Anthropic, Bedrock, Azure y Vertex ^[14].
GPT-5.5	Equilibrio general, razonamiento con herramientas, ecosistema OpenAI/Codex	En HLE sin herramientas aparece con 41.4%, por detrás de Opus 4.7 pero por delante de DeepSeek V4; con herramientas sube a 52.2% ^[5]. En SWE-Bench Pro, una comparativa lo pone empatado con Kimi K2.6 en 58.6% ^[8].	Una fuente reporta precio API de $5 por 1M tokens de entrada y $30 por 1M de salida, con contexto de 1M tokens ^[3].
Kimi K2.6	Coding agente y coste/rendimiento	CodeRouter lo describe como ganador de coste/calidad y dice que empata con GPT-5.5 en SWE-Bench Pro ^[7]. En la tabla de esa fuente, Kimi K2.6 obtiene 58.6% en SWE-Bench Pro, 54.0 en HLE con herramientas, 96.4% en AIME 2026 y 90.5% en GPQA-Diamond ^[8].	Se reporta precio de $0.60/$4.00 por 1M tokens de entrada/salida, muy por debajo de Opus 4.7 y GPT-5.5 ^[7]. Tiene ventana de contexto de 256k tokens, menor que el 1M de Opus 4.7 ^[12].
DeepSeek V4	Coste, API barata, buena opción si el presupuesto importa	En HLE sin herramientas aparece con 37.7%, por debajo de GPT-5.5 y Opus 4.7; con herramientas sube a 48.2%, pero sigue por debajo de GPT-5.5 y Opus 4.7 ^[5]. En SWE-Bench Pro, una comparativa sitúa DeepSeek V4-Pro alrededor de 55%, por debajo de Kimi K2.6, GPT-5.5 y Opus 4.7 ^[8].	Una fuente reporta precio de $1.74 por 1M tokens de entrada y $3.48 por 1M de salida, con contexto de 1M tokens ^[3].

Ranking práctico

Mejor calidad bruta: Claude Opus 4.7, especialmente si importan razonamiento difícil, documentos largos, visión y coding complejo ^[2]^[5]^[8].
Mejor equilibrio premium: GPT-5.5, cerca de Opus en HLE con herramientas y empatado con Kimi K2.6 en SWE-Bench Pro según una comparativa ^[5]^[8].
Mejor coste/rendimiento para coding: Kimi K2.6, porque empata con GPT-5.5 en SWE-Bench Pro en la comparativa citada y cuesta bastante menos ^[7]^[8].
Mejor opción barata con contexto largo: DeepSeek V4, aunque sus resultados HLE y SWE-Bench Pro quedan por detrás de Opus 4.7, GPT-5.5 y Kimi K2.6 en las cifras disponibles ^[3]^[5]^[8].

情報源

[3] DeepSeek-V4 arrives with near state-of-the-art intelligence at 1/6th ...venturebeat.com
On Humanity’s Last Exam without tools, DeepSeek scores 37.7%, behind GPT-5.5 at 41.4%, GPT-5.5 Pro at 43.1% and Claude Opus 4.7 at 46.9%. With tools enabled, DeepSeek rises to 48.2%, but still trails GPT-5.5 at 52.2%, GPT-5.5 Pro at 57.2% and Claude Opus 4....
[4] GPT-5.5, DeepSeek V4, Kimi K2.6 at a Glance - CodeRoutercoderouter.io
TL;DR — In one week (April 20–23, 2026), four frontier coding models shipped: Kimi K2.6 (Moonshot, Apr 20), GPT-5.5 (OpenAI, Apr 23), DeepSeek V4 Pro + V4 Flash (preview, April). Claude Opus 4.7 is still the SWE-Bench Pro champion. Kimi K2.6 is the new cost...
[5] Kimi K2.6 vs Claude Opus 4.6 vs GPT-5.4: Agentic Coding Benchmarks (2026) - Verdent Guidesverdent.ai
Yes. K2.6 weights are on Hugging Face and run on vLLM, SGLang, or KTransformers. Minimum viable hardware is 4× H100 for the INT4 variant at reduced context. Claude and GPT-5.4 are API-only — there is no self-hosted path. If data sovereignty is a requirement...
[6] Kimi K2.6 vs Claude Opus 4.7 (Non-reasoning, High Effort): Model Comparisonartificialanalysis.ai
Highlights Model Comparison Metric Kimi logoKimi K2.6 Anthropic logoClaude Opus 4.7 (Non-reasoning, High Effort) Analysis --- --- Creator Kimi Anthropic Context Window 256k tokens ( 384 A4 pages of size 12 Arial font) 1000k tokens ( 1500 A4 pages of size 12...
[7] Kimi K2.6 vs DeepSeek V4 vs GPT-5.5 vs Claude Opus 4.7blog.laozhang.ai
As of Apr 24, 2026, this comparison should be built around DeepSeek V4, not an older DeepSeek label. Test Kimi K2.6 first when the job is low-cost coding-agent exploration, test DeepSeek V4 Flash or V4 Pro when you need a cheap callable API route today, use...
[14] Claude Opus 4.7 (max) - Intelligence, Performance & Price Analysisartificialanalysis.ai
Comparison Summary Claude Opus 4.7 (Adaptive Reasoning, Max Effort) is amongst the leading models in intelligence, but particularly expensive when comparing to other models of similar price. It's also slower than average and very verbose. The model supports...
[15] DeepSeek-V4-Pro-Max: Pricing, Benchmarks & Performancellm-stats.com
14 of 11 Image 23: LLM Stats Logo Humanity's Last Exam (HLE) is a multi-modal academic benchmark with 2,500 questions across mathematics, humanities, and natural sciences, designed to test LLM capabilities at the frontier of human knowledge with unambiguous...
[16] Kimi K2.6 Review: The $0.60 Model That Matches GPT-5.5 on SWE-Bench Pro | CodeRouter Blogcoderouter.io
Benchmark numbers Benchmark Kimi K2.6 GPT-5.5 Claude Opus 4.7 GPT-5.4 DeepSeek V4-Pro ---:---:---: SWE-Bench Pro 58.6% 58.6% 64.3% 57.7% 55% HLE (Humanity's Last Exam) w/ tools 54.0 — 53.0\ 52.1 — AIME 2026 96.4% — — 99.2% — GPQA-Diamond 90.5% — — 92.8% — I...
[18] Kimi K2.6 vs Claude Opus 4.7 - Detailed Performance & Feature Comparisondocsbot.ai
SWE-Bench Verified Evaluates software engineering capabilities through verified code modifications and custom agent setups 80.2% SWE-Bench Verified, thinking mode Source Not available SWE-Bench Pro Evaluates software engineering on multi-language SWE-Bench...
[19] Opus 4.7: Everything you need to know - Artificial Analysisartificialanalysis.ai
➤ Context window: 1M tokens (unchanged from Opus 4.6) ➤ Max output tokens: 128K tokens (unchanged from Opus 4.6) ➤ Pricing: $5/$25 per 1M input/output tokens (unchanged from Opus 4.5 and Opus 4.6) ➤ Availability: Claude Opus 4.7 is available via Anthropic's...

トレンドを発見する

答え公開済み2026年4月28日Last edited 2026年5月6日10 ソース

Kimi K2.6、DeepSeek V4、GPT-5.5、Claude Opus 4.7比較：ベンチマークと料金で選ぶなら

Studio Global AIで検索して事実確認 Discover からさらに閲覧する

16K0

まず結論：用途別に最初に試すモデル

優先したいこと	最初に試す候補	判断材料
難しいタスクでの品質	Claude Opus 4.7	VentureBeatの比較ではHLEでGPT-5.5とDeepSeek V4を上回り、CodeRouterのSWE-Bench Proでも64.3%で首位とされる ^[3]^[16]。
ターミナル、エージェント、OpenAI環境	GPT-5.5	Terminal-Bench 2.0で82.7%と報告され、Claude Opus 4.7とDeepSeek V4を大きく上回る。ChatGPT／Codex系の作業を続けたい場合の自然な選択肢としても挙げられている ^[3]^[7]。
低コストで競争力のあるコーディング	Kimi K2.6	SWE-Bench ProでGPT-5.5と同じ58.6%とされ、料金は100万トークンあたり入力$0.60／出力$4.00と報告されている ^[16]。
長いコンテキストを安く大量に使う	DeepSeek V4-Pro／V4 Flash	V4-Proは入力$1.74／出力$3.48、V4 Flashは入力$0.14／出力$0.28で、いずれも100万トークンのコンテキストが示されている。ただしFlashは別バリアントとして扱うべき ^[4]^[16]。
セルフホストの道筋	Kimi K2.6	K2.6の重みはHugging Faceにあり、vLLM、SGLang、KTransformersで動かせるとVerdentが説明している ^[5]。

ベンチマークの読み方

ベンチマーク	読み取れること	公開されている主な数字
HLE、ツールなし	比較可能な範囲ではClaude Opus 4.7が上位。	Claude Opus 4.7が46.9%、GPT-5.5が41.4%、DeepSeek V4が37.7%。同じ抜粋内にKimi K2.6の比較値はない ^[3]。
HLE、ツールあり	ClaudeがGPT-5.5とDeepSeek V4を上回る。Kimiも近い数字を持つが、別ソースの表なので注意。	VentureBeatではClaude Opus 4.7が54.7%、GPT-5.5が52.2%、DeepSeek V4が48.2%。CodeRouterはKimi K2.6を54.0と載せているが、同じ表での直接比較ではない ^[3]^[16]。
SWE-Bench Pro	Claudeが首位、GPT-5.5とKimi K2.6が第2集団、DeepSeek V4-Proはやや下。	CodeRouterはClaude Opus 4.7を64.3%、GPT-5.5とKimi K2.6を58.6%、DeepSeek V4-Proを約55%と報告。VentureBeatはDeepSeekの値を55.4%としている ^[3]^[16]。
Terminal-Bench 2.0	GPT-5.5の最も強い根拠。	GPT-5.5が82.7%、Claude Opus 4.7が69.4%、DeepSeek V4が67.9%。入手できる抜粋にはKimi K2.6の値はない ^[3]。

料金とコンテキスト：ベンチマークは請求書を払ってくれない

モデル／バリアント	報告されている料金	報告されているコンテキスト	メモ
Claude Opus 4.7	Artificial Analysisでは100万トークンあたり入力$5／出力$25 ^[19]。	100万トークン、最大出力128Kトークン ^[19]。	Artificial Analysisは、知能面で主要モデルの一つだが、高価で遅め、出力が長くなりがちとも評している ^[14]。
GPT-5.5	CodeRouterでは入力$5／出力$30 ^[16]。	100万トークン ^[16]。	Terminal-Bench 2.0の強さ、ChatGPT／Codex系の作業継続性を重視する場合に検討しやすい ^[3]^[7]。
Kimi K2.6	CodeRouterでは入力$0.60／出力$4.00 ^[16]。	256Kトークン ^[16]。	Artificial Analysisの比較でも、Kimi K2.6は256K、Claude Opus 4.7は1000Kのコンテキストと示されている ^[6]。
DeepSeek V4-Pro	CodeRouterでは入力$1.74／出力$3.48 ^[16]。	100万トークン ^[16]。	HLEやSWE-Bench Proでは首位ではないが、長いコンテキストを低コストで使う候補になる ^[3]^[16]。
DeepSeek V4 Flash	CodeRouterでは入力$0.14／出力$0.28 ^[4]。	100万トークン ^[4]。	V4-Proとは別バリアント。V4-ProやV4-Pro-MaxのベンチマークをそのままFlashに当てはめるのは避けたい ^[3]^[4]^[16]。

どれを選ぶべきか

失敗のコストが高いならClaude Opus 4.7

ターミナル作業やOpenAI環境を重視するならGPT-5.5

低コストで強いコーディング性能を狙うならKimi K2.6

大量処理と長いコンテキストが先ならDeepSeek V4

乗り換える前の注意点

設定がそろっていない数字を混ぜない。 HLEにはツールあり／なしがあり、別ソースではhigh effort、max effort、thinkingなどのモードが使われています ^[3]^[6]^[14]^[16]。
モデル名だけでなくバリアントを見る。 GPT-5.5とGPT-5.5 Pro、DeepSeek V4-Pro／V4-Pro-Max／V4 Flashは同一視しないほうが安全です ^[3]^[4]^[16]。
価格とリーダーボードはすぐ古くなる。 Verdentも、継続的なリリース環境では数字が早く陳腐化しやすいと注意しています ^[5]。
最後は自分のワークロードで決める。 実務ガイドは、話題性のある新モデルを選ぶのではなく、同じタスクを実際に走らせてから判断することを勧めています ^[7]。

まとめ

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AIで検索して事実確認

重要なポイント

品質最優先ならClaude Opus 4.7が有力。HLEではGPT 5.5とDeepSeek V4を上回り、CodeRouterのSWE Bench Proでも64.3%で首位とされる [3][16]。
GPT 5.5はTerminal Bench 2.0で82.7%と強く、OpenAI／Codex系の作業継続性も判断材料になる。Kimi K2.6はSWE Bench ProでGPT 5.5と同じ58.6%ながら、料金は100万トークンあたり入力$0.60／出力$4.00と報告されている [3][7][16]。
DeepSeek V4 Pro／V4 Flashは安価な大量処理と長いコンテキスト向き。V4 Proは入力$1.74／出力$3.48、V4 Flashは入力$0.14／出力$0.28で、いずれも100万トークンのコンテキストが示されている [4][16]。

人々も尋ねます

「Kimi K2.6、DeepSeek V4、GPT-5.5、Claude Opus 4.7比較：ベンチマークと料金で選ぶなら」の短い答えは何ですか?

品質最優先ならClaude Opus 4.7が有力。HLEではGPT 5.5とDeepSeek V4を上回り、CodeRouterのSWE Bench Proでも64.3%で首位とされる [3][16]。

最初に検証する重要なポイントは何ですか?

次の実践では何をすればいいでしょうか？

次にどの関連トピックを検討すればよいでしょうか?

別の角度からの引用や追加の引用については、「Claude Securityとは：AnthropicのAIコード脆弱性スキャナーを企業はどう使うべきか」に進みます。

関連ページを開く

これを何と比較すればいいでしょうか？

この回答を「Grok 4.3 APIの読み方：100万トークン文脈と低単価でxAIは何を狙うのか」と照合してください。

関連ページを開く

研究を続けてください

研究に関する会話

あなた2026年4月25日

リサーチクエスチョン

A partir de los benchmarks de Kimi K2.6, DeepSeek V4, GPT-5.5 y Claude Opus 4.7, compáralos.

Studio Global AI2026年4月25日22 ソース

引用された回答

Los datos públicos no son perfectamente homogéneos: algunos benchmarks comparan variantes con herramientas, “high effort”, modos de razonamiento o configuraciones distintas, así que conviene leerlos como señales, no como ranking absoluto.
Donde hay cifras comparables, Opus 4.7 y GPT-5.5 tienden a estar arriba; Kimi K2.6 sorprende en coding/coste; DeepSeek V4 es competitivo por precio y contexto.

Modelo	Lo más fuerte	Benchmarks / señales públicas	Coste y uso
Claude Opus 4.7	Razonamiento, coding complejo, visión/documentos, contexto largo	Artificial Analysis lo describe como uno de los modelos líderes en inteligencia, aunque caro, lento y verboso; soporta entrada de texto e imagen y contexto de 1M tokens ^[2]. En HLE sin herramientas aparece con 46.9%, por encima de GPT-5.5 y DeepSeek V4; con herramientas aparece con 54.7% ^[5]. En SWE-Bench Pro, una comparativa lo sitúa en 64.3%, por encima de Kimi K2.6 y GPT-5.5 ^[8].	Precio reportado: $5 por 1M tokens de entrada y $25 por 1M de salida, con disponibilidad vía API de Anthropic, Bedrock, Azure y Vertex ^[14].
GPT-5.5	Equilibrio general, razonamiento con herramientas, ecosistema OpenAI/Codex	En HLE sin herramientas aparece con 41.4%, por detrás de Opus 4.7 pero por delante de DeepSeek V4; con herramientas sube a 52.2% ^[5]. En SWE-Bench Pro, una comparativa lo pone empatado con Kimi K2.6 en 58.6% ^[8].	Una fuente reporta precio API de $5 por 1M tokens de entrada y $30 por 1M de salida, con contexto de 1M tokens ^[3].
Kimi K2.6	Coding agente y coste/rendimiento	CodeRouter lo describe como ganador de coste/calidad y dice que empata con GPT-5.5 en SWE-Bench Pro ^[7]. En la tabla de esa fuente, Kimi K2.6 obtiene 58.6% en SWE-Bench Pro, 54.0 en HLE con herramientas, 96.4% en AIME 2026 y 90.5% en GPQA-Diamond ^[8].	Se reporta precio de $0.60/$4.00 por 1M tokens de entrada/salida, muy por debajo de Opus 4.7 y GPT-5.5 ^[7]. Tiene ventana de contexto de 256k tokens, menor que el 1M de Opus 4.7 ^[12].
DeepSeek V4	Coste, API barata, buena opción si el presupuesto importa	En HLE sin herramientas aparece con 37.7%, por debajo de GPT-5.5 y Opus 4.7; con herramientas sube a 48.2%, pero sigue por debajo de GPT-5.5 y Opus 4.7 ^[5]. En SWE-Bench Pro, una comparativa sitúa DeepSeek V4-Pro alrededor de 55%, por debajo de Kimi K2.6, GPT-5.5 y Opus 4.7 ^[8].	Una fuente reporta precio de $1.74 por 1M tokens de entrada y $3.48 por 1M de salida, con contexto de 1M tokens ^[3].

Ranking práctico

Mejor calidad bruta: Claude Opus 4.7, especialmente si importan razonamiento difícil, documentos largos, visión y coding complejo ^[2]^[5]^[8].
Mejor equilibrio premium: GPT-5.5, cerca de Opus en HLE con herramientas y empatado con Kimi K2.6 en SWE-Bench Pro según una comparativa ^[5]^[8].
Mejor coste/rendimiento para coding: Kimi K2.6, porque empata con GPT-5.5 en SWE-Bench Pro en la comparativa citada y cuesta bastante menos ^[7]^[8].
Mejor opción barata con contexto largo: DeepSeek V4, aunque sus resultados HLE y SWE-Bench Pro quedan por detrás de Opus 4.7, GPT-5.5 y Kimi K2.6 en las cifras disponibles ^[3]^[5]^[8].

情報源

[3] DeepSeek-V4 arrives with near state-of-the-art intelligence at 1/6th ...venturebeat.com
On Humanity’s Last Exam without tools, DeepSeek scores 37.7%, behind GPT-5.5 at 41.4%, GPT-5.5 Pro at 43.1% and Claude Opus 4.7 at 46.9%. With tools enabled, DeepSeek rises to 48.2%, but still trails GPT-5.5 at 52.2%, GPT-5.5 Pro at 57.2% and Claude Opus 4....
[4] GPT-5.5, DeepSeek V4, Kimi K2.6 at a Glance - CodeRoutercoderouter.io
TL;DR — In one week (April 20–23, 2026), four frontier coding models shipped: Kimi K2.6 (Moonshot, Apr 20), GPT-5.5 (OpenAI, Apr 23), DeepSeek V4 Pro + V4 Flash (preview, April). Claude Opus 4.7 is still the SWE-Bench Pro champion. Kimi K2.6 is the new cost...
[5] Kimi K2.6 vs Claude Opus 4.6 vs GPT-5.4: Agentic Coding Benchmarks (2026) - Verdent Guidesverdent.ai
Yes. K2.6 weights are on Hugging Face and run on vLLM, SGLang, or KTransformers. Minimum viable hardware is 4× H100 for the INT4 variant at reduced context. Claude and GPT-5.4 are API-only — there is no self-hosted path. If data sovereignty is a requirement...
[6] Kimi K2.6 vs Claude Opus 4.7 (Non-reasoning, High Effort): Model Comparisonartificialanalysis.ai
Highlights Model Comparison Metric Kimi logoKimi K2.6 Anthropic logoClaude Opus 4.7 (Non-reasoning, High Effort) Analysis --- --- Creator Kimi Anthropic Context Window 256k tokens ( 384 A4 pages of size 12 Arial font) 1000k tokens ( 1500 A4 pages of size 12...
[7] Kimi K2.6 vs DeepSeek V4 vs GPT-5.5 vs Claude Opus 4.7blog.laozhang.ai
As of Apr 24, 2026, this comparison should be built around DeepSeek V4, not an older DeepSeek label. Test Kimi K2.6 first when the job is low-cost coding-agent exploration, test DeepSeek V4 Flash or V4 Pro when you need a cheap callable API route today, use...
[14] Claude Opus 4.7 (max) - Intelligence, Performance & Price Analysisartificialanalysis.ai
Comparison Summary Claude Opus 4.7 (Adaptive Reasoning, Max Effort) is amongst the leading models in intelligence, but particularly expensive when comparing to other models of similar price. It's also slower than average and very verbose. The model supports...
[15] DeepSeek-V4-Pro-Max: Pricing, Benchmarks & Performancellm-stats.com
14 of 11 Image 23: LLM Stats Logo Humanity's Last Exam (HLE) is a multi-modal academic benchmark with 2,500 questions across mathematics, humanities, and natural sciences, designed to test LLM capabilities at the frontier of human knowledge with unambiguous...
[16] Kimi K2.6 Review: The $0.60 Model That Matches GPT-5.5 on SWE-Bench Pro | CodeRouter Blogcoderouter.io
Benchmark numbers Benchmark Kimi K2.6 GPT-5.5 Claude Opus 4.7 GPT-5.4 DeepSeek V4-Pro ---:---:---: SWE-Bench Pro 58.6% 58.6% 64.3% 57.7% 55% HLE (Humanity's Last Exam) w/ tools 54.0 — 53.0\ 52.1 — AIME 2026 96.4% — — 99.2% — GPQA-Diamond 90.5% — — 92.8% — I...
[18] Kimi K2.6 vs Claude Opus 4.7 - Detailed Performance & Feature Comparisondocsbot.ai
SWE-Bench Verified Evaluates software engineering capabilities through verified code modifications and custom agent setups 80.2% SWE-Bench Verified, thinking mode Source Not available SWE-Bench Pro Evaluates software engineering on multi-language SWE-Bench...
[19] Opus 4.7: Everything you need to know - Artificial Analysisartificialanalysis.ai
➤ Context window: 1M tokens (unchanged from Opus 4.6) ➤ Max output tokens: 128K tokens (unchanged from Opus 4.6) ➤ Pricing: $5/$25 per 1M input/output tokens (unchanged from Opus 4.5 and Opus 4.6) ➤ Availability: Claude Opus 4.7 is available via Anthropic's...

まず結論：用途別に最初に試すモデル

ベンチマークの読み方

料金とコンテキスト：ベンチマークは請求書を払ってくれない

どれを選ぶべきか

失敗のコストが高いならClaude Opus 4.7

ターミナル作業やOpenAI環境を重視するならGPT-5.5

低コストで強いコーディング性能を狙うならKimi K2.6

大量処理と長いコンテキストが先ならDeepSeek V4

乗り換える前の注意点

まとめ

Search, cite, and publish your own answer

重要なポイント

人々も尋ねます

「Kimi K2.6、DeepSeek V4、GPT-5.5、Claude Opus 4.7比較：ベンチマークと料金で選ぶなら」の短い答えは何ですか?

最初に検証する重要なポイントは何ですか?

次の実践では何をすればいいでしょうか？

次にどの関連トピックを検討すればよいでしょうか?

これを何と比較すればいいでしょうか？

研究を続けてください

Claude Securityとは：AnthropicのAIコード脆弱性スキャナーを企業はどう使うべきか

Grok 4.3 APIの読み方：100万トークン文脈と低単価でxAIは何を狙うのか

香港RCHEで「住み慣れた場所での看取り」が進みにくい理由

Xiaomi Q5はMIX 5ではなさそう 最新情報はXiaomi 18シリーズ寄り

研究に関する会話

リサーチクエスチョン

引用された回答

Ranking práctico

情報源

まず結論：用途別に最初に試すモデル

ベンチマークの読み方

料金とコンテキスト：ベンチマークは請求書を払ってくれない

どれを選ぶべきか

失敗のコストが高いならClaude Opus 4.7

ターミナル作業やOpenAI環境を重視するならGPT-5.5

低コストで強いコーディング性能を狙うならKimi K2.6

大量処理と長いコンテキストが先ならDeepSeek V4

乗り換える前の注意点

まとめ

Search, cite, and publish your own answer

重要なポイント

人々も尋ねます

「Kimi K2.6、DeepSeek V4、GPT-5.5、Claude Opus 4.7比較：ベンチマークと料金で選ぶなら」の短い答えは何ですか?

最初に検証する重要なポイントは何ですか?

次の実践では何をすればいいでしょうか？

次にどの関連トピックを検討すればよいでしょうか?

これを何と比較すればいいでしょうか？

研究を続けてください

Claude Securityとは：AnthropicのAIコード脆弱性スキャナーを企業はどう使うべきか

Grok 4.3 APIの読み方：100万トークン文脈と低単価でxAIは何を狙うのか

香港RCHEで「住み慣れた場所での看取り」が進みにくい理由

Xiaomi Q5はMIX 5ではなさそう 最新情報はXiaomi 18シリーズ寄り

研究に関する会話

リサーチクエスチョン

引用された回答

Ranking práctico

情報源

まず結論：用途別に最初に試すモデル

ベンチマークの読み方

料金とコンテキスト：ベンチマークは請求書を払ってくれない

どれを選ぶべきか

失敗のコストが高いならClaude Opus 4.7

ターミナル作業やOpenAI環境を重視するならGPT-5.5

低コストで強いコーディング性能を狙うならKimi K2.6

大量処理と長いコンテキストが先ならDeepSeek V4

乗り換える前の注意点

まとめ

Search, cite, and publish your own answer

重要なポイント

人々も尋ねます

「Kimi K2.6、DeepSeek V4、GPT-5.5、Claude Opus 4.7比較：ベンチマークと料金で選ぶなら」の短い答えは何ですか?

最初に検証する重要なポイントは何ですか?

次の実践では何をすればいいでしょうか？

次にどの関連トピックを検討すればよいでしょうか?

これを何と比較すればいいでしょうか？

研究を続けてください

Claude Securityとは：AnthropicのAIコード脆弱性スキャナーを企業はどう使うべきか

Grok 4.3 APIの読み方：100万トークン文脈と低単価でxAIは何を狙うのか

香港RCHEで「住み慣れた場所での看取り」が進みにくい理由

Xiaomi Q5はMIX 5ではなさそう 最新情報はXiaomi 18シリーズ寄り

研究に関する会話

Xiaomi Q5はMIX 5ではなさそう　最新情報はXiaomi 18シリーズ寄り

Xiaomi Q5はMIX 5ではなさそう　最新情報はXiaomi 18シリーズ寄り

Xiaomi Q5はMIX 5ではなさそう　最新情報はXiaomi 18シリーズ寄り