コミュニティでは、リリース時期を2026年6月15日から7月5日の間と予測する声もあるが、これはあくまでログの発見状況からの推測であり、公式な裏付けは一切ない 。仮説上のGPT-5.6について、具体的な価格、トークン効率の数値、あるいは確定したマルチモーダル能力は、まだ何も明らかになっていない。コスト効率の改善や、テキストと画像の生成能力への期待は、5.x系モデルの進化の軌跡から導き出された推測であり、文書化された仕様ではない
。
「Mythosベンチマーク」という言葉は、いくつかの異なる文脈で登場し、しばしば混乱を招いている。主なものは以下の3つだ。
AnthropicのClaude Mythosモデルに関するリーク(2026年3月26日): Anthropicのコンテンツ管理システム(CMS)の設定ミスにより、約3,000件の内部文書が偶発的に公開された。そこには、コードネーム「Capybara」、正式名称「Claude Mythos」と呼ばれる次世代モデルのドラフト投稿が含まれていた 。流出した内部ベンチマークによると、MythosはSWE-bench Verifiedで93.9%、SWE-bench Proで77.8%というスコアを記録し、当時、主要なコーディングベンチマークの全てで他を圧倒していた
。2026年4月7日、AnthropicはClaude Mythos Previewを正式に発表したが、同時に「一般のユーザーは利用できない」と宣言した
。さらに、このモデルは27年間検出されなかったOpenBSDのバグを発見するなど、卓越したサイバーセキュリティ能力でも注目されている
。
カーネギーメロン大学のセキュリティベンチマーク(2026年5月): CMUの研究者が、AIモデルが自律的にGoogleのV8エンジンの脆弱性を狙った実際のブラウザエクスプロイトを開発できるかどうかをテストする、別の評価手法を構築した。Claude MythosとGPT-5.5の両方が、人間の介入なしに本物のセキュリティ欠陥を発見し、武器化する能力を実証した。このテストでは、MythosがGPT-5.5を大幅に上回ったが、運用コストは約12倍と試算されている 。
SecureAIの「Mythos」脆弱性ベンチマーク(2026年1月): AIによる脆弱性検知ツールを評価するために設計された、サイバーセキュリティに特化したベンチマーク群。2023年から2026年までのCVE(共通脆弱性識別子)をカバーし、Llama-3.1-405Bのような大規模モデルをベースラインとして使用している 。
誰かが「Mythosベンチマークのリーク」と言った場合、通常はAnthropicのモデルに関する流出事件を指している。CMUとSecureAIのベンチマークは、「Mythos」という名称を共有しているに過ぎない、全く別の取り組みである。
2026年6月2日、「Intelligence at Work(職場に知性を)」イベントにおいて、OpenAIはCodexを、開発者向けのコーディングエージェントから、より広範な「企業向けワークプラットフォーム」へと構造的に拡大することを発表した 。この発表で確認された3つの柱は以下の通りだ。
また、OpenAIはCodexの週間アクティブユーザー数が500万人を突破したことも確認した 。このCodex拡大は、企業内の非開発者層である「知識労働者」を獲得するための明確な戦略的転換を意味する。複数の独立した分析が指摘するように、これはこれまでほぼエンジニアリングチームだけを対象としてきたツール群に対する、直接的な競争軸を打ち出した動きだ
。
2026年6月2日、サンフランシスコで開催された年次開発者会議「Build」において、Microsoftは新しいハードウェアとともに、MAI(Microsoft AI) ブランドで統一された、内製の7つのAIモデルファミリーを発表した 。
その中核となるのが、同社初の推論モデル「MAI-Thinking-1」だ。
以下の6つのモデルが、このマルチモーダルなエコシステムを構成する。
ハードウェア発表では、最大1ペタフロップスのAI演算能力と128GBのユニファイドメモリを搭載し、最大1200億パラメータのモデルをローカルで実行できるコンパクトなAI開発マシン「Surface RTX Spark Dev Box」も披露された 。さらに、量子チップ「Majorana 2」も発表され、従来のAI演算能力を超えたハードウェアへの野心を加速させている
。
「Vibeコーディング」、つまりコードを直接書くのではなく、会話形式のプロンプトでアプリケーション全体を生成する手法は、単純なコードタスクの正誤だけでなく、フルスタック開発能力を測定しようとする、新世代のベンチマークを生み出した。
これら3つのプラットフォームは、AIコーディングの評価を、SWE-benchのような合格率ベンチマークから脱却させ、ユーザビリティ、速度、コスト、セキュリティといった総合的な指標へと引き上げようという共通の目標を持っている。
2026年6月2日、Nous ResearchはパブリックプレビューとしてHermes Desktopをリリースした。Hermes Agent v0.15.2がバンドルされ、MITライセンスの下でmacOS 12+、Windows 10/11、Linux向けに提供されている 。
これまでHermesは、コマンドラインインターフェース(CLI)やメッセージングゲートウェイを通じてのみアクセス可能だった。このデスクトップアプリは、CLIと全く同じエージェントコア、APIキー、セッション、スキル、メモリを共有するネイティブなGUIフロントエンドである。つまり、独立したフォークではなく、同じ頭脳に対する「もう一つの操作画面」という位置づけだ 。
Nous Researchは、Hermesを「自己進化するエージェントであり、コーディングの副操縦士ではない」と説明している 。このエージェントは、ローンチから約3ヶ月でGitHubスター数が約18万に達しており、オープンソースのエージェントプロジェクトとしては、エコシステム内で最も急速に成長しているものの一つだ
。
Alibabaは、2026年6月1~2日頃に「Qwen 3.7 Plus」を発表した。これは、テキスト、画像、動画を早期融合トレーニングによって処理するマルチモーダルエージェントモデルであり、100万トークンのコンテキストウィンドウを持つ 。
価格は、Alibabaのテキスト専用モデル「Qwen 3.7 Max」の1トークンあたりのコストの約6分の1に設定されており、市場で最も積極的な価格戦略を取るマルチモーダルエージェントの一つとなっている 。エージェント性能のベンチマークでは、Terminal-Bench 2.0でClaude Opus 4.6を上回り、UIの認識と自動操作、画像からのコード生成、視覚的質問応答などが可能だ
。
/fork コマンドClaude Codeは、開発者のマシン上で直接ターミナル操作を行い、シェルコマンドを実行したりファイルを編集したりできる、Anthropicのエージェント型コーディングツールだ。/fork コマンドを使うと、既存のセッションから分岐した新しいセッションを作成し、commands/branch/ の下に保存できる。これにより、元のセッションのコンテキストを失うことなく、別の方向性を探るワークフローが実現する 。
当初の問い合わせに含まれていた項目のうち、2026年6月初旬の時点で、直接的な情報源による確認が取れなかったものがいくつか存在する。
2026年6月第1週を支配したテーマは、企業向けツール(CodexプラグインとSites)、自社開発モデル群(MicrosoftのMAIラインアップ、AlibabaのQwen)、オープンソースエージェントの成熟(Hermes Desktop)、そして、まだ公にはなっていない「来るべき次世代」(GPT-5.6、Claude Mythos)である。業界の動きは速い。しかし、「確定した製品」と「未確認の噂」との間の境界線は、見出しが示唆する以上に、はるかに明確に引かれているのだ。
Comments
0 comments