OpenAI側で最もはっきりしているのは、Deep Researchにおけるウェブ引用の表示要件です。OpenAIのDeep Research文書は、ウェブ結果またはウェブ結果に含まれる情報をエンドユーザーに表示する場合、インライン引用をUI上で明確に見え、クリック可能にすべきだとしています 。これは重要です。リンクがメタデータの奥に隠れていたり、該当する主張から切り離されていたりすると、根拠追跡は弱くなるからです。
OpenAIは、引用可能な素材を準備し、モデルに効果的な引用形式を指示するためのガイドも提供しています 。Deep Research APIの例では、応答にインライン引用を含む構造化された最終回答、推論ステップの要約、ソース情報が含まれると説明されています
。OpenAIのヘルプセンターも、Deep Researchの出力には、情報を検証できるよう引用またはソースリンクが含まれると述べています
。
ここから言えるのは、OpenAIは少なくともこの資料群の中で、ウェブ調査ワークフローにおける引用表示を明示しているということです。ただし、それは「すべての引用が必ず正確である」ことの証明ではありません。また、GPT-5.5 Spudに固有の性能を示すものでもありません。
Anthropic側で確認できる強い材料は、Claude Opus 4.7の位置づけと、文書ベースの引用メカニズムです。AnthropicはClaude Opus 4.7を最新世代のClaudeモデルの一つとして説明し、最も複雑なタスクにはClaude Opus 4.7から始めることを検討するよう案内しています。さらに、一般提供されているモデルの中で同社の最も高性能なモデルだとしています 。
根拠追跡という点で中心になるのは、Anthropicの引用ドキュメントです。そこでは、Claudeは文書に関する質問に答える際、文書を提供して引用を有効化すれば、情報源の追跡と確認に役立つ詳細な引用を提供できると説明されています 。また引用の粒度について、プレーンテキスト文書とPDF文書はデフォルトで文単位に自動分割され、より細かく制御したい場合はカスタムコンテンツ文書を使えるとされています
。
AnthropicのPDFサポート文書には、Converse APIで視覚的なPDF分析を行うには引用を有効化する必要がある、という根拠追跡に関わる記述もあります 。さらにFiles APIでは、開発者がClaude APIで使うファイルをアップロード・管理でき、毎回同じ内容を再アップロードせずに済むと説明されています
。ファイル管理そのものは引用の正確性を保証しませんが、保存された出典と主張単位の引用を組み合わせれば、監査しやすいワークフローを作る土台になります。
AI調査のプロベナンスを評価するときの大きな落とし穴は、モデルの「思考」やスクラッチパッド風の出力を、根拠そのものと見なしてしまうことです。これは別物です。
OpenAIのreasoning best practicesは、推論モデルは内部で推論を行うため、「段階的に考えて」や「思考過程を説明して」といったチェーン・オブ・ソートを促すプロンプトを避けるよう案内しています 。OpenAIのreasoning modelsガイドは、reasoning effort、reasoning tokens、ターンをまたいだ推論状態の保持といった制御に焦点を当てています
。
Anthropicは、思考メカニズムに関する用語をより多く文書化しています。プロンプトキャッシュの文書では、extended thinkingとprompt cachingを組み合わせる場合、thinking blocksに特別な挙動があると説明されています 。extended thinkingの文書は、Claude 4以降のモデルで、full thinking tokensと要約出力を区別しています
。Anthropicのリリースノートは、応答からthinking contentを省略できるdisplay fieldに触れており、Claude Codeの文書は、スキル内に
ultrathinkという語を含めると、そのスキルでextended thinkingを有効化できるとしています 。
こうした機能は、複雑なワークフローを調整するうえでは役立ちます。しかし、スクラッチパッド、隠れたチェーン・オブ・ソート、要約された推論ログは、ある事実主張が特定のURL、文書、ファイルから来たことを証明するものではありません。推論アーティファクトは補助情報であって、出典監査の代替ではないと考えるべきです。
モデル名だけで選ぶより、ワークフロー全体がレビューに耐えるかを確認するほうが安全です。
今回確認した資料が支えるのは、単純な順位表ではなく、限定つきの比較です。OpenAIは、Deep Researchでウェブ由来情報をユーザーに見せる際、明確でクリック可能なインライン引用を求めているため、この資料群ではユーザー向けウェブ引用要件が最も明確です 。Anthropicは、文書を提供して引用を有効化した場合のClaudeの引用、および文単位分割やカスタムコンテンツによる引用粒度の制御を説明しているため、文書に根差した引用についての説明が最も具体的です
。
Claude Opus 4.7は、複雑なタスク向けに一般提供されているAnthropicの最も高性能なモデルとして文書化されています 。しかし、今回確認できたOpenAIのモデル固有資料はGPT-5.4であり、GPT-5.5 Spudではありません
。監査可能なAI調査が目的なら、まず比較すべきなのはモデル名ではなく、出典の保存、引用の粒度、そして人間が検証できる運用です。
Comments
0 comments