Un workflow crédible de recherche assistée par IA devrait distinguer trois éléments :
Les citations sont la partie la plus visible. Mais elles ne suffisent pas si elles ne permettent pas de remonter à la preuve exacte. Le vrai test est simple : un relecteur peut-il partir d’une phrase, ouvrir la source correspondante et vérifier que l’affirmation est bien soutenue ?
Dans les sources fournies, l’élément de provenance le plus clair côté OpenAI vient de la documentation Deep Research : lorsque des résultats web, ou des informations contenues dans ces résultats, sont affichés aux utilisateurs finaux, les citations en ligne doivent être clairement visibles et cliquables . C’est important, car une citation perd beaucoup de sa valeur si elle est cachée dans des métadonnées ou séparée de la phrase qu’elle est censée justifier.
OpenAI publie aussi un guide de mise en forme des citations, consacré à la préparation de contenus citables et aux consignes permettant au modèle de formater les citations efficacement . Un exemple de l’API Deep Research indique que les réponses comprennent une réponse finale structurée avec citations en ligne, résumés des étapes de raisonnement et informations de source
. Le centre d’aide d’OpenAI précise également que les sorties Deep Research incluent des citations ou des liens sources afin que les utilisateurs puissent vérifier l’information
.
Cela soutient une conclusion limitée, mais utile : dans ces documents, OpenAI est explicite sur la présentation des citations dans les workflows de recherche web. En revanche, cela ne prouve pas que chaque citation est correcte, et cela n’établit rien de spécifique sur GPT-5.5 Spud.
Côté Anthropic, les sources sont particulièrement nettes sur deux points : le positionnement de Claude Opus 4.7 et la mécanique de citations à partir de documents. Anthropic décrit Claude Opus 4.7 comme appartenant à la dernière génération de modèles Claude et recommande ce modèle pour les tâches les plus complexes, en le présentant comme son modèle généralement disponible le plus capable .
Pour la provenance, la source clé est la documentation Citations. Elle indique que Claude peut fournir des citations détaillées lorsqu’il répond à des questions sur des documents, afin d’aider les utilisateurs à suivre et vérifier les sources d’information, à condition que les documents soient fournis et que les citations soient activées . Elle précise aussi le niveau de granularité : les documents en texte brut et PDF sont, par défaut, automatiquement découpés en phrases ; des documents à contenu personnalisé peuvent être utilisés lorsque les développeurs veulent un contrôle plus fin
.
La documentation sur les PDF ajoute un détail notable : l’analyse visuelle de PDF dans la Converse API exige que les citations soient activées . Anthropic documente également une Files API permettant de téléverser et gérer des fichiers pour l’API Claude sans renvoyer le même contenu à chaque requête
. Cette gestion de fichiers ne prouve pas l’exactitude des citations, mais elle peut soutenir une piste d’audit plus solide si elle est associée à des sources conservées et à des citations au niveau des affirmations.
Le piège classique consiste à prendre les traces de raisonnement du modèle pour des preuves. Ce n’est pas la même chose.
OpenAI indique, dans ses bonnes pratiques pour les modèles de raisonnement, que ces modèles raisonnent en interne et déconseille de leur demander de penser étape par étape ou d’expliquer leur chaîne de raisonnement . Son guide sur les modèles de raisonnement porte plutôt sur des contrôles comme l’effort de raisonnement, les jetons de raisonnement et la conservation de l’état de raisonnement entre les tours
.
Anthropic expose davantage de vocabulaire autour de ces mécanismes. Sa documentation sur le prompt caching indique que les blocs de réflexion ont un comportement particulier lorsque l’extended thinking est utilisé avec la mise en cache des prompts . Sa documentation sur l’extended thinking distingue les jetons de réflexion complets de la sortie résumée dans Claude 4 et les modèles ultérieurs
. Des notes de version d’Anthropic décrivent aussi un champ d’affichage permettant d’omettre le contenu de réflexion des réponses, et la documentation Claude Code indique que l’ajout de
ultrathink à une skill active l’extended thinking dans cette skill .
Ces fonctions peuvent aider à concevoir des workflows complexes. Mais un scratchpad, une chaîne de pensée masquée ou un résumé de raisonnement ne démontre pas qu’une affirmation factuelle vient d’une URL, d’un document ou d’un fichier précis. Pour l’audit, le raisonnement est un contexte secondaire ; la preuve reste la source vérifiable.
Au lieu de choisir uniquement par nom de modèle, mieux vaut évaluer le système complet.
Les documents examinés permettent une comparaison nuancée, pas un palmarès. OpenAI est mieux étayé ici pour les exigences de citations web côté utilisateur, car Deep Research demande explicitement des citations en ligne visibles et cliquables lorsque des informations issues du web sont montrées aux utilisateurs . Anthropic est mieux étayé ici pour les citations de Claude fondées sur des documents, car sa documentation décrit l’activation des citations sur des documents fournis et le réglage de la granularité via le découpage par phrases ou le contenu personnalisé
.
Claude Opus 4.7 est bien documenté comme le modèle Anthropic généralement disponible le plus capable pour les tâches complexes, mais la source OpenAI spécifique à un modèle examinée ici concerne GPT-5.4, pas GPT-5.5 Spud . Si l’objectif est une recherche IA auditée, il faut comparer la capture des sources, la granularité des citations et les pratiques de validation avant de comparer les noms de modèles.
Comments
0 comments