‘Claude Opus 4.7이 GPT-5.5 Spud보다 환각을 덜 일으키나’라는 질문은 얼핏 리더보드 비교처럼 보입니다. 하지만 현재 근거로 보면 먼저 확인해야 할 것은 성능 순위가 아니라 모델명입니다. Anthropic은 Claude Opus 4.7과 API 식별자 claude-opus-4-7을 문서화했습니다 [12][
16]. 반면 제공된 OpenAI 공식 자료는 GPT-5, GPT-5 mini, GPT-5.2-Codex, GPT-5.4 프롬프트 가이드를 다루지만, GPT-5.5 Spud라는 공개 모델을 확인해주지는 않습니다 [
23][
25][
26][
29][
45].
따라서 책임 있게 말할 수 있는 결론은 좁습니다. Claude Opus 4.7은 평가 대상이 될 수 있습니다. 그러나 GPT-5.5 Spud는 공식 출시 자료, 모델 카드, API 문서, 모델 식별자와 연결되지 않는 한 동일한 벤치마크의 비교 대상으로 삼기 어렵습니다.
결론부터: 현재 근거로 확인되는 것
| 질문 | 근거 기반 답변 |
|---|---|
| Claude Opus 4.7은 공식 모델인가? | 그렇습니다. Anthropic은 Claude Opus 4.7을 문서화했고, 개발자가 Claude API에서 claude-opus-4-7을 사용할 수 있다고 밝혔습니다 [ |
| GPT-5.5 Spud는 공식 OpenAI 모델로 확인되는가? | 제공된 OpenAI 공식 자료에서는 확인되지 않습니다. 해당 자료들은 GPT-5, GPT-5 mini, GPT-5.2-Codex, GPT-5.4 프롬프트 가이드를 다룹니다 [ |
| 이 자료 묶음에서 Spud는 어디에 등장하나? | 레딧 게시글과 OpenAI Developer Community의 기능 요청 글에 등장합니다. 공식 릴리스 노트나 API 모델 문서가 아닙니다 [ |
| Claude Opus 4.7 vs GPT-5.5 Spud 환각 벤치마크가 있나? | 제공된 자료에는 같은 과제와 같은 채점 방식으로 두 이름을 직접 비교한 검증 벤치마크가 없습니다. 공정한 평가는 답변 보류 행동을 사실 오류와 따로 채점해야 합니다 [ |
이 말이 미래의 비공개 또는 신규 Spud 모델 가능성을 부정한다는 뜻은 아닙니다. 다만 현재 제시된 근거만으로는 GPT-5.5 Spud를 공식 OpenAI 모델처럼 다루거나, Claude와의 환각 승패를 단정할 수 없다는 뜻입니다.
Claude Opus 4.7 자료가 실제로 말하는 것
Claude Opus 4.7에 대해 가장 강한 근거는 제품 문서입니다. Anthropic은 개발자가 Claude API에서 claude-opus-4-7을 사용할 수 있다고 밝혔고 [16], Claude Opus 4.7 문서는 새 기능으로 작업 예산(task budgets)을 소개합니다 [
12]. 작업 예산은 모델 사용량과 작업 방식을 제어하는 제품 기능으로 중요하지만, 그 자체가 공개된 환각률 벤치마크나 ‘모델이 언제 모른다고 말하는가’를 측정한 지표는 아닙니다.
정직성 관련 신호는 있습니다. Mashable은 Anthropic의 Opus 4.7 시스템 카드를 인용해 Claude Opus 4.7의 MASK 정직성 비율이 91.7%였고, 이전 Anthropic 모델 및 다른 프런티어 AI 모델보다 환각이나 아첨성 응답을 보일 가능성이 낮았다고 보도했습니다 [14]. 이는 환각 논의에 참고할 만한 정보입니다. 그러나 확인된 GPT-5.5 Spud 모델을 상대로 한 동일 조건 비교가 아니므로, ‘Claude가 Spud보다 낫다’는 결론으로 바로 이어지지는 않습니다.
OpenAI 자료는 Spud보다 GPT-5 계열을 확인한다
제공된 OpenAI 자료에서 공식적으로 확인되는 것은 GPT-5, GPT-5 mini, GPT-5.2-Codex, GPT-5.4 프롬프트 가이드 같은 항목입니다 [23][
25][
26][
29][
45]. 반면 Spud라는 이름은 레딧 게시글과 OpenAI Developer Community의 기능 요청 글에서 확인됩니다 [
7][
8][
10][
28]. 커뮤니티 글은 업계 분위기나 사용자 기대를 읽는 단서가 될 수 있지만, 공식 모델 페이지, 모델 카드, API 식별자, 출시 발표와 같은 무게를 갖지는 않습니다.
OpenAI 자료에서 더 중요한 대목은 Spud 검증이 아니라 환각 평가 방식입니다. OpenAI의 환각 설명 글은 일반적인 학습·평가 절차가 불확실성을 인정하기보다 추측을 보상하는 경향이 있다고 설명하며, 모델이 확신에 찬 오답을 내기보다 불확실성을 표시하거나 추가 확인을 요청하는 편이 낫다고 말합니다 [3].
OpenAI의 SimpleQA 예시는 정답률 하나만 보면 판단을 그르칠 수 있음을 보여줍니다. 해당 예시에서 gpt-5-thinking-mini는 답변 보류 52%, 정답 22%, 오류 26%로 제시되고, o4-mini는 답변 보류 1%, 정답 24%, 오류 75%로 제시됩니다 [3]. 겉으로는 두 모델의 정답률 차이가 크지 않아 보일 수 있지만, 첫 번째 모델은 훨씬 자주 답을 보류하면서 오류를 크게 줄인 사례입니다 [
3].
환각 통제의 핵심은 ‘잘 모를 때 멈추는 능력’이다
환각을 줄인다는 것은 단순히 답변을 거부한다는 뜻이 아닙니다. 좋은 모델은 근거가 충분할 때는 답하고, 질문이 불명확할 때는 되묻고, 근거가 부족할 때는 답을 보류해야 합니다. 이 균형을 보통 보정된 불확실성(calibrated uncertainty)이라고 부를 수 있습니다.
연구 흐름도 이 방향을 뒷받침합니다. 2024년 연구는 질문응답 환경에서 불확실성 기반 답변 보류가 정확성, 환각, 안전성을 개선한다고 보고했습니다 [1][
4]. I-CALM 연구는 검증 가능한 답이 있는 사실 질문에서의 인식론적 답변 보류를 다루며, 현재 LLM이 보류해야 할 상황에서도 여전히 실패할 수 있다고 지적합니다 [
54]. 행동 보정 강화학습 연구도 모델이 불확실성을 인정하고 답변을 보류하도록 유도하는 방법을 다룹니다 [
61].
더 넓은 리뷰들도 불확실성 정량화를 환각 탐지 도구로 다루며, 보정된 불확실성이 사용자가 모델 답변을 신뢰할지, 미룰지, 검증할지 판단하는 데 도움이 된다고 설명합니다 [53][
55]. 다만 답변 보류는 ‘많을수록 좋은’ 지표가 아닙니다. 너무 자주 모른다고 하면 안전하지만 쓸모가 떨어지고, 절대 보류하지 않으면 편리하지만 위험해집니다.
공정한 Claude 대 OpenAI 환각 테스트를 하려면
- 공식 모델 ID를 써야 합니다. Claude 쪽은
claude-opus-4-7을, OpenAI 쪽은 검증되지 않은 Spud 라벨이 아니라 GPT-5나 GPT-5 mini처럼 문서화된 모델을 써야 합니다 [16][
23][
25][
29].
- 문제 세트를 섞어야 합니다. 답할 수 있는 질문, 조건이 부족한 질문, 답할 수 없는 질문을 함께 넣어야 합니다. 답변 보류 연구는 불확실성이 높거나 안전하게 답할 수 없는 상황에서 답을 미루는 가치를 다룹니다 [
1][
4].
- 답변 보류를 별도 채점해야 합니다. 정답, 오답, 올바른 답변 보류, 잘못된 답변 보류를 따로 세어야 합니다. 답변 보류 연구는 보류 정확도, 보류 정밀도, 보류 재현율 같은 별도 지표를 정의합니다 [
68].
- 사실 불확실성과 안전 거부를 구분해야 합니다. 위험한 요청을 거부하는 것과, 사실 근거가 부족해 답을 보류하는 것은 다른 행동입니다. I-CALM은 검증 가능한 답이 있는 사실 질문에서의 인식론적 답변 보류에 초점을 맞춥니다 [
54].
- 정답률·오류율·답변 보류율을 함께 보고해야 합니다. OpenAI의 SimpleQA 예시는 답변 보류율이 훨씬 높은 모델이 비슷한 정답률을 보이면서도 오류율은 훨씬 낮을 수 있음을 보여줍니다 [
3].
- 환경을 고정해야 합니다. 검색, 브라우징, 도구 접근, 컨텍스트 길이, 시스템 지시문이 달라지면 결과도 달라집니다. 한 모델에만 추가 근거를 주는 실험은 모델 자체가 아니라 실험 세팅을 비교하는 셈입니다.
FAQ
GPT-5.5 Spud는 실제 모델인가?
제공된 근거 안에서는 공식 OpenAI 모델로 확인되지 않습니다. 공식 OpenAI 자료는 GPT-5, GPT-5 mini, GPT-5.2-Codex, GPT-5.4 프롬프트 가이드를 문서화하고, Spud는 레딧 게시글과 커뮤니티 기능 요청 글에 등장합니다 [7][
8][
10][
23][
25][
26][
28][
29][
45].
Claude Opus 4.7이 GPT-5.5 Spud보다 환각이 적은가?
이 자료만으로는 엄밀하게 답할 수 없습니다. Claude Opus 4.7은 문서화되어 있고 [12][
16], 91.7% MASK 정직성 비율에 대한 2차 보도도 있습니다 [
14]. 하지만 검증된 GPT-5.5 Spud 대상이 없고, 두 이름을 같은 방식으로 채점한 공통 벤치마크도 제공되지 않았습니다 [
7][
8][
10][
28][
68].
기업이나 개발자는 무엇을 비교해야 하나?
Claude Opus 4.7을 비교하려면 공식 문서가 있는 OpenAI 모델과 같은 과제, 같은 도구, 같은 프롬프트, 같은 채점 규칙으로 테스트해야 합니다. 특히 정확도만 보지 말고 오류율과 답변 보류 행동을 함께 봐야 합니다 [3][
68].
핵심 정리
현재 근거로는 ‘Claude 승’ 또는 ‘Spud 승’이라는 환각 결론을 낼 수 없습니다. 말할 수 있는 것은 세 가지입니다. 첫째, Claude Opus 4.7은 공식 문서로 확인됩니다 [12][
16]. 둘째, GPT-5.5 Spud는 제공된 OpenAI 공식 자료에서 확인되지 않습니다 [
23][
25][
26][
29][
45]. 셋째, 환각 통제를 제대로 평가하려면 정답률만이 아니라 오류율과 올바른 답변 보류, 즉 보정된 불확실성을 함께 측정해야 합니다 [
3][
68].




