OpenAI의 안전·정렬 설명에는 반복적 배포, 실제 환경에서의 위협 이해, 배포 후 지속 모니터링 등이 포함됩니다. OpenAI의 외부 레드팀 관련 문서도 있습니다. 이 문서는 레드팀 참여자가 때로는 배포 전 모델이나 스냅샷에 접근할 수 있다고 설명하면서도, 후속 훈련이 적용되지 않은 스냅샷은 대체로 최종 프로덕션 모델의 안전성 프로필을 대표하지 않는다고 주의합니다.
이 대목이 중요합니다. 초기 테스트, 내부 코드명, 배포 전 스냅샷에 관한 이야기가 있더라도 모델 버전, 테스트 범위, 배포 상태가 분명히 공개되지 않으면 공식 출시 모델의 안전성 결론으로 바로 연결할 수 없습니다.
GPT-5에 대해서는 공개 안전 자료가 비교적 분명합니다. OpenAI의 GPT-5 System Card 페이지는 GPT-5 모델들이 금지 콘텐츠를 방지하기 위한 safe-completions 방식을 포함한다고 설명합니다. OpenAI Deployment Safety Hub의 GPT-5 페이지도 gpt-5-thinking, gpt-5-main 등 관련 평가와 배포 안전 자료를 제시합니다.
arXiv에 공개된 GPT-5 System Card 요약에는 Microsoft AI Red Team이 gpt-5-thinking을 OpenAI 모델 가운데 가장 강한 축의 AI 안전성 프로필을 보인 모델 중 하나로 평가했다는 내용도 있습니다.
그러나 이 자료들의 직접 대상은 GPT-5, gpt-5-thinking, gpt-5-main 또는 GPT-5 계열에 명시된 모델입니다. 현재 제공된 자료에서는 GPT-5.5 Spud를 직접 이름으로 언급하거나 OpenAI가 Spud를 이 문서들과 연결해 설명한 근거를 찾기 어렵습니다. 따라서 GPT-5 시스템 카드를 Spud의 안전성 증거로 자동 간주해서는 안 됩니다.
이번 자료 묶음에서 Spud는 주로 비공식 또는 2차 자료에 등장합니다. 예를 들어 GPT-5.5 Spud를 설명하거나 유출됐다고 주장하는 유튜브 영상, Reddit·Facebook 사용자 게시물, OpenAI가 2026년 5월 1일 전 GPT-5.4를 넘는 프런티어 모델을 발표할지 묻는 Manifold 예측시장, 그리고 출시 시기·사전학습·라이브 테스트·성능 추정·최종 안전 검토 진입 등을 다루는 블로그나 기사형 글들이 있습니다.
이런 자료는 시장의 소문과 관심 흐름을 추적하는 데는 쓸 수 있습니다. 하지만 “정식 안전성 평가가 공개됐다”는 답을 주지는 못합니다. 어떤 글의 제목이 GPT-5.5 Spud 출시나 최종 안전 검토를 주장하더라도, 공개된 테스트 방법, 모델 버전, 위험 분류, 레드팀 결과, 공식 안전성 결론이 없다면 검증 가능한 Spud 전용 안전 문서라고 보기 어렵습니다.
일부 자료는 실제로 OpenAI 모델 안전 테스트를 다룹니다. 하지만 대상이 GPT-5.5 Spud가 아닙니다. Promptfoo와 SPLX의 자료는 GPT-5 레드팀 또는 보안 테스트를 다룹니다. Kaggle의 OpenAI gpt-oss-20b Red-Teaming Challenge와 관련 정리는 gpt-oss-20b 안전성 평가를 대상으로 합니다.
이 자료들은 AI 레드팀이 어떤 방식으로 이뤄지는지 이해하는 데 도움이 됩니다. 그러나 Spud가 공개 전 안전성 평가를 받았다는 증거가 되려면, 문서가 GPT-5.5 Spud를 직접 지칭하거나 공식 문서가 두 모델 사이의 적용 관계를 명확히 밝혀야 합니다.
다음 중 하나라도 공개되면 판단은 업데이트돼야 합니다.
그 전까지는 “OpenAI가 일반적으로 레드팀 절차를 갖고 있다”는 사실을 “Spud가 공개 전 레드팀 테스트를 통과했다”로 바꿔 쓰는 것은 과도한 추론입니다. 더 정확한 표현은 이렇습니다.
OpenAI는 공개된 일반 안전·정렬·레드팀 절차를 갖고 있고, GPT-5에는 시스템 카드와 배포 안전 자료가 있다. 그러나 GPT-5.5 Spud에 대해서는 현재 확인 가능한 공개 자료만으로는 해당 모델을 직접 다룬 안전성 평가, 레드팀 테스트, 정렬 증거가 공개됐다고 보기 어렵다.
즉 결론은 insufficient public evidence, 공개 증거 부족입니다. 이는 OpenAI가 내부적으로 비공개 평가를 하지 않았다는 뜻은 아닙니다. 다만 공개되지 않은 내부 작업은 공개적으로 인용 가능한 증거로 취급할 수 없습니다.
Comments
0 comments