답변게시됨2개월 전Last edited 지난달19 소스

ChatGPT ‘안전 요약’ 기능이 민감한 대화 속 위험 신호를 포착하는 방식

OpenAI는 ChatGPT가 여러 메시지에 걸쳐 나타나는 위험 신호를 감지하도록 ‘Safety Summaries’라는 임시 안전 요약 기능을 도입했다. 이 요약은 전체 대화를 저장하는 대신 자해, 정서적 위기, 폭력 가능성 등 안전 관련 신호만 제한적으로 기록한다.

왜 ChatGPT 안전 시스템이 바뀌었나

기존의 AI 안전 시스템은 대부분 사용자의 메시지를 한 번에 하나씩 평가하는 방식으로 작동했다. 이런 구조는 특정 메시지에 명확한 위험 의도가 드러날 때는 잘 작동하지만, 실제 상황에서 발생하는 많은 위험은 그렇게 단순하지 않다.

특히 정신 건강 위기나 자해 관련 상황은 긴 대화 과정에서 서서히 드러나는 경우가 많다. 초기에는 단순한 스트레스나 피로에 대한 이야기로 시작했다가, 여러 메시지를 거치면서 심각한 감정적 고통이나 위험 신호가 나타날 수 있다.

이처럼 맥락이 쌓여야 의미가 드러나는 경우, 메시지를 각각 독립적으로 평가하는 시스템은 위험을 제대로 파악하지 못할 수 있다.

이 문제를 해결하기 위해 OpenAI는 ChatGPT에 대화 전체 흐름을 고려하는 안전 감지 방식을 도입했고, 그 핵심 기능이 바로 ‘안전 요약(Safety Summaries)’이다.

안전 요약은 특정 대화에서 생성되는 짧은 시스템 메모 형태의 요약이다. 이 메모는 전체 대화를 저장하는 것이 아니라, 안전과 관련된 신호만 간단히 기록한다.

이를 통해 ChatGPT는 새로운 메시지를 볼 때 이전 대화에서 나타난 위험 신호와 함께 해석할 수 있다.

주요 특징은 다음과 같다.

Studio Global AI

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

OpenAI는 ChatGPT가 여러 메시지에 걸쳐 나타나는 위험 신호를 감지하도록 ‘Safety Summaries’라는 임시 안전 요약 기능을 도입했다.

170명 이상의 정신건강 전문가와 협력해 개발된 업데이트로, 장기 대화에서의 위험 감지와 대응을 개선하는 것이 목표다.