答案已發布2 個月前Last edited 上個月19 來源

ChatGPT「安全摘要」點樣識別逐步升級嘅風險對話

OpenAI 為 ChatGPT 加入臨時「安全摘要」，令系統可以跨多段對話識別逐步升級嘅風險訊號，例如自殘或情緒危機。[1][2] 安全摘要只保留與安全相關嘅有限上下文，並非長期記憶或完整對話紀錄。[1][2] 更新由超過170名心理健康專家提供意見，目標係改善 AI 在敏感或危機對話中的回應方式。[21]

使用 Studio Global AI 搜尋並查核事實瀏覽更多熱門頁面

Concept illustration of AI monitoring conversation context to detect safety risks over time — OpenAI’s New ChatGPT Safety System: How “Safety Summaries” Detect Risk Across ConversationsNew safety systems in ChatGPT analyze patterns across conversations to detect escalating risk signals.
AI 提示
Create a landscape editorial hero image for this Studio Global article: OpenAI’s New ChatGPT Safety System: How “Safety Summaries” Detect Risk Across Conversations. Article summary: OpenAI updated ChatGPT so it can detect risks that emerge gradually during conversations by using temporary “safety summaries” that carry forward only safety‑relevant signals.. Topic tags: openai, chatgpt, ai safety, mental health, responsible ai. Reference image context from search candidates: Reference image 1: visual subject "OpenAI says the update uses narrowly scoped safety summaries to preserve earlier safety-relevant context, improving safe responses when risk" source context "OpenAI adds safety summaries so ChatGPT can recognize risk across sensitive conversations - NG Tech LLC" Reference image 2: visual subject "A digital display features the text “OpenAI’s ChatGPT Health Tools Ignite Privacy and Saf
openai.com

以往大部分 AI 安全系統都係逐條訊息去判斷風險——即係每一句用戶輸入都獨立評估。但現實世界入面，唔少高風險情況（尤其係心理健康危機）其實係慢慢喺長對話入面浮現。

為咗補足呢個漏洞，OpenAI 為 ChatGPT 引入一個新機制：臨時「安全摘要」（safety summaries）。呢個功能可以保留少量同安全相關嘅對話背景，幫助系統理解整段對話嘅發展，從而更早識別升級風險。

點解 ChatGPT 嘅安全系統需要更新

傳統內容審核流程通常係逐條訊息分析。當用戶直接表達危險意圖，例如明確講想傷害自己，呢種方法係有效嘅。

但問題係——好多危險訊號唔會一次過講清楚。

研究同內部安全分析顯示，一些敏感對話會慢慢演變：

一開始可能只係講壓力或疲倦
之後變成情緒低落
最後先透露嚴重心理困擾

如果系統只睇單一訊息，就可能錯過之前嘅警號，甚至誤判情況嚴重性。

因此 OpenAI 今次更新嘅核心目標係：

將安全判斷由「單條訊息」提升到「整段對話層級」。

乜嘢係「安全摘要」

安全摘要係由系統自動生成嘅簡短筆記，用嚟記錄對話入面可能同安全風險相關嘅訊號。

同保存完整聊天紀錄唔同，安全摘要只會記錄有限而且與安全相關嘅內容。

呢啲摘要可以幫模型理解新訊息同之前對話之間嘅關係，例如：

之前曾經提及情緒困擾
對話逐漸出現更危險嘅內容

安全摘要有幾個重要特點

範圍有限：只記錄同安全相關嘅訊號，而唔係整段對話。
臨時性質：唔係長期記憶，亦唔用作個人化資料。
用於模式識別：幫助系統識別跨多輪對話逐漸升級嘅風險。

簡單講，目標係保留足夠上下文去判斷安全，但又避免保存完整聊天紀錄。

乜情況下會生成安全摘要

當系統偵測到某些可能代表風險升高嘅訊號時，就可能會生成安全摘要。

報導提到嘅常見觸發情況包括：

自殺或自殘相關討論
明顯情緒困擾或心理危機
逐漸升級嘅危險意圖
潛在暴力行為

一旦出現呢啲訊號，ChatGPT 之後嘅回應就可以參考摘要，理解整段對話背景，再採取更安全嘅回應策略。

系統主要想防範嘅風險

呢次更新最主要針對嘅領域係心理健康相關安全。

OpenAI 嘅整體目標包括改善 ChatGPT 喺以下情況嘅表現：

識別情緒困擾
將敏感對話降溫（de‑escalation）
適當時引導用戶尋求現實世界支援

為咗設計更合適嘅回應方式，OpenAI 同 超過170名心理健康專家合作，共同定義在危機情境下 AI 應該點樣回應。

安全設計同時亦針對其他長時間 AI 互動可能帶嚟嘅風險，例如：

自殘討論
對 AI 產生過度情感依賴
對話逐步走向危險行為

呢些情況都係近年 AI 安全研究特別關注嘅問題。

有冇證據顯示回應更安全？

OpenAI 表示，更新後嘅 ChatGPT 模型喺識別情緒困擾同危機對話方面表現有所改善。

部分相關報告指出，在與臨床專家合作訓練之後，模型在測試環境中不符合安全預期的回應減少約 65% 至 80%。

不過需要注意：

公開資料通常只提供概括結果
詳細評估方法或完整測試數據未必完全公開

因此外界仍然難以全面評估改進幅度。

點解教育界特別關注呢個更新

對學校、大學同教育科技平台嚟講，呢個更新其實幾關鍵。

原因好簡單：學生風險通常唔會喺一句說話入面出現。

學生同 AI 聊天可能持續幾十分鐘甚至幾日，情緒或危險訊號往往係逐步出現。

如果系統只逐條訊息分析，就可能錯過以下情況：

情緒壓力逐漸升高
潛在自殘風險
行為意圖慢慢變得危險

具備「對話層級」安全判斷能力，可以減少長時間互動時出現不安全回應嘅機會——而呢正正係聊天機器人過去較容易出問題嘅地方。

當然，AI 安全機制只係其中一層保護。真正有效嘅學生保障仍然需要：

清晰校內政策
教職員培訓
危機通報與支援流程

AI 安全設計嘅一個新方向

安全摘要嘅推出，其實反映咗 AI 安全策略一個更大嘅轉變。

過去重點係監控單一訊息；而未來嘅方向係分析整體互動模式。

因為現實世界嘅人類對話同風險發展，本來就係一個持續過程。

OpenAI 表示，AI 安全並唔係一次性設計，而係一個持續流程，包括模型訓練、評估、部署監察，以及推出後持續改進。

隨住聊天型 AI 越來越廣泛應用喺教育、工作同日常生活，能夠理解長對話模式嘅安全系統，很可能會成為負責任 AI 部署嘅基本要求。

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查核事實

人們還問