studioglobal
熱門探索內容
答案已發布2 個來源

Claude 不是有本祕密筆記:Anthropic 正在追蹤它的內部計算

Anthropic 把 Claude 的可解釋性研究視為打造 AI「顯微鏡」:將內部神經活動轉成可命名的「特徵」,再追蹤它們如何連成「電路」[9][10]。 重點不是找到一份隱藏的 chain of thought 逐字稿,而是檢查提示文字如何經由大量內部計算變成回覆 [9][10]。

410
Late 2024, Anthropic published a paper that sent the AI research community into overdrive: they claimed to have located the neural clusters inside Claude responsible for "hidden em
Late 2024, Anthropic published a paper that sent the AI research community into overdrive: they claimed to have located the neural clustersLate 2024, Anthropic published a paper that sent the AI research community into overdrive: they claimed to have located the neural clusters inside Claude responsible for "hidden emotions"—and could artificially activate or suppress them. It's about something more concrete: the internal workings of AI models have finallCan We Finally See Inside AI? Anthropic's Interpretability Research Explained | SmallFireDragon Lab

把 Claude 的「隱藏推理」想像成模型裡藏著一篇草稿,會有點誤導。Anthropic 的做法更像是在造一台研究儀器:一組機制可解釋性工具,被它形容為朝 AI「顯微鏡」前進,用來觀察模型如何把輸入文字轉成輸出文字的部分內部計算 [9][10]

先釐清:這不是讀心術

Claude 寫出的理由,本身也是生成文字。Anthropic 關心的是產生這些文字背後的運算:公司指出,模型每寫出一個字,都牽涉數十億次計算,而這些策略即使對開發者也並不透明 [10]

因此,目標不是挖出一段私密的 chain-of-thought 逐字稿,而是把部分神經活動轉譯成研究者能命名、檢查、測試的結構 [9][10]

第一步:找出「特徵」

Anthropic 先前的可解釋性工作,會在模型內部尋找可解讀的概念,稱為 features(特徵)[9][10]。用白話說,特徵就是模型活化值中的某種可辨識模式:它可能對應到一個概念或能力,讓研究者有一個可操作的把手,而不是只面對一大片難以理解的數字 [9][10]

第二步:把特徵連成「電路」

更新的一步,是把這些特徵連成 computational circuits(計算電路)[9][10]。Anthropic 表示,這能揭露 Claude 從輸入文字走向輸出文字時,部分內部路徑是如何形成的 [9][10]

這點重要,是因為類似推理的行為通常不只是一個概念被標籤出來而已;它更可能牽涉一連串內部影響與計算步驟 [9]

第三步:拿來觀察真實的 Claude 行為

在 2025 年的工作中,Anthropic 將這套工具用於 Claude 3.5 Haiku,研究一些簡單任務;這些任務代表十項重要的模型行為 [9][10]。公司把這種方向稱為尋找「AI biology」:不是只從外部看最後答案對不對,而是試著找出能解釋模型行為的內部機制 [9][10]

為什麼不能只問 Claude「你怎麼想」?

對使用者來說,最自然的方法可能是直接請 Claude 解釋。但模型的解釋仍然是輸出的一部分;Anthropic 的 circuit tracing,則是試著檢查產生答案的部分計算路徑 [9][10]

換句話說,這不是把表面文字說得更漂亮,而是讓研究者能更接近「提示如何被處理、哪些內部結構參與回覆」這類問題 [9][10]

現在看得到什麼?又看不到什麼?

這些工具可以讓 Claude 的部分內部運作變得更可讀:哪些特徵看起來相關、它們如何連成電路、哪些路徑似乎參與了某次回應 [9][10]

但 Anthropic 的說法仍相當謹慎。這些論文代表的是朝向「顯微鏡」的進展,能揭露部分路徑;它們還不是一個可以把 Claude 所有計算完整翻譯成人類語言的解碼器 [9][10]

重點一句話

Anthropic 正在做的,是把 Claude 的部分神經活動轉成可解釋的特徵,再追蹤這些特徵如何互動成電路,藉此研究具體模型行為 [9][10]。這是一張局部的科學地圖,不是一份完整、可靠的「模型內心獨白」逐字稿 [9][10]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查證事實

重點整理

  • Anthropic 把 Claude 的可解釋性研究視為打造 AI「顯微鏡」:將內部神經活動轉成可命名的「特徵」,再追蹤它們如何連成「電路」[9][10]。
  • 重點不是找到一份隱藏的 chain of thought 逐字稿,而是檢查提示文字如何經由大量內部計算變成回覆 [9][10]。
  • 目前工具能揭露 Claude 部分內部路徑與選定行為,但不能完整解碼模型每一次運算 [9][10]。

輔助視覺素材

# The Sequence Research #525: Anthropic's Recent Journey Into the Mind of Claude. ### A major breakthrough in mechanistic interpretability. Interpretability remains one of the toug
# The Sequence Research #525: Anthropic's Recent Journey Into the Mind of Claude# The Sequence Research #525: Anthropic's Recent Journey Into the Mind of Claude. ### A major breakthrough in mechanistic interpretability. Interpretability remains one of the toughest challenges in frontier AI models. Anthropic is one of the leading labs publishing the frontiers of AI interpretability. In some way, exThe Sequence Research #525: Anthropic's Recent Journey Into the Mind of Claude
# The Sequence Research #525: Anthropic's Recent Journey Into the Mind of Claude. ### A major breakthrough in mechanistic interpretability. Interpretability remains one of the toug
# The Sequence Research #525: Anthropic's Recent Journey Into the Mind of Claude# The Sequence Research #525: Anthropic's Recent Journey Into the Mind of Claude. ### A major breakthrough in mechanistic interpretability. Interpretability remains one of the toughest challenges in frontier AI models. Anthropic is one of the leading labs publishing the frontiers of AI interpretability. In some way, exThe Sequence Research #525: Anthropic's Recent Journey Into the Mind of Claude

大家也會問

「Claude 不是有本祕密筆記:Anthropic 正在追蹤它的內部計算」的簡短答案是什麼?

Anthropic 把 Claude 的可解釋性研究視為打造 AI「顯微鏡」:將內部神經活動轉成可命名的「特徵」,再追蹤它們如何連成「電路」[9][10]。

最值得優先驗證的重點是什麼?

Anthropic 把 Claude 的可解釋性研究視為打造 AI「顯微鏡」:將內部神經活動轉成可命名的「特徵」,再追蹤它們如何連成「電路」[9][10]。 重點不是找到一份隱藏的 chain of thought 逐字稿,而是檢查提示文字如何經由大量內部計算變成回覆 [9][10]。

接下來在實務上該怎麼做?

目前工具能揭露 Claude 部分內部路徑與選定行為,但不能完整解碼模型每一次運算 [9][10]。

下一步適合探索哪個相關主題?

繼續閱讀「ZAYA1-8B 的意義:AI 競賽不只比誰模型最大」,從另一個角度查看更多引用來源。

開啟相關頁面

我應該拿這個和什麼比較?

將這個答案與「Jack Clark 的 2028 AI 警告:當 AI 可能開始打造自己的下一代」交叉比對。

開啟相關頁面

繼續深入研究

來源

  • [9] Multi-Step Reasoninganthropic.com

    Mar 27, 2025 ... Today, we're sharing two new papers that represent progress on the development of the "microscope", and the application of it to see new "AI biology". In the first paper, we extend our prior work locating interpretable concepts ("features")...

  • [10] Tracing the thoughts of a large language modelanthropic.com

    These strategies are encoded in the billions of computations a model performs for every word it writes. They arrive inscrutable to us, the model’s developers. ... Today, we're sharing two new papers that represent progress on the development of the "microsc...