studioglobal
ค้นพบเทรนด์
คำตอบเผยแพร่แล้ว2 แหล่งที่มา

Anthropic กำลังส่อง “ความคิด” ของ Claude อย่างไร

Anthropic พยายามทำให้การทำงานภายในของ Claude อ่านออกมากขึ้น ด้วยการหา “ฟีเจอร์” ในโมเดลและเชื่อมฟีเจอร์เหล่านั้นเป็น “วงจร” การคำนวณ [9][10] แนวคิดสำคัญคือการตรวจดูการคำนวณที่เปลี่ยนคำถามให้กลายเป็นคำตอบ ไม่ใช่การเปิดอ่านข้อความ chain of thought ลับ ๆ ของโมเดล [9][10] เครื่องมือนี้ช่วยเผยบางส่วนของเส้นทางภายใน Claud...

410
Late 2024, Anthropic published a paper that sent the AI research community into overdrive: they claimed to have located the neural clusters inside Claude responsible for "hidden em
Late 2024, Anthropic published a paper that sent the AI research community into overdrive: they claimed to have located the neural clustersLate 2024, Anthropic published a paper that sent the AI research community into overdrive: they claimed to have located the neural clusters inside Claude responsible for "hidden emotions"—and could artificially activate or suppress them. It's about something more concrete: the internal workings of AI models have finallCan We Finally See Inside AI? Anthropic's Interpretability Research Explained | SmallFireDragon Lab

ถ้าจะเข้าใจสิ่งที่ Anthropic ทำกับ Claude ให้ถูกจุด ควรมองว่าเป็น “โครงการสร้างเครื่องมือวิทยาศาสตร์” มากกว่าการถาม AI ว่า “คิดอะไรอยู่” แล้วเชื่อคำตอบนั้นทันที บริษัทกำลังพัฒนาเครื่องมือด้าน mechanistic interpretability หรือการตีความเชิงกลไก ซึ่ง Anthropic เปรียบเทียบว่าเป็นความคืบหน้าไปสู่ “กล้องจุลทรรศน์” สำหรับ AI เพื่อส่องดูบางส่วนของการคำนวณภายในที่เปลี่ยนคำที่ผู้ใช้ป้อนเข้าไปให้กลายเป็นคำตอบที่ Claude เขียนออกมา [9][10]

ไม่ใช่การค้นหา “บทพูดลับ” ในหัว Claude

เวลาคนพูดถึง “เหตุผลที่ซ่อนอยู่” ของโมเดลภาษา อาจชวนให้นึกว่ามีข้อความลับอีกชุดหนึ่งอยู่ในหัว AI เหมือนสมุดทดในใจ แต่ Anthropic อธิบายว่ากลยุทธ์เหล่านี้ถูกเข้ารหัสอยู่ในการคำนวณนับพันล้านครั้งที่โมเดลทำในทุกคำที่มันเขียน และแม้แต่นักพัฒนาก็ไม่สามารถอ่านได้ตรง ๆ หากไม่มีเครื่องมือเฉพาะ [10]

ดังนั้น เป้าหมายจึงไม่ใช่การหา chain-of-thought ส่วนตัวที่ซ่อนอยู่เป็นย่อหน้า ๆ แต่คือการแปลกิจกรรมบางส่วนในโครงข่ายประสาทของ Claude ให้กลายเป็นโครงสร้างที่นักวิจัยตั้งชื่อ ตรวจสอบ และทดสอบได้ [9][10]

ขั้นแรก: หา “ฟีเจอร์” ภายในโมเดล

งานตีความก่อนหน้าของ Anthropic พยายามค้นหาแนวคิดที่ตีความได้ภายในโมเดล ซึ่งบริษัทเรียกว่า “ฟีเจอร์” [9][10]

พูดให้ง่ายขึ้น ฟีเจอร์คือรูปแบบหนึ่งในกิจกรรมภายในของโมเดล เช่น สัญญาณที่อาจเชื่อมกับแนวคิด ความสามารถ หรือพฤติกรรมบางแบบ แทนที่นักวิจัยจะเห็นเพียงกำแพงตัวเลขจำนวนมหาศาล ฟีเจอร์ทำหน้าที่เหมือน “ด้ามจับ” ที่ช่วยให้หยิบส่วนหนึ่งของการทำงานขึ้นมาศึกษาได้ [9][10]

ขั้นต่อมา: เชื่อมฟีเจอร์เป็น “วงจร”

ก้าวใหม่ที่ Anthropic เน้นคือการเชื่อมฟีเจอร์เหล่านั้นเข้าด้วยกันเป็น “วงจร” ทางการคำนวณ บริษัทอธิบายว่าสิ่งนี้ช่วยเผยบางส่วนของเส้นทางที่เปลี่ยนคำที่เข้าไปใน Claude ให้กลายเป็นคำที่ออกมา [9][10]

เหตุผลที่เรื่องนี้สำคัญคือ พฤติกรรมที่ดูเหมือนการใช้เหตุผลอาจไม่ได้เกิดจากแนวคิดเดี่ยว ๆ เพียงจุดเดียว แต่อาจเกิดจากสายโซ่ของอิทธิพลภายในหลายขั้นตอน การดูวงจรจึงช่วยให้นักวิจัยเห็นความสัมพันธ์ระหว่างส่วนต่าง ๆ ของโมเดล ไม่ใช่แค่ติดป้ายว่า “นี่คือแนวคิด X” แล้วจบ [9]

นำ “กล้องจุลทรรศน์” ไปดูพฤติกรรมจริงของ Claude

ในงานปี 2025 Anthropic นำชุดเครื่องมือนี้ไปใช้กับ Claude 3.5 Haiku โดยศึกษางานง่าย ๆ ที่เป็นตัวแทนของพฤติกรรมสำคัญ 10 ประเภทของโมเดล [9][10]

บริษัทวางกรอบงานนี้ว่าเป็นการมองหา “ชีววิทยาของ AI” หรือกลไกภายในที่ช่วยอธิบายพฤติกรรมของโมเดล แทนที่จะตัดสินจากคำตอบสุดท้ายที่เห็นภายนอกเพียงอย่างเดียว [9][10]

ทำไมการถาม Claude ไม่เท่ากับการเข้าใจ Claude

คำอธิบายที่ Claude เขียนออกมาก็ยังเป็น “ข้อความที่โมเดลสร้างขึ้น” เช่นเดียวกับคำตอบอื่น ๆ แต่โครงการของ Anthropic พยายามแตะไปที่การคำนวณพื้นฐานซึ่งช่วยสร้างคำตอบนั้นตั้งแต่ต้น [9][10]

นี่คือเหตุผลที่การไล่วงจร หรือ circuit tracing มีความหมาย: มันให้วิธีตรวจดูบางส่วนของเส้นทางการคำนวณโดยตรง แทนที่จะพึ่งเฉพาะผลลัพธ์สุดท้าย หรือคำอธิบายผิวหน้าที่โมเดลเล่าเกี่ยวกับตัวเอง [9][10]

สิ่งที่ทำได้ และยังทำไม่ได้

เครื่องมือเหล่านี้ทำให้บางส่วนของภายใน Claude อ่านออกมากขึ้น เช่น ฟีเจอร์ใดดูเกี่ยวข้อง ฟีเจอร์เหล่านั้นเชื่อมกันอย่างไร และเส้นทางใดดูเหมือนมีบทบาทในคำตอบหนึ่ง ๆ [9][10]

แต่กรอบของ Anthropic เองยังระมัดระวัง งานวิจัยเหล่านี้เป็นความคืบหน้าไปสู่ “กล้องจุลทรรศน์” และเผยให้เห็นบางส่วนของเส้นทางภายใน ไม่ใช่เครื่องถอดรหัสสมบูรณ์แบบที่อธิบายทุกการคำนวณใน Claude ได้ครบถ้วน [9][10]

สรุป

Anthropic กำลังทำให้เหตุผลภายในที่มองไม่เห็นของ Claude เข้าใจได้มากขึ้น โดยแปลงกิจกรรมบางส่วนในโครงข่ายประสาทให้เป็นฟีเจอร์ที่ตีความได้ ไล่ดูว่าฟีเจอร์เหล่านั้นทำงานร่วมกันเป็นวงจรอย่างไร และนำวงจรเหล่านี้ไปศึกษากับพฤติกรรมจริงของโมเดล [9][10]

ผลลัพธ์จึงเป็นแผนที่เชิงวิทยาศาสตร์แบบ “บางส่วน” ของการคำนวณภายใน Claude ไม่ใช่บันทึกคำต่อคำที่บอกได้อย่างเชื่อถือได้ว่าโมเดล “คิด” ทุกอย่างอย่างไร [9][10]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

ค้นหาและตรวจสอบข้อเท็จจริงด้วย Studio Global AI

ประเด็นสำคัญ

  • Anthropic พยายามทำให้การทำงานภายในของ Claude อ่านออกมากขึ้น ด้วยการหา “ฟีเจอร์” ในโมเดลและเชื่อมฟีเจอร์เหล่านั้นเป็น “วงจร” การคำนวณ [9][10]
  • แนวคิดสำคัญคือการตรวจดูการคำนวณที่เปลี่ยนคำถามให้กลายเป็นคำตอบ ไม่ใช่การเปิดอ่านข้อความ chain of thought ลับ ๆ ของโมเดล [9][10]
  • เครื่องมือนี้ช่วยเผยบางส่วนของเส้นทางภายใน Claude ได้ แต่ยังไม่ใช่เครื่องถอดรหัสที่อธิบายทุกการคำนวณของโมเดลได้ครบถ้วน [9][10]

สนับสนุนภาพ

# The Sequence Research #525: Anthropic's Recent Journey Into the Mind of Claude. ### A major breakthrough in mechanistic interpretability. Interpretability remains one of the toug
# The Sequence Research #525: Anthropic's Recent Journey Into the Mind of Claude# The Sequence Research #525: Anthropic's Recent Journey Into the Mind of Claude. ### A major breakthrough in mechanistic interpretability. Interpretability remains one of the toughest challenges in frontier AI models. Anthropic is one of the leading labs publishing the frontiers of AI interpretability. In some way, exThe Sequence Research #525: Anthropic's Recent Journey Into the Mind of Claude
# The Sequence Research #525: Anthropic's Recent Journey Into the Mind of Claude. ### A major breakthrough in mechanistic interpretability. Interpretability remains one of the toug
# The Sequence Research #525: Anthropic's Recent Journey Into the Mind of Claude# The Sequence Research #525: Anthropic's Recent Journey Into the Mind of Claude. ### A major breakthrough in mechanistic interpretability. Interpretability remains one of the toughest challenges in frontier AI models. Anthropic is one of the leading labs publishing the frontiers of AI interpretability. In some way, exThe Sequence Research #525: Anthropic's Recent Journey Into the Mind of Claude

คนยังถาม

คำตอบสั้น ๆ สำหรับ "Anthropic กำลังส่อง “ความคิด” ของ Claude อย่างไร" คืออะไร

Anthropic พยายามทำให้การทำงานภายในของ Claude อ่านออกมากขึ้น ด้วยการหา “ฟีเจอร์” ในโมเดลและเชื่อมฟีเจอร์เหล่านั้นเป็น “วงจร” การคำนวณ [9][10]

ประเด็นสำคัญที่ต้องตรวจสอบก่อนคืออะไร?

Anthropic พยายามทำให้การทำงานภายในของ Claude อ่านออกมากขึ้น ด้วยการหา “ฟีเจอร์” ในโมเดลและเชื่อมฟีเจอร์เหล่านั้นเป็น “วงจร” การคำนวณ [9][10] แนวคิดสำคัญคือการตรวจดูการคำนวณที่เปลี่ยนคำถามให้กลายเป็นคำตอบ ไม่ใช่การเปิดอ่านข้อความ chain of thought ลับ ๆ ของโมเดล [9][10]

ฉันควรทำอย่างไรต่อไปในทางปฏิบัติ?

เครื่องมือนี้ช่วยเผยบางส่วนของเส้นทางภายใน Claude ได้ แต่ยังไม่ใช่เครื่องถอดรหัสที่อธิบายทุกการคำนวณของโมเดลได้ครบถ้วน [9][10]

ฉันควรสำรวจหัวข้อที่เกี่ยวข้องใดต่อไป

ดำเนินการต่อด้วย "Zyphra ZAYA1-8B: ทำไมโมเดล AI ที่ใช้พารามิเตอร์จริงแค่ 760 ล้านจึงน่าจับตา" เพื่อดูอีกมุมหนึ่งและการอ้างอิงเพิ่มเติม

เปิดหน้าที่เกี่ยวข้อง

ฉันควรเปรียบเทียบสิ่งนี้กับอะไร?

ตรวจสอบคำตอบนี้กับ "คำเตือนปี 2028 ของ Jack Clark: เมื่อ AI อาจสร้างรุ่นถัดไปเอง"

เปิดหน้าที่เกี่ยวข้อง

ทำการวิจัยต่อ

แหล่งที่มา

  • [9] Multi-Step Reasoninganthropic.com

    Mar 27, 2025 ... Today, we're sharing two new papers that represent progress on the development of the "microscope", and the application of it to see new "AI biology". In the first paper, we extend our prior work locating interpretable concepts ("features")...

  • [10] Tracing the thoughts of a large language modelanthropic.com

    These strategies are encoded in the billions of computations a model performs for every word it writes. They arrive inscrutable to us, the model’s developers. ... Today, we're sharing two new papers that represent progress on the development of the "microsc...