ถ้าจะเข้าใจสิ่งที่ Anthropic ทำกับ Claude ให้ถูกจุด ควรมองว่าเป็น “โครงการสร้างเครื่องมือวิทยาศาสตร์” มากกว่าการถาม AI ว่า “คิดอะไรอยู่” แล้วเชื่อคำตอบนั้นทันที บริษัทกำลังพัฒนาเครื่องมือด้าน mechanistic interpretability หรือการตีความเชิงกลไก ซึ่ง Anthropic เปรียบเทียบว่าเป็นความคืบหน้าไปสู่ “กล้องจุลทรรศน์” สำหรับ AI เพื่อส่องดูบางส่วนของการคำนวณภายในที่เปลี่ยนคำที่ผู้ใช้ป้อนเข้าไปให้กลายเป็นคำตอบที่ Claude เขียนออกมา [9][
10]
ไม่ใช่การค้นหา “บทพูดลับ” ในหัว Claude
เวลาคนพูดถึง “เหตุผลที่ซ่อนอยู่” ของโมเดลภาษา อาจชวนให้นึกว่ามีข้อความลับอีกชุดหนึ่งอยู่ในหัว AI เหมือนสมุดทดในใจ แต่ Anthropic อธิบายว่ากลยุทธ์เหล่านี้ถูกเข้ารหัสอยู่ในการคำนวณนับพันล้านครั้งที่โมเดลทำในทุกคำที่มันเขียน และแม้แต่นักพัฒนาก็ไม่สามารถอ่านได้ตรง ๆ หากไม่มีเครื่องมือเฉพาะ [10]
ดังนั้น เป้าหมายจึงไม่ใช่การหา chain-of-thought ส่วนตัวที่ซ่อนอยู่เป็นย่อหน้า ๆ แต่คือการแปลกิจกรรมบางส่วนในโครงข่ายประสาทของ Claude ให้กลายเป็นโครงสร้างที่นักวิจัยตั้งชื่อ ตรวจสอบ และทดสอบได้ [9][
10]
ขั้นแรก: หา “ฟีเจอร์” ภายในโมเดล
งานตีความก่อนหน้าของ Anthropic พยายามค้นหาแนวคิดที่ตีความได้ภายในโมเดล ซึ่งบริษัทเรียกว่า “ฟีเจอร์” [9][
10]
พูดให้ง่ายขึ้น ฟีเจอร์คือรูปแบบหนึ่งในกิจกรรมภายในของโมเดล เช่น สัญญาณที่อาจเชื่อมกับแนวคิด ความสามารถ หรือพฤติกรรมบางแบบ แทนที่นักวิจัยจะเห็นเพียงกำแพงตัวเลขจำนวนมหาศาล ฟีเจอร์ทำหน้าที่เหมือน “ด้ามจับ” ที่ช่วยให้หยิบส่วนหนึ่งของการทำงานขึ้นมาศึกษาได้ [9][
10]
ขั้นต่อมา: เชื่อมฟีเจอร์เป็น “วงจร”
ก้าวใหม่ที่ Anthropic เน้นคือการเชื่อมฟีเจอร์เหล่านั้นเข้าด้วยกันเป็น “วงจร” ทางการคำนวณ บริษัทอธิบายว่าสิ่งนี้ช่วยเผยบางส่วนของเส้นทางที่เปลี่ยนคำที่เข้าไปใน Claude ให้กลายเป็นคำที่ออกมา [9][
10]
เหตุผลที่เรื่องนี้สำคัญคือ พฤติกรรมที่ดูเหมือนการใช้เหตุผลอาจไม่ได้เกิดจากแนวคิดเดี่ยว ๆ เพียงจุดเดียว แต่อาจเกิดจากสายโซ่ของอิทธิพลภายในหลายขั้นตอน การดูวงจรจึงช่วยให้นักวิจัยเห็นความสัมพันธ์ระหว่างส่วนต่าง ๆ ของโมเดล ไม่ใช่แค่ติดป้ายว่า “นี่คือแนวคิด X” แล้วจบ [9]
นำ “กล้องจุลทรรศน์” ไปดูพฤติกรรมจริงของ Claude
ในงานปี 2025 Anthropic นำชุดเครื่องมือนี้ไปใช้กับ Claude 3.5 Haiku โดยศึกษางานง่าย ๆ ที่เป็นตัวแทนของพฤติกรรมสำคัญ 10 ประเภทของโมเดล [9][
10]
บริษัทวางกรอบงานนี้ว่าเป็นการมองหา “ชีววิทยาของ AI” หรือกลไกภายในที่ช่วยอธิบายพฤติกรรมของโมเดล แทนที่จะตัดสินจากคำตอบสุดท้ายที่เห็นภายนอกเพียงอย่างเดียว [9][
10]
ทำไมการถาม Claude ไม่เท่ากับการเข้าใจ Claude
คำอธิบายที่ Claude เขียนออกมาก็ยังเป็น “ข้อความที่โมเดลสร้างขึ้น” เช่นเดียวกับคำตอบอื่น ๆ แต่โครงการของ Anthropic พยายามแตะไปที่การคำนวณพื้นฐานซึ่งช่วยสร้างคำตอบนั้นตั้งแต่ต้น [9][
10]
นี่คือเหตุผลที่การไล่วงจร หรือ circuit tracing มีความหมาย: มันให้วิธีตรวจดูบางส่วนของเส้นทางการคำนวณโดยตรง แทนที่จะพึ่งเฉพาะผลลัพธ์สุดท้าย หรือคำอธิบายผิวหน้าที่โมเดลเล่าเกี่ยวกับตัวเอง [9][
10]
สิ่งที่ทำได้ และยังทำไม่ได้
เครื่องมือเหล่านี้ทำให้บางส่วนของภายใน Claude อ่านออกมากขึ้น เช่น ฟีเจอร์ใดดูเกี่ยวข้อง ฟีเจอร์เหล่านั้นเชื่อมกันอย่างไร และเส้นทางใดดูเหมือนมีบทบาทในคำตอบหนึ่ง ๆ [9][
10]
แต่กรอบของ Anthropic เองยังระมัดระวัง งานวิจัยเหล่านี้เป็นความคืบหน้าไปสู่ “กล้องจุลทรรศน์” และเผยให้เห็นบางส่วนของเส้นทางภายใน ไม่ใช่เครื่องถอดรหัสสมบูรณ์แบบที่อธิบายทุกการคำนวณใน Claude ได้ครบถ้วน [9][
10]
สรุป
Anthropic กำลังทำให้เหตุผลภายในที่มองไม่เห็นของ Claude เข้าใจได้มากขึ้น โดยแปลงกิจกรรมบางส่วนในโครงข่ายประสาทให้เป็นฟีเจอร์ที่ตีความได้ ไล่ดูว่าฟีเจอร์เหล่านั้นทำงานร่วมกันเป็นวงจรอย่างไร และนำวงจรเหล่านี้ไปศึกษากับพฤติกรรมจริงของโมเดล [9][
10]
ผลลัพธ์จึงเป็นแผนที่เชิงวิทยาศาสตร์แบบ “บางส่วน” ของการคำนวณภายใน Claude ไม่ใช่บันทึกคำต่อคำที่บอกได้อย่างเชื่อถือได้ว่าโมเดล “คิด” ทุกอย่างอย่างไร [9][
10]






