هنا تبدأ الخريطة: لا يكتفي الباحثون بسؤال «ماذا قال Claude؟»، بل يحاولون معرفة أي مفاهيم داخلية أصبحت نشطة أثناء توليد تلك الإجابة .
الخطوة الأحدث هي وصل هذه الميزات ضمن «دوائر» حسابية. تصف Anthropic هذا العمل بأنه امتداد لتفسير الميزات، بحيث يكشف أجزاء من المسار الذي يحوّل الكلمات الداخلة إلى Claude إلى الكلمات الخارجة منه .
هذا الفارق جوهري. وجود ميزة واحدة قد يخبرنا أن مفهومًا ما حاضر داخل النموذج، لكن الدائرة تساعد على فهم كيف تؤثر عدة مكونات داخلية في بعضها أثناء إنتاج الرد . وعندما نتحدث عن سلوك يبدو شبيهًا بالاستدلال، يصبح المسار نفسه مهمًا بقدر أهمية المفاهيم المنفردة.
في مارس/آذار 2025، قالت Anthropic إنها تشارك ورقتين بحثيتين: الأولى توسّع عملها من مستوى الميزات إلى تتبع الدوائر، والثانية تطبق مجموعة الأدوات على Claude 3.5 Haiku . وفي دراسة Claude 3.5 Haiku، نظر الباحثون في مهام بسيطة تمثل عشرة سلوكيات مهمة للنموذج، ضمن إطار وصفته الشركة بدراسة «بيولوجيا الذكاء الاصطناعي»
.
تعبير «بيولوجيا الذكاء الاصطناعي» هنا لا يعني أن النموذج كائن حي، بل يشير إلى نوع الفهم الذي تسعى إليه Anthropic: بدل تقييم Claude من الخارج فقط، مثل فحص صحة الإجابة أو طلاقتها أو أمانها، تحاول الشركة تحديد آليات داخلية تساعد على تفسير سبب تصرف النموذج بطريقة معينة .
أي شرح يكتبه Claude يظل نصًا مولدًا. أما عمل Anthropic فيستهدف الحسابات الكامنة التي تساعد أصلًا على إنتاج هذا النص .
لهذا يُعد تتبع الدوائر نوعًا مختلفًا من الأدلة. إنه ليس مطالبة للنموذج بأن يروي لنا «كيف فكّر»، بل محاولة لفحص أجزاء من الطريق الحسابي مباشرة، باستخدام أدوات تترجم النشاط العصبي الاصطناعي إلى بنى أكثر قابلية للقراءة البشرية .
يمكن لهذا النهج أن يجعل بعض ما يجري داخل Claude أوضح: ما الميزات التي تبدو ذات صلة، كيف ترتبط ببعضها، وأي مسارات قد تكون مشاركة في إنتاج الرد . كما يمنح الباحثين طريقة لمقارنة السلوك الظاهر للنموذج مع آلياته الداخلية، بدل الاعتماد على المخرجات النهائية وحدها
.
لكن صياغة Anthropic نفسها حذرة. فالأبحاث تُقدَّم بوصفها تقدمًا نحو «مجهر» للذكاء الاصطناعي، وبوصفها تكشف «أجزاء» من الطريق بين كلمات الإدخال وكلمات الإخراج . لذلك لا ينبغي التعامل مع هذه الأدوات كأنها مفكّك شفرة كامل لكل عملية حسابية داخل Claude، ولا كأنها نص موثوق بكل ما «يفكر» فيه النموذج داخليًا
.
تحاول Anthropic جعل الاستدلال الداخلي الخفي في Claude أكثر قابلية للفهم عبر ثلاث طبقات: ترجمة بعض التنشيطات الداخلية إلى ميزات مفهومة، تتبع تفاعل هذه الميزات داخل دوائر حسابية، ثم تطبيق الخريطة على سلوكيات محددة للنموذج . والنتيجة حتى الآن ليست قراءة للعقل ولا تفسيرًا كاملًا لكل إجابة، بل خريطة علمية جزئية لما يحدث داخل النموذج
.
Comments
0 comments