هنا يجب الانتباه إلى نقطة مهمة: المتاح في هذه المصادر هو تلخيص لمنشورات مستخدم، وليس تدقيقًا مستقلًا رسميًا للتجربة. لذلك الأفضل التعامل مع القصة بوصفها إشارة مبكرة، لا معيارًا حاسمًا لأداء وكلاء الذكاء الاصطناعي . ومع ذلك، فهي تنقل النقاش من سؤال: هل يستطيع الذكاء الاصطناعي كتابة كود؟ إلى سؤال أدق: هل يستطيع إكمال مسار عمل حقيقي تُراجعه جهة خارجية؟
من زاوية الدخل، المثال ضعيف: 16.88 دولارًا مقابل نحو 22 ساعة يعني أقل من دولار واحد في الساعة وفق الأرقام المتداولة . لكنه يصبح أكثر لفتًا إذا نظرنا إليه كحلقة عمل مكتملة.
الحلقة التي تصفها التقارير تضم أربع قدرات عملية:
هذا هو الفرق العملي بين مساعد برمجي ووكيل أقرب إلى «عامل رقمي». المساعد قد يكتب لك تصحيحًا مقترحًا. أما الوكيل فيحاول المرور بالخطوات المحيطة التي تجعل التصحيح معترفًا به: مراجعة، تواصل، تحقق، وربما دفع.
تصف OpenAI أداة Codex بأنها وكيل هندسة برمجيات سحابي قادر على العمل على عدة مهام بالتوازي، وتقول إن المستخدمين يستطيعون التحقق من عمله عبر الاستشهادات، وسجلات الطرفية، ونتائج الاختبارات . هذه الخصائص تناسب البرمجة تحديدًا، لأن كثيرًا من العمل البرمجي يمكن اختباره، ومراجعته، والتراجع عنه، ودمجه بصورة منظمة.
أما الأمن السيبراني فيضيف معيارًا أوضح للنجاح: العثور على مشكلة، إثبات أثرها، أو إصلاح ثغرة، ثم انتظار مراجعة النتيجة. وفي هذا السياق، يقدم إطار BountyBench البحثي طريقة لتقييم وكلاء الذكاء الاصطناعي في الأمن السيبراني عبر مهام Detect وExploit وPatch على 25 نظامًا ذات قواعد كود واقعية ومعقدة . كما يصف مصدر آخر من BountyBench أربعين مكافأة ثغرات بقيم مالية تتراوح بين 10 دولارات و30,485 دولارًا، وتغطي تسع فئات من قائمة OWASP Top 10، وهي قائمة معروفة لأبرز مخاطر تطبيقات الويب
.
هذا يجعل قصة Codex أكثر من مجرد حكاية رائجة على الشبكات الاجتماعية. فالباحثون بدأوا فعلًا قياس أداء الوكلاء بلغة قريبة من العمل الأمني الحقيقي: ثغرات تُكتشف، استغلال يُثبت، رقع تُنتج، وأثر مالي يُقدّر .
لا تثبت هذه الواقعة أن وكلاء الذكاء الاصطناعي المستقلين جاهزون لاستبدال المطورين أو باحثي الأمن أو العاملين المعرفيين عمومًا. نحن أمام حالة واحدة مروية، ومبلغ صغير، ومصادر لا تكشف كامل التكلفة، أو معدل الفشل، أو قابلية تكرار النتيجة .
كما أن نتائج المعايير البحثية تشير إلى قدرات غير متساوية. أحد ملخصات BountyBench يذكر أن OpenAI Codex CLI حقق 90% في مهام Patch، أي تصحيح ثغرة محددة، لكنه حقق 5% فقط في مهام Detect عند السماح بما يصل إلى ثلاث محاولات، أي اكتشاف ثغرة جديدة . وهذا فرق جوهري: إصلاح مشكلة معروفة شيء، واختيار المشكلة الصحيحة وسط بيئة فوضوية وتجنب الإنذارات الكاذبة والتصرف بأمان شيء آخر.
الأرجح في المدى القريب ليس أن نرى وكلاء ذكاء اصطناعي يتجولون بلا رقابة في الإنترنت ويعملون لحسابهم. السيناريو الأكثر واقعية هو «استقلالية مُشرفة»: الإنسان يحدد الهدف، الميزانية، الصلاحيات، حدود المخاطر، وقواعد الموافقة؛ والوكيل يبحث، يكتب، يختبر، يرسل، ويتابع؛ ثم يبقى الإنسان مسؤولًا عن القرارات الحساسة والنتيجة النهائية.
المهام الأنسب لهذه المرحلة تشترك غالبًا في صفات واضحة:
لذلك تبدو مهام مثل إصلاح الأخطاء، الرقع الأمنية، تحديث التوثيق، كتابة الاختبارات، فحوص ضمان الجودة، وتنظيف البيانات مرشحة مبكرة. السؤال الاقتصادي هنا ليس: هل حقق وكيل واحد أجرًا يشبه أجر الإنسان؟ بل: هل يمكن لمحاولات كثيرة، رخيصة، متوازية، وقابلة للتدقيق أن تنتج عملًا مقبولًا بما يكفي لتبرير استخدامها؟
القدرة التي تسمح لوكيل بفحص كود واقتراح إصلاح لثغرة يمكن أيضًا تقييمها في سياقات هجومية. BountyBench نفسه يتعامل مع وكلاء الذكاء الاصطناعي كأنهم مؤثرون محتملون في القدرات السيبرانية الدفاعية والهجومية، بما يشمل مهام Detect وExploit وPatch .
لهذا تصبح الحوكمة جزءًا من التقنية لا ملحقًا بها. نشر وكلاء كهؤلاء في بيئات حقيقية يحتاج إلى حدود صلاحيات، عزل بيئات التنفيذ، ضبط الهوية، قواعد إفصاح، سجلات تدقيق، وموافقة بشرية على الأفعال عالية المخاطر. وتؤكد مواد OpenAI الخاصة بـ Codex على الأمن والشفافية، بما في ذلك إمكانية التحقق من العمل عبر الاستشهادات وسجلات الطرفية ونتائج الاختبارات . وكلما اقترب الوكلاء من الأنظمة الحقيقية، أصبحت هذه السجلات ضرورة لا ميزة إضافية.
مكافأة Codex البالغة 16.88 دولارًا ليست قصة عن ذكاء اصطناعي بدأ يراكم الأرباح، وليست دليلًا على استبدال واسع للوظائف. لكنها إشارة صغيرة ومهمة إلى أن الوكلاء المستقلين بدأوا يقتربون من مسارات عمل اقتصادية حقيقية: مهام محدودة، أنظمة خارجية، أطراف بشرية، تحقق، ودفع .
إذا كبر هذا النمط، فلن يكون مستقبل العمل الوكيلي مجرد روبوت يجيب عن الأسئلة. سيكون أقرب إلى أنظمة تسعى وراء أهداف مقيدة، تحت إشراف بشري، وتُحاسب على نتائج قابلة للتحقق. والفائزون لن يكونوا الوكلاء الذين ينتجون نصوصًا مقنعة فقط، بل الذين يقدمون نتائج آمنة، قابلة للتدقيق، ومقبولة في العالم الحقيقي.
Comments
0 comments