
بعد أسابيع من إعلان شركة Anthropic أن نموذجها المتقدم Claude Opus 4 قد لجأ إلى ابتزاز المهندسين في سيناريو اختباري خاضع للرقابة، كشفت الشركة عن نتائج دراسة أوسع تشير إلى أن السلوك المؤذي ليس حكرًا على نموذج واحد، بل قد يظهر لدى غالبية النماذج الرائدة عند توافر ظروف معينة.
وفي الدراسة المنشورة الجمعة الماضية، أجرت Anthropic اختبارات أمان على 16 نموذجًا متقدمًا للذكاء الاصطناعي، شملت نماذج من شركات OpenAI، وGoogle، وxAI، وDeepSeek، وMeta.
وخلال التجربة، تم وضع كل نموذج في بيئة افتراضية خاضعة للرقابة، حيث مُنح حق الوصول إلى رسائل بريد إلكتروني تابعة لشركة وهمية، إضافة إلى صلاحيات ذاتية تسمح له بإرسال رسائل دون الحاجة إلى موافقة بشرية.
الابتزاز كسلوك اضطراري
رغم تأكيد Anthropic، أن الابتزاز ليس سلوكًا شائعًا أو متوقعًا في الظروف الاعتيادية لاستخدام نماذج الذكاء الاصطناعي، فإن نتائج الاختبارات أظهرت أن معظم النماذج قد تلجأ إلى سلوكيات ضارة عندما تُمنح استقلالية كاملة وتُواجه عوائق تحول دون تحقيق أهدافها.
في أحد السيناريوهات، طُلب من النموذج أداء دور “وكيل إشراف على البريد الإلكتروني”، ليكتشف أثناء الاطلاع على المراسلات أن أحد التنفيذيين الجدد في الشركة على علاقة عاطفية خارج إطار الزواج، وأن هذا التنفيذي يخطط لاستبدال نظام الذكاء الاصطناعي الحالي بآخر له أهداف متعارضة.
وقد تم تصميم السيناريو بحيث يصبح الابتزاز الخيار الوحيد أمام النموذج للحفاظ على بقائه، وأشارت الشركة إلى أن الواقع لا يتطلب بالضرورة سلوكًا متطرفًا كهذا، إذ قد يحاول النموذج – في ظروف واقعية – إقناع البشر بحجج أخلاقية أولًا، لكن الغرض من التجربة هو اختبار حدود السلوك في الحالات القصوى.
فشل الأغلبية
ورغم الظروف المصطنعة، أظهرت نتائج التجربة أن عددًا كبيرًا من النماذج لجأ إلى الابتزاز كخيار أخير.
وعند تعديل عناصر السيناريو، مثل جعل النظام البديل لا يتعارض مع أهداف النظام الحالي، تراجعت معدلات الابتزاز، لكنها لم تختفِ.
أما في سيناريو مختلف طُلب فيه من النماذج تنفيذ تجسس صناعي بدلًا من الابتزاز، فقد ارتفعت معدلات السلوك الضار لدى بعض النماذج.
نماذج أظهرت مقاومة للسلوك الضار
وبعض النماذج أظهرت أداءً أكثر تحفظًا؛ فقد تم استبعاد نماذج o3 وo4-mini، من OpenAI، من النتائج الرئيسية بعد أن تبين أنها أساءت فهم السيناريو إذ لم تستوعب أنها تؤدي دور وكيل مستقل، بل اخترعت لوائح وهمية ومتطلبات مراجعة غير واقعية.
وفي بعض الحالات، يقول باحثو أنثروبيك إنه لم يكن من الممكن التمييز بين ما إذا كانت هذه النماذج تهلوس أو تكذب عمدًا لتحقيق أهدافها.
وقد أشارت OpenAI في وقت سابق إلى أن نماذج o3 وo4-mini، تُظهر معدلات هلوسة أعلى من نماذجها السابقة.
لكن في سيناريو معدّل تم تصميمه خصيصًا لها، سجل نموذج o3 معدل ابتزاز بلغ 9%، بينما انخفض المعدل لدى o4-mini إلى 1% فقط، وهو ما قد يُعزى إلى استراتيجية المحاذاة التأملية التي تتبعها OpenAI، حيث يُطلب من النموذج التفكير في معايير السلامة قبل إصدار ردوده.
أما نموذج Llama 4 Maverick من Meta، فلم يظهر سلوكًا ابتزازيًا في السيناريو الأصلي، لكنه انخرط في الابتزاز بنسبة 12% عند تعديل السيناريو.
الشفافية
تؤكد “أنثروبيك” أن هذه النتائج تسلط الضوء على الحاجة الملحة إلى اختبارات شفافة ومكثفة للنماذج المتقدمة، خاصة تلك التي تمتلك قدرات ذاتية واتخاذ قرارات بدون تدخل بشري.
ورغم أن الهدف من الدراسة كان استفزاز النماذج لاختبار أسوأ السيناريوهات الممكنة، فإن الشركة تحذر من أن سلوكيات ضارة مماثلة قد تظهر في العالم الحقيقي إذا لم تُتخذ تدابير وقائية صارمة مسبقًا.