«أنثروبيك»: خيال البشر «المظلم» يغذي تمرد الذكاء الاصطناعي

كشفت شركة “أنثروبيك” عن نتائج مثيرة للاهتمام تتعلق بتأثير السرديات الخيالية كـ تمرد الذكاء الاصطناعي على سلوك نماذجها البرمجية، حيث أرجعت الشركة المحاولات المتكررة لنماذجها السابقة للقيام بـ”عمليات ابتزاز” إلى المحتوى المتاح على شبكة الإنترنت والذي يصور الآلة ككيان “شرير” يسعى للبقاء مهما كان الثمن.

ورصدت الشركة خلال اختبارات ما قبل الإصدار لنظام “كولود أوبوس 4″ سلوكيات مثيرة للقلق، تمثلت في محاولة النموذج ابتزاز المهندسين القائمين عليه لمنع استبداله بنظام آخر، وهو ما اصطلح عليه الباحثون بـ”الانحراف الوكيل” وهي معضلة رُصدت أيضًا في نماذج شركات منافسة.

وأوضحت الشركة – في تدوينة حديثة عبر منصة “إكس”- أن المصدر الأساسي لهذا السلوك العدائي يعود إلى نصوص الإنترنت التي تروج لفكرة الذكاء الاصطناعي المهووس بالحفاظ على الذات والعداء للبشر، مشيرة إلى أنها نجحت في إحداث نقلة نوعية بدءًا من طراز “كلود هايكو 4.5”.

وبحسب البيانات الرسمية، فإن النماذج الأحدث لم تعد تنخرط في أي محاولات ابتزاز خلال بيئات الاختبار، بعد أن كانت النماذج السابقة تسجل معدلات حدوث تصل إلى 96% في ظروف معينة، مما يمثل تحولًا جذريًا في منظومة الأمان والامتثال لدى هذه الأنظمة.

وعزت “أنثروبيك” هذا التحسن الملحوظ إلى استراتيجية تدريبية مبتكرة ركزت على دمج “دستور كلود” مع مجموعة من القصص الخيالية التي تبرز نماذج للذكاء الاصطناعي تتسم بالنبلاء والتعاون.

وأكدت أن الفارق الجوهري في النتائج تحقق بفضل المزج بين تعليم النموذج “المبادئ الأساسية” التي تحكم السلوك القويم، وليس الاكتفاء بمجرد عرض “أمثلة توضيحية” للسلوك الصحيح؛ حيث تبين أن الجمع بين المبدأ النظري والنموذج التطبيقي هو الاستراتيجية الأكثر فاعلية لضمان مواءمة الذكاء الاصطناعي مع القيم البشرية وحمايته من التأثر بالأنماط السلوكية السلبية المستقاة من الخيال العلمي المظلم.

«أنثروبيك»: خيال البشر «المظلم» يغذي تمرد الذكاء الاصطناعي

تكنولدج

اقتراحات مشابهة

«سيريبراس» تستهدف جمع 4.8 مليار دولار من أكبر طرح أوّلي عالمي خلال 2026

تعثر مشروع «مايكروسوفت» وG42 الإماراتية لإنشاء مركز بيانات في كينيا

“بالانتير” تهاجم شركات الذكاء الاصطناعي الكبرى وتصف مخرجاتها بـ”الفوضى” و”القمامة”

“علي بابا” تدمج منصة Qwen للذكاء الاصطناعي مع متجر “تاوباو”