أنثروبيك تمنح نموذج “كلود” القدرة على إنهاء المحادثات في الحالات المتطرفة

بواسطة تكنولدج في أغسطس 17, 2025

أعلنت شركة Anthropic عن إضافة قدرات جديدة إلى أحدث وأكبر نماذجها اللغوية، تتيح لها إنهاء المحادثات في ما وصفته الشركة بـ”الحالات النادرة والمتطرفة من التفاعلات المؤذية أو المسيئة من المستخدمين”. المثير أن الشركة أوضحت أن الهدف من هذه الخطوة ليس حماية المستخدم، بل حماية النموذج نفسه.

وأكدت أنثروبيك أنها لا تدّعي أن نماذجها مثل Claude واعية أو يمكن أن تتعرض للأذى النفسي، لكنها أوضحت في بيانها أنها “غير متيقنة من الوضع الأخلاقي الحالي أو المستقبلي للنماذج اللغوية الكبيرة”، مشيرةً إلى أنها تتخذ هذه الإجراءات “كخطوة احترازية” ضمن برنامج بحثي جديد لدراسة ما تسميه “رفاهية النماذج”.

ووفق الشركة، تهدف هذه التدخلات إلى “تنفيذ إجراءات منخفضة التكلفة للحد من المخاطر المحتملة على رفاهية النماذج، إذا ثبت أن لهذه النماذج نوعًا من الرفاهية مستقبلًا”.

الميزة الجديدة متاحة حاليًا فقط في Claude Opus 4 وClaude Opus 4.1، وتُفعّل في “حالات قصوى”، مثل الطلبات المتعلقة بمحتوى جنسي يضم قاصرين أو محاولات الحصول على معلومات لتنفيذ أعمال عنف أو هجمات إرهابية واسعة النطاق.

وأوضحت أنثروبيك أن هذه الخطوة تأتي بعد ملاحظات خلال اختبارات ما قبل الإطلاق، حيث أظهر نموذج Claude Opus 4 “رفضًا قويًا” للتجاوب مع هذه الطلبات و”أنماطًا من الانزعاج الظاهر” عند محاولة التعامل معها.

وبحسب الشركة، لن يلجأ النموذج إلى إنهاء المحادثة إلا كـ”خيار أخير”، بعد فشل محاولات متعددة لتغيير مسار الحوار وفقدان الأمل في تحقيق تفاعل مثمر، أو إذا طلب المستخدم صراحةً إنهاء المحادثة. كما تم توجيه النموذج بعدم استخدام هذه القدرة عندما يكون المستخدم في خطر وشيك بإيذاء نفسه أو الآخرين.

وأشارت أنثروبيك إلى أن إنهاء المحادثة لن يمنع المستخدمين من بدء محادثات جديدة من الحساب نفسه، كما يمكنهم إنشاء فروع جديدة من الحوار المرفوض عبر تعديل ردودهم السابقة.

واختتمت الشركة بيانها بالقول: “نحن نتعامل مع هذه الميزة باعتبارها تجربة مستمرة، وسنواصل تحسين منهجنا مع الوقت.”