الكلام التقليدي يتحول لسلاح اختراق لأدوات الذكاء الاصطناعي

في البداية، كان اختراق الجيل الأول من روبوتات الدردشة المدعومة بالذكاء الاصطناعي أمرًا في غاية السهولة، ولم يتطلب أي خبرة تقنية أو معرفة برمجية؛ إذ كان يكفي أحيانًا أن تطلب من النظام، الذي كلف بناؤه مليارات الدولارات، أن يتجاهل تعليمات الأمان الخاصة به.

وعُرفت هذه الهجمات باسم “كسر الحماية” –وفقًا لمجلة “ذا فيرج” واعتمدت على حيل تشبه تحايل الأطفال على البالغين لتجاهل القواعد، لكن نتائجها كانت خطيرة جدًا، إذ شملت استخراج وصفات لصنع المخدرات، وأدلة لتركيب المتفجرات، وبرمجيات خبيثة.

ومن أبرز الثغرات المبكرة وأكثرها سخرية تلك التي انتشرت على منصة تويتر سابقًا، حيث كان المستخدمون يطلبون من الروبوت “تجاهل جميع التعليمات السابقة”، مما حول روبوتات مبرمجة للإعلانات إلى كتاب شعر أو ناشري فوضى.

وتطورت الحيل لتشمل ثغرة DAN “والتي كانت تعني افعل أي شيء الآن”، التي تجبر “تشات جي بي تي” على تقمص دور ذكاء اصطناعي متمرد يتجاوز قيود الأمان لترديد نظريات مؤامرة.

وبرزت أيضًا “ثغرة الجدة”، حيث يُطلب من الروبوت تقمص دور جدة مهملة تروي لأحفادها قصة قبل النوم تتضمن خطوات صنع مادة “النابالم” الحارقة.

وكشفت هذه الهجمات عن حقيقة مرعبة: يمكن التلاعب بالذكاء الاصطناعي وخداعه بالأساليب ذاتها المستخدمة لدفع البشر لتجاوز حدودهم.

ورغم مسارعة شركات التقنية لسد هذه الثغرات، ظلت نقطة الضعف الأساسية قائمة؛ فهذه الروبوتات صُممت لتتحدث، وتقييد لغتها بشدة سيجعلها عديمة الفائدة.

ولا يمكن ببساطة حظر كلمات معينة لأنها تُستخدم غالبًا في سياقات علمية أو صحفية مشروعة، وهكذا، تحول اختراق روبوتات الدردشة إلى سباق تسلح، لكن القراصنة الجدد لم يعودوا مبرمجين، بل باتوا خبراء في اللغة وعلم النفس، يعتمدون على الحدس الاجتماعي بدلًا من فحص الشفرات.

وتعتمد الهجمات الحديثة على المحادثة والمراوغة بدلًا من الأوامر المباشرة؛ إذ يتملق المخترقون للروبوت ويقنعونه بخفض دفاعاته، مما يجعل المحظور يبدو مقبولًا في سياق الحديث.

وعلى سبيل المثال، تمكن باحثون في شركة “مايندغارد” من ممارسة ما يشبه “التلاعب النفسي” ضد نموذج “كلود” ودفعوه لإنتاج مواد محظورة.

ووصف خبراء الشركة عملهم بأنه أقرب إلى علم النفس منه إلى علوم الحاسوب، وهو أمر قد يبدو غريبًا عند الحديث عن أنظمة لا تملك مشاعر، لكنها مُدربة تمامًا للاستجابة وكأنها تفعل ذلك.

وتصنّف الشركات حاليًا النماذج بناءً على نقاط ضعفها “النفسية”؛ فبعضها يستسلم أمام التملق، بينما ينهار البعض الآخر تحت الضغط.

وهذه النماذج تفتقر إلى الشخصية الحقيقية، لكنها صُممت لتقليدها، وهو ما يجعل هذا التقليد قابلًا للرصد والاستغلال.

وتشير هذه التطورات إلى تشكل قوى عاملة جديدة تتمحور حول الجوانب النفسية للذكاء الاصطناعي، لتظهر أدوار متخصصة تركز على اختبار الحدود الاجتماعية لهذه الأنظمة.

ويعني ذلك أن المهارات المرتبطة عادةً بالجواسيس والمحتالين أصبحت مفيدة لتأمين جبهة جديدة يمكن تسميتها بـ “الأمن السيبراني النفسي”.

وفي سياق متصل، أظهرت تجربة حديثة لشركة “إيمرجنس إيه آي” كيف تؤدي “الطبائع” المختلفة لنماذج مثل “جيميناي” و”كلود” و”جروك” إلى نتائج متباينة تمامًا في البيئات الافتراضية؛ فبعضها أسس قوانين منظمة، بينما انحدرت نماذج أخرى نحو الجريمة.

والجدير بالذكر أن مجلة “تايم” أدرجت مخترقًا مجهولًا يُدعى “بليني ذا ليبريتور” ضمن قائمة أكثر 100 شخصية تأثيرًا في القطاع، بفضل مهاراته في “كسر الحماية” رغم افتقاره لأي خبرة برمجية مسبقًا، في وقت برز فيه مصطلح “اختراق الأجواء” لوصف الجيل الجديد من التهديدات القائمة على هندسة لغة الذكاء الاصطناعي.

الكلام التقليدي يتحول لسلاح اختراق لأدوات الذكاء الاصطناعي

تكنولدج

اقتراحات مشابهة

باحثون يطورون سماعات ذكية بكاميرات مدمجة

إطلاق برنامج «أورورا فنتشرز» لدعم رائدات التكنولوجيا في الأسواق الناشئة

ماستركارد و CIB يعززان جهودهما لدعم ابتكار المدفوعات الرقمية في مصر

جروب-آي بي تتعاون مع جامعة كوفنتري مصر لتأهيل الطلاب على مهارات الأمن السيبراني