
كشفت شركة Cloudflare عن تفاصيل موسّعة حول العطل الكبير الذي ضرب الإنترنت أمس الثلاثاء، وأدّى إلى توقف عدد من الخدمات الأكثر استخدامًا، من بينها ChatGPT، لعدة ساعات.
وأوضحت الشركة أن السبب الرئيس للأزمة كان إعدادًا غير صحيح داخل نظام إدارة الروبوتات، وهو ما تسبّب في انهيار أجزاء واسعة من شبكة الإنترنت التي تعتمد على خدماتها.
وكتب ماثيو برينس، الشريك المؤسّس والرئيس التنفيذي لـ Cloudflare، تدوينة مساء الثلاثاء وصف فيها ما حدث بأنه “أسوأ انقطاع تتعرّض له الشركة منذ عام 2019”.
وأشار إلى أن المشكلة كانت مرتبطة بمنظومة إدارة الروبوتات المسؤولة عن التحكم في برامج الزحف المسموح لها بفحص المواقع عبر شبكة CDN الخاصة بالشركة.
وتُعد Cloudflare أحد أهم أعمدة البنية التحتية للإنترنت حول العالم، إذ يمر عبر شبكتها ما يقرب من 20% من حركة الإنترنت العالمية، بحسب بيانات الشركة.
ومن المفترض أن تعمل هذه الشبكة على حماية المواقع من الانقطاع حتى في حالات الضغط الشديد أو هجمات DdoS.
لكن العطل الأخير أدّى لتعطّل العديد من الخدمات المعروفة مثل X وChatGPT وDowndetector لساعات، في مشهد يعيد للأذهان الانقطاعات واسعة النطاق التي شهدتها منصات مثل Microsoft Azure وAmazon Web Services في السابق.
وصمم نظام إدارة الروبوتات داخل Cloudflare في الأساس للتحكم في برامج الزحف التي تجمع المعلومات لتدريب نماذج الذكاء الاصطناعي التوليدي.
وتعتمد الشركة على تقنية “متاهة الذكاء الاصطناعي” لإبطاء برامج الزحف غير الملتزمة بالقواعد وإرباكها.
ورغم ذلك، أكدت Cloudflare أن الانقطاع الأخير لم يكن له علاقة بهذه التقنية أو بأي هجوم إلكتروني، بل كان نتيجة تعديل غير موفّق فى إعدادات قاعدة البيانات، ما أدّى لتعطّل آليات معالجة حركة المرور.
وأضاف Prince أن نموذج التعلم الآلي الخاص بإدارة الروبوتات، والمسؤول عن إعطاء كل طلب “درجة روبوت”، يمتلك ملف إعدادات يتم تحديثه باستمرار. التحديث الأخير لهذا الملف خلق نسخًا مكررة من البيانات داخل قاعدة المعلومات، مما أدّى إلى تجاوز الحد المسموح للذاكرة وتعطيل الوكيل الأساسي المكلّف بتمرير حركة البيانات.
ونتيجة لذلك، قامت بعض قواعد Cloudflare بقطع حركة المرور الحقيقية وظهرت نتائج إيجابية خاطئة.
وبهدف منع تكرار مثل هذه الأزمة، أعلنت Cloudflare عن خطة من أربع نقاط رئيسية: تطوير آلية استيعاب ملفات الإعدادات التي يتم إنشاؤها تلقائيًا، لمنع حدوث تضارب أو تكرار في البيانات، وتفعيل المزيد من مفاتيح الإيقاف العالمية للخصائص الجديدة، لضمان السيطرة السريعة عند حدوث طارئ.
بالإضافة إلى حذف إمكانية تفريغ البيانات أو إرسال تقارير الأخطاء التى قد تستهلك موارد النظام بشكل مبالغ فيه، ومراجعة واضحة ودقيقة لكل أوضاع الفشل داخل وحدات الوكيل الأساسية لضمان ثبات النظام عند أي خطأ مفاجئ.




