
روّج كبار الرؤساء التنفيذيين في شركات التكنولوجيا بصفة شبه يومية، لرؤى حول وكلاء ذكاء اصطناعي قادرين على استخدام التطبيقات البرمجية بشكل مستقل لتنفيذ المهام بالنيابة عن المستخدمين.
لكن عند تجربة النسخ الحالية المتاحة للمستهلكين، مثل وكيل ChatGPT من OpenAI أو Comet من Perplexity، يتضح سريعًا أن التكنولوجيا ما زالت محدودة، ولجعل هؤلاء الوكلاء أكثر كفاءة، قد يحتاج القطاع إلى تقنيات جديدة ما زال يكتشفها.
وتتمثل إحدى هذه التقنيات، بحسب موقع “تِك كرانش”، في إنشاء مساحات عمل مُحاكاة يُدرَّب فيها الوكلاء على مهام معقدة ومتعددة الخطوات، والمعروفة باسم “بيئات التعلم المعزز RL Environments؛ وبالمثل كما أسهمت مجموعات البيانات المُصنفة في تطوير موجة الذكاء الاصطناعي السابقة، باتت هذه البيئات تُنظر إليها اليوم كعنصر محوري في بناء وكلاء أكثر تطورًا.
ويؤكد باحثون ومؤسسون ومستثمرون أن مختبرات الذكاء الاصطناعي الرائدة باتت تطلب المزيد من هذه البيئات، ما أفسح المجال أمام شركات ناشئة جديدة لتقديمها.
وتقول جينيفر لي الشريكة العامة في Andreessen Horowitz، إن “جميع المختبرات الكبرى تعمل على بناء بيئات التعلم المعزز داخليًا؛ لكن نظرًا لتعقيد المهمة، فإنها تلجأ أيضًا إلى مزودين خارجيين قادرين على إنتاج بيئات عالية الجودة”.
سباق التمويل
وأفرز هذا التوجه جيلًا جديدًا من الشركات الناشئة الممولة جيدًا مثل Mechanize، وPrime Intellect، الساعية إلى الهيمنة على هذا المجال.
وفي الوقت نفسه، بدأت شركات كبرى في قطاع وسم البيانات مثل Mercor، وSurge، بالاستثمار في هذه البيئات لتواكب التحول من البيانات الثابتة إلى المحاكاة التفاعلية.
وبحسب تقارير، ناقش قادة “أنثروبيك” إمكانية استثمار أكثر من مليار دولار في بيئات التعلم المعزز خلال العام المقبل 2026.
أمَّا المستثمرون فيتطلعون إلى بروز شركة ناشئة تقود هذا المجال لتصبح بمثابة “Scale AI للبيئات”، في إشارة إلى عملاق وسم البيانات الذي بلغت قيمته 29 مليار دولار في عصر تطوير روبوتات المحادثة.
ما هي بيئات التعلم المعزز؟
ببساطة، هذه البيئات تشكل حقول تدريب تحاكي ما يقوم به وكيل الذكاء الاصطناعي داخل تطبيقات برمجية حقيقية، كما شبهها أحد المؤسسين بأنها “مثل تطوير لعبة فيديو مملة للغاية”.
فعلى سبيل المثال، يمكن للبيئة أن تحاكي متصفح كروم وتكلف الوكيل بشراء زوج من الجوارب من موقع أمازون.
ويُقيَّم أداء الوكيل وفق نجاحه في إتمام المهمة ويحصل على “إشارة مكافأة” عند نجاحه؛ لكن حتى هذه المهام البسيطة مليئة بالعقبات، مثل الضياع بين القوائم أو شراء كمية خاطئة من المنتج.
بناء بيئة قادرة على رصد هذه الأخطاء غير المتوقعة وتقديم ملاحظات دقيقة للوكيل يجعل المهمة أكثر تعقيدًا من التعامل مع مجموعات بيانات ثابتة.
مشهد مزدحم
ودخلت شركات وسم البيانات مثل Scale AI، وSurge، وMercor، هذا المجال بحكم خبرتها وعلاقاتها مع مختبرات كبرى.
وأكد الرئيس التنفيذي لشركة Surge أن الطلب على هذه البيئات شهد “زيادة كبيرة”، لدرجة أن الشركة أنشأت وحدة جديدة متخصصة في هذا النشاط، بعد أن حققت إيرادات بلغت 1.2 مليار دولار العام الماضي.
أمَّا Mercor، التي تبلغ قيمتها 10 مليارات دولار، فتسعى لاقتناص حصة من السوق عبر تطوير بيئات خاصة بقطاعات مثل البرمجة والرعاية الصحية والقانون.
وفي المقابل، تحاول شركات ناشئة مثل Mechanize، وPrime Intellect، بناء نماذج عمل مختلفة.
وتركّز الشركة الأولى على تطوير عدد قليل من البيئات المتينة، وتعرض رواتب تصل إلى نصف مليون دولار سنويًا للمهندسين؛ أمَّا الثانية فأطلقت مركزًا مفتوح المصدر للبيئات شبيهًا بمنصة Hugging Face، مستهدفةً المطورين الأصغر حجمًا.
ورغم الزخم الكبير، يطرح بعض الخبراء شكوكًا حول قدرة هذه البيئات على إحداث قفزات طويلة المدى؛ حيث يشير باحثون سابقون في ميتا إلى أن البيئات عرضة لـ”التحايل على المكافآت”، حيث يتعلم الوكيل استغلال النظام للحصول على نتائج جيدة شكليًا دون إنجاز المهمة فعليًا.
ويرى آخرون أن بناء بيئات قابلة للتوسع قد يكون أصعب مما يتصور المستثمرون، فيما حذر باحثون بارزون مثل أندريه كارباتي من الإفراط في التفاؤل حيال التعلم المعزز، رغم إقراره بأهمية البيئات و”التفاعلات الوكيلية” كخطوة مستقبلية.
ورغم الجدل، يتفق معظم اللاعبين في الصناعة على أن بيئات التعلم المعزز تمثل حاليًا الرهان الأكبر لدفع وكلاء الذكاء الاصطناعي إلى مستوى جديد من الكفاءة والقدرة على تنفيذ المهام المعقدة.