أصبحت نظم تعلم الآلة جزءًا لا يتجزأ من قطاعات عديدة، بدءًا من الرعاية الصحية إلى الأمن السيبراني، إلا أن ضعفها أمام الهجمات التي تحدث في أوقات التدريب صار مصدرًا لقلقٍ متزايد. تُعَد الهجمات التي يُطلَق عليها اسم "هجمات تلوث البيانات" واحدة من أشد أنواع الهجمات الإلكترونية ضررًا وتحدث عندما يقوم المهاجم بتعديل بيانات التدريب بدهاء لخفض مستوى أداء نموذج تعلم الآلة. وتتمثل إحدى الحيل الشائعة لتنفيذ هجمات تلوث البيانات بتبديل تسميات نقاط البيانات مثل إخبار النظام أن الرسائل غير المرغوبة ليست رسائل غير مرغوبة، حيث يتعلم أنماطًا خاطئة.
طور فريق من الباحثين في جامعة خليفة وجامعة ميلانو الإيطالية استراتيجية دفاعية جديدة لمكافحة هجمات تلوث البيانات، حيث قسموا العمل التدريبي على عدة نماذج أصغر تُعرف باسم مجموعة النماذج، بدلًا من تدريب نموذج واحد كبير. ولكن بدلًا من فصل البيانات عشوائيًا، يجري تقييم كل نقطة بيانات بصورة فردية للوقوف على مدى ضعفها أمام الهجمات ثم توجيها بعد ذلك على النحو اللائق.
نشر البروفيسور إيرنستو دامياني والدكتور شان يوب ين من مركز الأنظمة الفيزيائية الإلكترونية في جامعة خليفة ونيقولا بينا وكلاوديو أردانيا وماركو أنيسيتي من جامعة ميلانو البحث الخاص بمنظومتهم الدفاعية في مجلة "كمبيوترز أند سيكيوريتي".
تستخدم المنظومة ثلاث إشارات لتحديد البيانات المريبة: مدى قرب البيانات من حدود القرار ومدى اختلاف هيئتها عن هيئات جيرانها والمسافة التي تفصلها عن الأمثلة النموذجية في نفس فئتها. وإذا بدت نقطة بيانات محفوفة بالمخاطر، يمكن للمنظومة نشر هذه النقطة عبر نماذج تعلم الآلة بقدرٍ محدود أو بثها إلى نموذج واحد لاحتواء الخطر الذي قد ينجم عنها.
تُظهِر الاختبارات أن هذا النهج جعل نماذج تعلم الآلة أكثر مقاومة للهجمات، وبصفة خاصة عند تلوث المزيد من البيانات. ويتفوق النهج في أدائه عند استخدامه في قواعد بيانات بعينها على أداء الأساليب الأخرى الأقدم التي تعتمد بصورة تامة على التوزيع العشوائي. ولكن على الرغم من ذلك، كان أداء النهج أفضل عند توزيع البيانات المريبة بالتساوي، مع ملاحظة أنه في بعض الحالات عند تجميع البيانات السيئة مع بعضها البعض، كان النهج محدودًا. ويجري تنفيذ هذا النهج بسرعة على الرغم من ذلك، فلا يتطلب التخلص من أي بيانات بالكامل، وهو ما يجعله نهجًا عمليًا للاستخدام الفعلي.
ويتسم هذا النهج، إضافةً لما سبق، بكفاءته وقابليته للتطوير. ظل النهج أسرع بالمقارنة مع العديد من تقنيات الترشيح الحالية، حتى عند زيادة أحجام مجموعة البيانات، وما ترتب على ذلك من طول أوقات معالجتها خطيًا.
وتُظهِر الدراسة أنه في ظل تنامي التهديدات المعادية المقترنة بتعلم الآلة، فمن الممكن لعمليات التدريب الاستباقية الواعية بالمخاطر أن توفر دفاعًا قويًا، بحيث يحول النهج من التكرار العشوائي إلى المرونة الذكية.