توصل البحث إلى انخفاض فعالية نماذج اللغة والرؤية الكبيرة عند دمجها بالمحتوى الذي تنشئه الآلات
البيانات الحقيقية مقابل البيانات الاصطناعية: هل المحتوى الذي تطوره الأنظمة الذكية بحاجة إلى لمسة بشرية؟

يمكن أن يساهم تحقيق التوازن المناسب ما بين المحتوى الأصلي الذي يصنعه الإنسان والبيانات التي يتم إنشاؤها بالأنظمة الذكية، في منع الأدوات الذكية التي تصنع المحتوى من فقدان قدرتها على الاستجابة بلغة متنوعة وتبدو طبيعية، وذلك وفقًا لباحثين من جامعة خليفة ومعهد الابتكار التكنولوجي في أبوظبي وجامعة نيويورك أبوظبي وجامعة كاليفورنيا في الولايات المتحدة.

وجد الباحثون أن كمية البيانات التي يتم إنشاؤها آليًا يجب أن تكون أقل بكثير مقارنة بالبيانات التي يقدمها البشر، لتجنب إنتاج بيانات مكررة ومُعاد تدويرها ذات جودة منخفضة.

 

نُشرت هذه النتائج في "الأرخايف" الخاص بجامعة كورنيل تحت عنوان: "ما مدى سوء التدريب على البيانات الاصطناعية؟ تحليل إحصائي لانهيار نموذج اللغة"، وسيتم استعراضها في نسخة عام 2024 لمؤتمر نمذجة اللغة في جامعة بنسلفانيا في الولايات المتحدة الذي يُعقد في الفترة من 7 إلى 9 أكتوبر 2024. ويشمل الفريق البحثي في جامعة خليفة الدكتور مروان دبّاح، أستاذ هندسة الكمبيوتر والاتصالات، ومحمد الأمين صدّيق، باحث أول في معهد الابتكار التكنولوجي، والدكتور سفيان هايو، باحث في جامعة كاليفورنيا بيركلي والدكتور بيير يوسف، أستاذ مشارك في الرياضيات، وسوي وين تشن، مساعد بحثي، وكلاهما من جامعة نيويورك أبوظبي.

 

أثبت كلٌّ من (جي بي تي- 2) و(جي بي تي-3) و(جي بي تي-4) قدرتهم على الاستجابة بشكل بديهي باستخدام المعلومات الموجودة مسبقًا، حيث ساهم تشات جي بي تي في توفير  هذه الأنواع من النماذج المتقدمة للغات لجميع الأفراد. وبما أن هذه النماذج الكبيرة للغات تتدرب على النصوص والصور التي يتم إنشاؤها من قبل أنظمة ذكية أخرى بدلًا من العمل البشري الحقيقي ، يمكن للبيانات التي تم إنشاؤها من قِبل الآلة أن "تسمّم"  تطبيقات المحتوى الذكي، ما يؤدي إلى إنتاج بيانات ذات جودة منخفضة أو انهيار النموذج. وتسلط الدراسات السابقة الضوء على تأثير دورة الاستهلاك الذاتي على التنوع اللغوي، والتي تقوم من خلالها نماذج من الجيل الحالي بتقديم بيانات تلوث المعلومات الموجودة على شبكة الإنترنت، وتعد نماذج الجيل التالي لاستخدام البيانات الملوثة في عملية التدريب.

 

نظر الباحثون في التغييرات في النظام الذكي باستخدام نوع خاص من الرياضيات يسمى السوفت ماكس الخطي، الذي قام بحساب الاحتمالات لكل كلمة تالية. وأكد الباحثون، من خلال عمليات المحاكاة والاختبارات على البيانات الفعلية باستخدام نماذج لغة واقعية تُحاكي جي بي تي-2، على أن التدرّب باستخدام عينات من البيانات الخاصة بنموذج الجيل السابق، يؤدي دائمًا إلى انهيار ذلك النموذج، كما أظهر التحكم الدقيق في كمية البيانات الاصطناعية المُدخلة إمكانية تطبيق هذه النتائج في السياقات العملية أيضًا، وليس فقط في النماذج النظرية.

 

 قال الدكتور مروان دبّاح: "تزداد  كمية البيانات الاصطناعية على شبكة الإنترنت بمعدل غير مسبوق، بالتزامن مع اعتماد النماذج الكبيرة للغة والرؤية التي تطورها الأنظمة الذكية. وقد أظهرت العديد من الأعمال أن دمج البيانات الاصطناعية في التدريب يمكن أن يضر بأداء نماذج الانتشار المدربة، حيث يقوم الممارسون باستخدام البيانات الاصطناعية بإرادتهم لتدريب نماذج الجيل التالي التي تسبب لاحقًا انهيار النموذج. ويساهم بحثنا، مع تقدم الأنظمة الذكية وانتشارها بشكل متزايد، في ترسيخ بعض الأسس الهامة للحصول على فهمٍ أفضل والحد من انهيار النموذج مستقبلًا عند إِناء المحتوى آليًا".

 

ترجمة: مريم ماضي