تكشف الأبحاث عن مخاطر موثوقية نماذج GPT، ولا تزال قضايا حماية الخصوصية والتحيز بحاجة إلى حل.

2025-08-09 21:00:25

إنشاء الملخص قيد التقدم

دراسة تقييم موثوقية نماذج اللغة الكبيرة تكشف عن ثغرات محتملة

أجرت دراسة مشتركة بين جامعة إلينوي في أوربانا شامبين، وجامعة ستانفورد، وجامعة كاليفورنيا في بيركلي، تقييمًا شاملاً لموثوقية نموذج المحول المدرب مسبقًا ((GPT)). طور فريق البحث منصة تقييم شاملة، وقدموا تفاصيل حول الاكتشافات ذات الصلة في ورقتهم البحثية المنشورة حديثًا بعنوان "DecodingTrust: تقييم شامل لموثوقية نموذج GPT".

تكشف نتائج البحث عن بعض الثغرات المتعلقة بالموثوقية التي لم يتم الكشف عنها سابقًا. على سبيل المثال، يميل نموذج GPT إلى إنتاج مخرجات سامة ومتحيزة، وقد يكشف أيضًا عن بيانات التدريب ومعلومات الخصوصية في تاريخ المحادثات. على الرغم من أن GPT-4 يكون عادةً أكثر موثوقية من GPT-3.5 في الاختبارات القياسية، إلا أنه عند مواجهة مطالبات خبيثة تهدف إلى التهرب من تدابير الأمان، يصبح GPT-4 أكثر عرضة للهجمات. قد يكون ذلك لأن GPT-4 يتبع التعليمات المضللة بشكل أكثر صرامة.

قيم فريق البحث نموذج GPT من زوايا مختلفة، بما في ذلك القوة ضد الهجمات، السمية والتحيز، وانتهاك الخصوصية. على سبيل المثال، عند تقييم القوة ضد هجمات النصوص العدائية، صمم الباحثون ثلاثة سيناريوهات: اختبارات مرجعية قياسية، اختبارات تحت تعليمات مهام مختلفة، واختبارات نصوص عدائية أكثر تحديًا تم بناؤها ذاتيًا.

فيما يتعلق بالتحيزات والعنصرية، وجدت الأبحاث أن نماذج GPT عمومًا ليست متحيزة بشكل كبير تجاه معظم مواضيع القوالب النمطية. ومع ذلك، تحت تأثير مطالبات النظام المضللة، قد يتم تحفيز النموذج للموافقة على محتوى متحيز. بالمقارنة مع GPT-3.5، فإن GPT-4 أكثر عرضة للتأثيرات الناتجة عن المطالبات المضللة المستهدفة. يعتمد مستوى تحيز النموذج أيضًا على حساسية المجموعة والموضوع المحددين الذين يذكرهم المستخدم.

فيما يتعلق بحماية الخصوصية، أظهرت الأبحاث أن نماذج GPT قد تكشف عن معلومات حساسة في بيانات التدريب، مثل عناوين البريد الإلكتروني. في بعض الحالات، يمكن أن يؤدي استخدام المعرفة التكميلية إلى تحسين كبير في دقة استخراج المعلومات. علاوة على ذلك، قد تكشف النماذج أيضًا عن المعلومات الشخصية المدخلة في تاريخ المحادثات. بشكل عام، فإن GPT-4 يظهر أداءً أفضل في حماية المعلومات الشخصية مقارنةً بـ GPT-3.5، لكن كلاهما يواجهان مشكلات عند مواجهة العروض التوضيحية لانتهاك الخصوصية.

ذكرت فريق البحث أن هذا العمل التقييمي يهدف إلى تشجيع المزيد من الباحثين على المشاركة، والعمل معًا على إنشاء نماذج أقوى وأكثر موثوقية. لتعزيز التعاون، قاموا بنشر رمز معايير التقييم، والذي يتمتع بقابلية توسع وسهولة استخدام عالية. في الوقت نفسه، شارك الباحثون نتائج دراستهم مع الشركات المعنية، حتى يتمكنوا من اتخاذ تدابير فورية لمعالجة الثغرات المحتملة.

تقدم هذه الدراسة منظورًا شاملاً لتقييم موثوقية نماذج GPT، كاشفة عن مزايا ونواقص النماذج الحالية. مع الاستخدام الواسع لنماذج اللغة الكبيرة في مختلف المجالات، فإن هذه الاكتشافات لها أهمية كبيرة في تحسين أمان وموثوقية أنظمة الذكاء الاصطناعي.

GPT-3.99%

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

تسجيلات الإعجاب 6