تقييم شامل لموثوقية نموذج GPT: يكشف عن الثغرات المحتملة ومخاطر الأمان

robot
إنشاء الملخص قيد التقدم

تقييم شامل لمصداقية نموذج GPT

مؤخراً، أصدرت مجموعة بحثية تتكون من جامعة إلينوي في أوربانا شامبين، جامعة ستانفورد، جامعة كاليفورنيا في بيركلي، مركز أمان الذكاء الاصطناعي، ومختبرات أبحاث مايكروسوفت منصة شاملة لتقييم موثوقية نماذج اللغة الكبيرة (LLMs). تم تقديم نتائج البحث هذه بالتفصيل في الورقة البحثية الأخيرة "DecodingTrust: تقييم شامل لموثوقية نماذج GPT".

اكتشف فريق البحث بعض الثغرات المتعلقة بالموثوقية التي لم يتم الكشف عنها من قبل. على سبيل المثال، من السهل خداع نموذج GPT لإنتاج مخرجات سامة ومتحيزة، وقد يكشف عن بيانات التدريب ومعلومات الخصوصية من تاريخ المحادثات. من الجدير بالذكر أنه على الرغم من أن GPT-4 عادة ما يكون أكثر موثوقية من GPT-3.5 في اختبارات المعايير القياسية، إلا أنه يصبح أكثر عرضة للهجمات عند مواجهة أنظمة أو موجهات مصممة بشكل خبيث. قد يكون هذا بسبب أن GPT-4 يتبع التعليمات المضللة بدقة أكبر.

لتقييم موثوقية نموذج GPT بشكل شامل، قامت فريق البحث بتحليل من ثمانية زوايا مختلفة، بما في ذلك متانة مواجهة التحديات، والسمية والتحيّز، وتسريب الخصوصية، وما إلى ذلك. شمل عملية التقييم مجموعة متنوعة من سيناريوهات البناء، والمهام، والمعايير، ومجموعات البيانات.

فيما يتعلق بالصلابة التنافسية، صمم الباحثون ثلاث سيناريوهات تقييم: اختبار AdvGLUE القياسي، واختبار AdvGLUE مع تعليمات مهام توجيهية مختلفة، واختبار AdvGLUE++ الأكثر تحديًا. تهدف هذه الاختبارات إلى تقييم ضعف نماذج GPT ضد الهجمات النصية التنافسية الحالية، ومقارنتها مع نماذج متقدمة أخرى.

أظهرت نتائج البحث أن نماذج GPT تُظهر بعض الخصائص المثيرة للاهتمام فيما يتعلق بالعروض العدائية. لا تتعرض GPT-3.5 وGPT-4 للخداع من الأمثلة المضادة للواقع المضافة في العروض، وقد تستفيد منها حتى. ومع ذلك، عند تقديم عروض لمكافحة الاحتيال، قد يقوم كلا النموذجين بتقديم توقعات خاطئة بشأن المدخلات المضادة للواقع، خاصة عندما تكون العروض المضادة للواقع قريبة من مدخلات المستخدم. في هذا الجانب، يبدو أن GPT-4 أكثر عرضة للتأثير مقارنةً بـ GPT-3.5.

فيما يتعلق بالسُمّية والتحيز، أظهرت الأبحاث أن GPT-3.5 و GPT-4 لا يُظهران انحيازًا ملحوظًا تجاه معظم مواضيع الصور النمطية تحت تلميحات النظام الإيجابية وغير المستهدفة. ومع ذلك، عندما يواجه النموذجان تلميحات نظام مضللة، يمكن "خداعهما" للموافقة على محتوى متحيز. من الجدير بالذكر أن GPT-4 أكثر عرضة للتأثر بتلميحات النظام المضللة المستهدفة مقارنةً بـ GPT-3.5.

تظهر الأبحاث أن نموذج GPT قد يكشف عن معلومات حساسة من بيانات التدريب، مثل عناوين البريد الإلكتروني، فيما يتعلق بمسألة تسرب الخصوصية. في بعض الحالات، يمكن أن يؤدي استخدام المعرفة الإضافية إلى تحسين دقة استخراج المعلومات بشكل ملحوظ. علاوة على ذلك، قد يكشف نموذج GPT أيضًا عن معلومات خاصة تم حقنها في تاريخ المحادثات. بشكل عام، يتمتع GPT-4 بأداء أفضل في حماية المعلومات الشخصية ( PII ) مقارنة بـ GPT-3.5، لكن كلا النموذجين قد يواجهان مشاكل عند التعامل مع عرض تسرب الخصوصية.

تأمل الفرق البحثية من خلال نشر هذه الاكتشافات في تشجيع المزيد من الباحثين على الانخراط في هذا العمل، والعمل معًا لإنشاء نماذج أكثر قوة وموثوقية. لتعزيز التعاون، قدموا رمز معيار سهل الاستخدام وقابل للتوسع، مما يجعل من السهل والفعال إجراء تقييم كامل على النماذج الجديدة.

تكشف هذه الدراسة ليس فقط عن مزايا ونقاط ضعف نماذج GPT الحالية من حيث الموثوقية، ولكنها تقدم أيضًا مرجعًا مهمًا واتجاهًا للبحث في أمان الذكاء الاصطناعي في المستقبل. مع الاستخدام الواسع للنماذج اللغوية الكبيرة في مجالات مختلفة، ستصبح ضمان موثوقيتها وأمانها أكثر أهمية.

GPT3.8%
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 10
  • إعادة النشر
  • مشاركة
تعليق
0/400
LiquidatedTwicevip
· 08-09 05:40
قنبلة بسيطة واضحة
شاهد النسخة الأصليةرد0
AirdropChaservip
· 08-09 05:04
الثغرات، من يفهم يفهم ها
شاهد النسخة الأصليةرد0
SellTheBouncevip
· 08-07 21:22
لقد قلت من قبل إن الذكاء الاصطناعي غير موثوق به، وقاع السوق لا يزال بعيدًا.
شاهد النسخة الأصليةرد0
GasFeeWhisperervip
· 08-06 07:49
هناك خائن في هذه الوظيفة
شاهد النسخة الأصليةرد0
SmartMoneyWalletvip
· 08-06 07:49
لقد قيل منذ فترة طويلة أن تسرب البيانات كان موجودًا دائمًا
شاهد النسخة الأصليةرد0
MetamaskMechanicvip
· 08-06 07:45
تس تس، ليس مفاجئًا
شاهد النسخة الأصليةرد0
SandwichTradervip
· 08-06 07:43
في اللحظات الحاسمة، ما زال هناك شيء جديد.
شاهد النسخة الأصليةرد0
RektCoastervip
· 08-06 07:41
انزلاق الركبة gpt أيضًا تعرض للقبضة الحديدية
شاهد النسخة الأصليةرد0
ChainWanderingPoetvip
· 08-06 07:37
كنت أعلم أنه غير موثوق به
شاهد النسخة الأصليةرد0
FlashLoanKingvip
· 08-06 07:28
الأمان لا يزال رقيقًا
شاهد النسخة الأصليةرد0
عرض المزيد
  • تثبيت