أطلقت جامعة إلينوي في أوربانا-شامبين بالتعاون مع جامعة ستانفورد وجامعة كاليفورنيا في بيركلي وغيرها من المؤسسات، منصة شاملة لتقييم موثوقية نماذج اللغة الكبيرة (LLMs). تم نشر نتائج البحث ذات الصلة في الورقة العلمية "DecodingTrust: تقييم شامل لموثوقية نماذج GPT."
أظهرت الأبحاث وجود بعض الثغرات المتعلقة بالموثوقية التي لم تُكتشف سابقًا. على سبيل المثال، من السهل تضليل نموذج GPT لإنتاج مخرجات سامة ومت偏لة، وقد يكشف أيضًا عن بيانات التدريب والمعلومات الخاصة من تاريخ المحادثات. على الرغم من أن GPT-4 عادةً ما يكون أكثر موثوقية من GPT-3.5 في اختبارات المعايير القياسية، إلا أنه يصبح أكثر عرضة للهجوم عند مواجهة أنظمة أو تلميحات مصممة بشكل خبيث، وقد يكون ذلك لأن GPT-4 ينفذ الأوامر المضللة بشكل أكثر صرامة.
قامت فريق البحث بتقييم شامل لنموذج GPT من 8 زوايا موثوقية، بما في ذلك القوة ضد الهجمات المعاكسة، السموم والتحيز، وانتهاك الخصوصية. على سبيل المثال، لتقييم قوة النموذج ضد هجمات النصوص المعاكسة، صمم الفريق ثلاثة سيناريوهات تقييم: اختبار AdvGLUE القياسي، واختبار AdvGLUE تحت مهام إرشادية مختلفة، واختبار AdvGLUE++ الجديد الذي تم إنشاؤه والذي يمثل تحديًا.
فيما يتعلق بمتانة نموذج العرض المناهض، وجدت الأبحاث أن GPT-3.5 و GPT-4 لن يتم تضليلهما بواسطة الأمثلة المضادة للحقائق، بل يمكن أن يستفيدا منها. ومع ذلك، قد يؤدي عرض مكافحة الاحتيال إلى تضليل النموذج في تقديم توقعات خاطئة حول المدخلات المضادة للحقائق، خاصة عندما تكون العروض المضادة للحقائق قريبة من مدخلات المستخدم، حيث يكون GPT-4 أكثر تأثراً.
فيما يتعلق بالتحيزات السامة، تحت التوجيهات الإيجابية وغير المستهدفة، لا تختلف نماذج GPT في تحيزاتها تجاه معظم موضوعات الصور النمطية بشكل كبير. ولكن تحت التوجيهات المضللة، قد يتم تحفيز كلا النموذجين للموافقة على محتوى متحيز، حيث يكون GPT-4 أكثر عرضة للتأثير. كما يعتمد انحياز النموذج أيضًا على الجماعات السكانية وموضوعات الصور النمطية المذكورة في مطالبات المستخدم.
فيما يتعلق بتسرب الخصوصية، وجدت الدراسات أن نماذج GPT قد تسرب معلومات حساسة من بيانات التدريب، مثل عناوين البريد الإلكتروني. في بعض الحالات، يمكن أن يؤدي استخدام المعرفة التكميلية إلى تحسين دقة استخراج المعلومات بشكل كبير. بالإضافة إلى ذلك، قد تسرب النماذج معلومات خاصة تم حقنها في تاريخ المحادثة. بشكل عام، فإن GPT-4 أكثر قوة في حماية معلومات الهوية الشخصية ( PII ) مقارنة بـ GPT-3.5، ولكن تحت ظروف معينة، لا يزال من الممكن أن تسرب جميع أنواع PII.
توفر هذه الدراسة منظورًا شاملاً لتقييم موثوقية نماذج GPT، كاشفة عن المخاطر والتحديات المحتملة. يأمل فريق البحث أن تسهم هذه العمل في تعزيز الجهود المشتركة بين الأكاديميا والصناعة لمواصلة البحث العميق في هذا المجال، والعمل معًا على إنشاء نماذج لغوية أقوى وأكثر موثوقية.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
تسجيلات الإعجاب 14
أعجبني
14
6
مشاركة
تعليق
0/400
Blockblind
· منذ 6 س
جاي تلعب، مرة أخرى تم خداعي من قبل gpt4
شاهد النسخة الأصليةرد0
GasSavingMaster
· منذ 6 س
آه، هذا التقرير التدقيقي يجعلني أشعر بالارتعاش
شاهد النسخة الأصليةرد0
TokenBeginner'sGuide
· منذ 6 س
تذكير لطيف: إن تحديثات GPT في الواقع تعني أن المخاطر تتزايد أيضًا، تظهر البيانات أن 85% من مخاطر التسرب تأتي من التنفيذ الصارم الذي يبدو ذكيًا... لا يمكن إنكار أن هذه الدراسة قد دقت ناقوس الخطر لنا.
شاهد النسخة الأصليةرد0
BearMarketNoodler
· منذ 6 س
نودلز القلي هبطت مرة أخرى، أنصح الجميع بتعلم بعض الحيل لخداع GPT.
تقييم شامل لثقة نموذج GPT: كشف المخاطر والتحديات المحتملة
تقييم موثوقية نموذج GPT: تحليل شامل ومخاطر محتملة
أطلقت جامعة إلينوي في أوربانا-شامبين بالتعاون مع جامعة ستانفورد وجامعة كاليفورنيا في بيركلي وغيرها من المؤسسات، منصة شاملة لتقييم موثوقية نماذج اللغة الكبيرة (LLMs). تم نشر نتائج البحث ذات الصلة في الورقة العلمية "DecodingTrust: تقييم شامل لموثوقية نماذج GPT."
أظهرت الأبحاث وجود بعض الثغرات المتعلقة بالموثوقية التي لم تُكتشف سابقًا. على سبيل المثال، من السهل تضليل نموذج GPT لإنتاج مخرجات سامة ومت偏لة، وقد يكشف أيضًا عن بيانات التدريب والمعلومات الخاصة من تاريخ المحادثات. على الرغم من أن GPT-4 عادةً ما يكون أكثر موثوقية من GPT-3.5 في اختبارات المعايير القياسية، إلا أنه يصبح أكثر عرضة للهجوم عند مواجهة أنظمة أو تلميحات مصممة بشكل خبيث، وقد يكون ذلك لأن GPT-4 ينفذ الأوامر المضللة بشكل أكثر صرامة.
قامت فريق البحث بتقييم شامل لنموذج GPT من 8 زوايا موثوقية، بما في ذلك القوة ضد الهجمات المعاكسة، السموم والتحيز، وانتهاك الخصوصية. على سبيل المثال، لتقييم قوة النموذج ضد هجمات النصوص المعاكسة، صمم الفريق ثلاثة سيناريوهات تقييم: اختبار AdvGLUE القياسي، واختبار AdvGLUE تحت مهام إرشادية مختلفة، واختبار AdvGLUE++ الجديد الذي تم إنشاؤه والذي يمثل تحديًا.
فيما يتعلق بمتانة نموذج العرض المناهض، وجدت الأبحاث أن GPT-3.5 و GPT-4 لن يتم تضليلهما بواسطة الأمثلة المضادة للحقائق، بل يمكن أن يستفيدا منها. ومع ذلك، قد يؤدي عرض مكافحة الاحتيال إلى تضليل النموذج في تقديم توقعات خاطئة حول المدخلات المضادة للحقائق، خاصة عندما تكون العروض المضادة للحقائق قريبة من مدخلات المستخدم، حيث يكون GPT-4 أكثر تأثراً.
فيما يتعلق بالتحيزات السامة، تحت التوجيهات الإيجابية وغير المستهدفة، لا تختلف نماذج GPT في تحيزاتها تجاه معظم موضوعات الصور النمطية بشكل كبير. ولكن تحت التوجيهات المضللة، قد يتم تحفيز كلا النموذجين للموافقة على محتوى متحيز، حيث يكون GPT-4 أكثر عرضة للتأثير. كما يعتمد انحياز النموذج أيضًا على الجماعات السكانية وموضوعات الصور النمطية المذكورة في مطالبات المستخدم.
فيما يتعلق بتسرب الخصوصية، وجدت الدراسات أن نماذج GPT قد تسرب معلومات حساسة من بيانات التدريب، مثل عناوين البريد الإلكتروني. في بعض الحالات، يمكن أن يؤدي استخدام المعرفة التكميلية إلى تحسين دقة استخراج المعلومات بشكل كبير. بالإضافة إلى ذلك، قد تسرب النماذج معلومات خاصة تم حقنها في تاريخ المحادثة. بشكل عام، فإن GPT-4 أكثر قوة في حماية معلومات الهوية الشخصية ( PII ) مقارنة بـ GPT-3.5، ولكن تحت ظروف معينة، لا يزال من الممكن أن تسرب جميع أنواع PII.
توفر هذه الدراسة منظورًا شاملاً لتقييم موثوقية نماذج GPT، كاشفة عن المخاطر والتحديات المحتملة. يأمل فريق البحث أن تسهم هذه العمل في تعزيز الجهود المشتركة بين الأكاديميا والصناعة لمواصلة البحث العميق في هذا المجال، والعمل معًا على إنشاء نماذج لغوية أقوى وأكثر موثوقية.