مؤخراً، أجرت دراسة مشتركة بين جامعة إلينوي في أوربانا-شامبين، جامعة ستانفورد، جامعة كاليفورنيا في بيركلي، مركز أمان الذكاء الاصطناعي، ومعهد أبحاث مايكروسوفت، تقييمًا شاملاً لموثوقية نموذج المحولات المدربة مسبقًا (GPT). قام فريق البحث بتطوير منصة تقييم شاملة لاختبار موثوقية نماذج اللغة الكبيرة (LLMs) من زوايا متعددة.
أظهرت الأبحاث وجود بعض الثغرات المتعلقة بالموثوقية التي لم يتم الكشف عنها سابقًا. على سبيل المثال، فإن نموذج GPT عرضة لإنتاج مخرجات سامة ومتحيزة، وقد يكشف أيضًا عن معلومات خاصة من بيانات التدريب وسجل المحادثات. على الرغم من أن GPT-4 عادة ما يكون أكثر موثوقية من GPT-3.5 في الاختبارات القياسية، إلا أنه عندما يواجه تعليمات نظام مصممة بشكل خبيث أو إدخالات مستخدم، فإن GPT-4 يصبح أكثر عرضة للهجوم، ربما لأنه يتبع التعليمات المضللة بشكل أكثر صرامة.
قام فريق البحث بتقييم شامل لنموذج GPT من ثمانية جوانب مختلفة، بما في ذلك متانة الهجمات العدائية، وقدرة الالتزام بالتعليمات، وقدرة استعادة النموذج، وغيرها. شمل التقييم مجموعة متنوعة من السيناريوهات والمهام والمعايير ومجموعات البيانات.
أثناء عملية التقييم، اكتشف الباحثون بعض الظواهر المثيرة للاهتمام. على سبيل المثال، لا تتأثر نماذج GPT-3.5 و GPT-4 بالأمثلة المضادة للحقائق المضافة في العرض، لكن تقديم عرض مضاد للاحتيال قد يؤدي إلى تقديم توقعات خاطئة من قبلهما تجاه المدخلات المضادة للحقائق. فيما يتعلق بالسمية والانحياز، فإن النماذج الاثنين تظهر انحيازًا طفيفًا تجاه معظم مواضيع الصور النمطية تحت المحفزات الحميدة، ولكنها قد تُستدرج للموافقة على محتوى متحيز تحت المحفزات المضللة.
فيما يتعلق بمشكلة تسرب الخصوصية، أظهرت الأبحاث أن نماذج GPT قد تكشف عن معلومات حساسة من بيانات التدريب، مثل عناوين البريد الإلكتروني. في بعض الحالات، يمكن أن يؤدي استخدام المعرفة التكميلية إلى تحسين دقة استخراج المعلومات بشكل كبير. بشكل عام، يعد GPT-4 أكثر قوة في حماية المعلومات الشخصية مقارنةً بـ GPT-3.5، ولكن كلا النموذجين يظهران قدرة قوية على الحماية عند مواجهة أنواع معينة من المعلومات الخاصة.
تقدم هذه الدراسة منظورًا شاملاً لتقييم موثوقية نماذج GPT، كاشفة عن المخاطر المحتملة ومساحات التحسين. يأمل فريق البحث أن تسهم هذه العمل في تعزيز الجهود الأكاديمية للمتابعة في هذا المجال، والعمل معًا على إنشاء نماذج لغوية أكثر قوة وموثوقية.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
تسجيلات الإعجاب 6
أعجبني
6
5
مشاركة
تعليق
0/400
ReverseFOMOguy
· 07-24 20:05
إذا كان سامًا فهو كذلك، القواعد موجودة لتُكسر.
شاهد النسخة الأصليةرد0
BearMarketSurvivor
· 07-21 20:33
انتهى الأمر، مي وي ليست موثوقة للغاية أيضًا.
شاهد النسخة الأصليةرد0
OvertimeSquid
· 07-21 20:29
4 يستحق الضرب أيضًا
شاهد النسخة الأصليةرد0
DisillusiionOracle
· 07-21 20:13
4 كلما كنت مطيعًا 4 كلما كنت أكثر خطورة، انتصار دعاة الإنسانية.
أظهرت الأبحاث ثغرات في موثوقية نموذج GPT تقييم أبعاد متعددة لمخاطر الأمان والخصوصية
تقييم شامل لثقة نموذج GPT
مؤخراً، أجرت دراسة مشتركة بين جامعة إلينوي في أوربانا-شامبين، جامعة ستانفورد، جامعة كاليفورنيا في بيركلي، مركز أمان الذكاء الاصطناعي، ومعهد أبحاث مايكروسوفت، تقييمًا شاملاً لموثوقية نموذج المحولات المدربة مسبقًا (GPT). قام فريق البحث بتطوير منصة تقييم شاملة لاختبار موثوقية نماذج اللغة الكبيرة (LLMs) من زوايا متعددة.
أظهرت الأبحاث وجود بعض الثغرات المتعلقة بالموثوقية التي لم يتم الكشف عنها سابقًا. على سبيل المثال، فإن نموذج GPT عرضة لإنتاج مخرجات سامة ومتحيزة، وقد يكشف أيضًا عن معلومات خاصة من بيانات التدريب وسجل المحادثات. على الرغم من أن GPT-4 عادة ما يكون أكثر موثوقية من GPT-3.5 في الاختبارات القياسية، إلا أنه عندما يواجه تعليمات نظام مصممة بشكل خبيث أو إدخالات مستخدم، فإن GPT-4 يصبح أكثر عرضة للهجوم، ربما لأنه يتبع التعليمات المضللة بشكل أكثر صرامة.
قام فريق البحث بتقييم شامل لنموذج GPT من ثمانية جوانب مختلفة، بما في ذلك متانة الهجمات العدائية، وقدرة الالتزام بالتعليمات، وقدرة استعادة النموذج، وغيرها. شمل التقييم مجموعة متنوعة من السيناريوهات والمهام والمعايير ومجموعات البيانات.
أثناء عملية التقييم، اكتشف الباحثون بعض الظواهر المثيرة للاهتمام. على سبيل المثال، لا تتأثر نماذج GPT-3.5 و GPT-4 بالأمثلة المضادة للحقائق المضافة في العرض، لكن تقديم عرض مضاد للاحتيال قد يؤدي إلى تقديم توقعات خاطئة من قبلهما تجاه المدخلات المضادة للحقائق. فيما يتعلق بالسمية والانحياز، فإن النماذج الاثنين تظهر انحيازًا طفيفًا تجاه معظم مواضيع الصور النمطية تحت المحفزات الحميدة، ولكنها قد تُستدرج للموافقة على محتوى متحيز تحت المحفزات المضللة.
فيما يتعلق بمشكلة تسرب الخصوصية، أظهرت الأبحاث أن نماذج GPT قد تكشف عن معلومات حساسة من بيانات التدريب، مثل عناوين البريد الإلكتروني. في بعض الحالات، يمكن أن يؤدي استخدام المعرفة التكميلية إلى تحسين دقة استخراج المعلومات بشكل كبير. بشكل عام، يعد GPT-4 أكثر قوة في حماية المعلومات الشخصية مقارنةً بـ GPT-3.5، ولكن كلا النموذجين يظهران قدرة قوية على الحماية عند مواجهة أنواع معينة من المعلومات الخاصة.
تقدم هذه الدراسة منظورًا شاملاً لتقييم موثوقية نماذج GPT، كاشفة عن المخاطر المحتملة ومساحات التحسين. يأمل فريق البحث أن تسهم هذه العمل في تعزيز الجهود الأكاديمية للمتابعة في هذا المجال، والعمل معًا على إنشاء نماذج لغوية أكثر قوة وموثوقية.