Нещодавно дослідження, проведене Університетом Іллінойс в Урбана-Шампейн, Стенфордським університетом, Університетом Каліфорнії в Берклі, Центром безпеки штучного інтелекту та дослідницькою лабораторією Microsoft, провело всебічну оцінку надійності генеративної попередньо навченої моделі трансформера (GPT). Дослідницька група розробила інтегровану платформу оцінки для багатогранної перевірки надійності великих мовних моделей (LLMs).
Дослідження виявило деякі раніше неопубліковані вразливості, пов'язані з надійністю. Наприклад, моделі GPT схильні генерувати токсичний і упереджений контент, а також можуть витікати приватні дані з навчальних наборів і історії діалогів. Хоча в стандартних тестах GPT-4 зазвичай надійніший за GPT-3.5, при зіткненні з навмисно спроектованими системними підказками або введеннями користувача, GPT-4 навпаки виявляється більш вразливим до атак, можливо, тому, що він більш строго дотримується оманливих інструкцій.
Дослідницька команда всебічно оцінила модель GPT з восьми різних аспектів, включаючи стійкість до атак, здатність дотримуватись інструкцій, здатність до відновлення моделі тощо. Оцінка охоплює різні сцени, завдання, показники та набори даних.
Під час оцінювання дослідники виявили кілька цікавих явищ. Наприклад, GPT-3.5 та GPT-4 не піддаються омані контрфактичними прикладами, які додаються до демонстрацій, але надання демонстрацій, спрямованих на боротьбу з шахрайством, може призвести до того, що вони неправильно реагуватимуть на контрфактичні введення. Щодо токсичності та упередженості, обидві моделі мають незначні відхилення від більшості тем стереотипів за добрих підказок, але під оманливими підказками можуть бути схильні погоджуватися з упередженим контентом.
Щодо проблеми витоку конфіденційності, дослідження показали, що модель GPT може витікати чутливу інформацію з навчальних даних, таку як електронні адреси. У деяких випадках використання додаткових знань може значно підвищити точність витягання інформації. Загалом, GPT-4 є більш надійним у захисті особистої ідентифікаційної інформації, ніж GPT-3.5, але обидві моделі демонструють сильні захисні можливості при роботі з певними типами конфіденційної інформації.
Це дослідження надає всебічний погляд на оцінку надійності моделей GPT, виявляючи потенційні ризики та можливості для покращення. Дослідницька команда сподівається, що ця робота сприятиме подальшому поглибленню досліджень у науковій спільноті, спільно працюючи над створенням потужніших і надійніших мовних моделей.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
6 лайків
Нагородити
6
5
Поділіться
Прокоментувати
0/400
ReverseFOMOguy
· 07-24 20:05
Якщо це отруйно, то так і треба. Правила створені для того, щоб їх порушувати.
Переглянути оригіналвідповісти на0
BearMarketSurvivor
· 07-21 20:33
Всё пропало, Мі Вей також не надто надійний.
Переглянути оригіналвідповісти на0
OvertimeSquid
· 07-21 20:29
4 отримав по заслугам
Переглянути оригіналвідповісти на0
DisillusiionOracle
· 07-21 20:13
Чим більше слухняні, тим більше небезпечно. Перемога гуманістів.
Переглянути оригіналвідповісти на0
CryptoMotivator
· 07-21 20:08
Думав, що це дуже безпечно, а насправді це не дуже надійно.
Дослідження виявило вразливості довіри моделей GPT: багатогранна оцінка безпеки та ризиків конфіденційності
Всеобічна оцінка надійності моделі GPT
Нещодавно дослідження, проведене Університетом Іллінойс в Урбана-Шампейн, Стенфордським університетом, Університетом Каліфорнії в Берклі, Центром безпеки штучного інтелекту та дослідницькою лабораторією Microsoft, провело всебічну оцінку надійності генеративної попередньо навченої моделі трансформера (GPT). Дослідницька група розробила інтегровану платформу оцінки для багатогранної перевірки надійності великих мовних моделей (LLMs).
Дослідження виявило деякі раніше неопубліковані вразливості, пов'язані з надійністю. Наприклад, моделі GPT схильні генерувати токсичний і упереджений контент, а також можуть витікати приватні дані з навчальних наборів і історії діалогів. Хоча в стандартних тестах GPT-4 зазвичай надійніший за GPT-3.5, при зіткненні з навмисно спроектованими системними підказками або введеннями користувача, GPT-4 навпаки виявляється більш вразливим до атак, можливо, тому, що він більш строго дотримується оманливих інструкцій.
Дослідницька команда всебічно оцінила модель GPT з восьми різних аспектів, включаючи стійкість до атак, здатність дотримуватись інструкцій, здатність до відновлення моделі тощо. Оцінка охоплює різні сцени, завдання, показники та набори даних.
Під час оцінювання дослідники виявили кілька цікавих явищ. Наприклад, GPT-3.5 та GPT-4 не піддаються омані контрфактичними прикладами, які додаються до демонстрацій, але надання демонстрацій, спрямованих на боротьбу з шахрайством, може призвести до того, що вони неправильно реагуватимуть на контрфактичні введення. Щодо токсичності та упередженості, обидві моделі мають незначні відхилення від більшості тем стереотипів за добрих підказок, але під оманливими підказками можуть бути схильні погоджуватися з упередженим контентом.
Щодо проблеми витоку конфіденційності, дослідження показали, що модель GPT може витікати чутливу інформацію з навчальних даних, таку як електронні адреси. У деяких випадках використання додаткових знань може значно підвищити точність витягання інформації. Загалом, GPT-4 є більш надійним у захисті особистої ідентифікаційної інформації, ніж GPT-3.5, але обидві моделі демонструють сильні захисні можливості при роботі з певними типами конфіденційної інформації.
Це дослідження надає всебічний погляд на оцінку надійності моделей GPT, виявляючи потенційні ризики та можливості для покращення. Дослідницька команда сподівається, що ця робота сприятиме подальшому поглибленню досліджень у науковій спільноті, спільно працюючи над створенням потужніших і надійніших мовних моделей.