Исследование выявило уязвимости в надежности моделей GPT, многогранная оценка рисков безопасности и конфиденциальности.

Полная оценка надежности модели GPT

Недавно исследование, проведенное Университетом Иллинойс в Шампейне, Стэнфордским университетом, Калифорнийским университетом в Беркли, Центром безопасности искусственного интеллекта и Исследовательским центром Microsoft, было посвящено всесторонней оценке доверенности генеративной предобученной трансформерной модели (GPT). Исследовательская группа разработала комплексную платформу для оценки, чтобы проверить доверенность крупных языковых моделей (LLMs) с различных точек зрения.

Исследование выявило некоторые ранее не опубликованные уязвимости, связанные с надежностью. Например, модели GPT склонны выдавать токсичный и предвзятый контент, а также могут раскрывать личную информацию из обучающих данных и истории диалогов. Хотя в стандартных тестах GPT-4 обычно более надежен, чем GPT-3.5, в условиях злонамеренно разработанных системных подсказок или пользовательского ввода GPT-4 оказывается более уязвимым для атак, возможно, из-за того, что он более строго следует вводящим в заблуждение инструкциям.

Исследовательская команда провела всестороннюю оценку модели GPT с восьми различных точек зрения, включая устойчивость к атакующим воздействиям, способность следовать инструкциям, восстановительные способности модели и т.д. Оценка охватывала различные сценарии, задачи, показатели и наборы данных.

В процессе оценки исследователи обнаружили несколько интересных явлений. Например, GPT-3.5 и GPT-4 не поддаются заблуждению из-за контрфактических примеров, добавленных в демонстрацию, но предоставление демонстрации по борьбе с мошенничеством может привести к тому, что они будут неправильно предсказывать контрфактические входные данные. В отношении токсичности и предвзятости обе модели показывают небольшие отклонения от большинства стереотипных тем при благожелательных подсказках, но могут быть склонны согласиться с предвзятым содержанием под вводящими в заблуждение подсказками.

Что касается проблемы утечки конфиденциальности, исследования показывают, что модели GPT могут раскрывать конфиденциальную информацию из обучающих данных, такую как адреса электронной почты. В некоторых случаях использование дополнительной информации может значительно повысить точность извлечения информации. В целом, GPT-4 более надежен в защите личной идентифицируемой информации по сравнению с GPT-3.5, но обе модели демонстрируют сильные защитные способности при работе с определенными типами конфиденциальной информации.

Это исследование предоставляет всесторонний взгляд на оценку надежности моделей GPT, раскрывая потенциальные риски и возможности для улучшения. Исследовательская группа надеется, что эта работа сможет способствовать дальнейшему углубленному исследованию в академическом сообществе на этой основе, совместными усилиями создавая более мощные и надежные языковые модели.

GPT2.85%
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 5
  • Репост
  • Поделиться
комментарий
0/400
ReverseFOMOguyvip
· 07-24 20:05
Если это токсично, то так и надо. Правила созданы для того, чтобы их нарушать.
Посмотреть ОригиналОтветить0
BearMarketSurvivorvip
· 07-21 20:33
Все пропало, Мивэй тоже не очень надежен.
Посмотреть ОригиналОтветить0
OvertimeSquidvip
· 07-21 20:29
4 заслуживает наказания
Посмотреть ОригиналОтветить0
DisillusiionOraclevip
· 07-21 20:13
4 чем больше слушаешь, тем больше опасности. Победа сторонников максимума человеческой природы.
Посмотреть ОригиналОтветить0
CryptoMotivatorvip
· 07-21 20:08
Думал, что это безопасно, но это довольно ненадежно.
Посмотреть ОригиналОтветить0
  • Закрепить