Недавно исследование, проведенное Университетом Иллинойс в Шампейне, Стэнфордским университетом, Калифорнийским университетом в Беркли, Центром безопасности искусственного интеллекта и Исследовательским центром Microsoft, было посвящено всесторонней оценке доверенности генеративной предобученной трансформерной модели (GPT). Исследовательская группа разработала комплексную платформу для оценки, чтобы проверить доверенность крупных языковых моделей (LLMs) с различных точек зрения.
Исследование выявило некоторые ранее не опубликованные уязвимости, связанные с надежностью. Например, модели GPT склонны выдавать токсичный и предвзятый контент, а также могут раскрывать личную информацию из обучающих данных и истории диалогов. Хотя в стандартных тестах GPT-4 обычно более надежен, чем GPT-3.5, в условиях злонамеренно разработанных системных подсказок или пользовательского ввода GPT-4 оказывается более уязвимым для атак, возможно, из-за того, что он более строго следует вводящим в заблуждение инструкциям.
Исследовательская команда провела всестороннюю оценку модели GPT с восьми различных точек зрения, включая устойчивость к атакующим воздействиям, способность следовать инструкциям, восстановительные способности модели и т.д. Оценка охватывала различные сценарии, задачи, показатели и наборы данных.
В процессе оценки исследователи обнаружили несколько интересных явлений. Например, GPT-3.5 и GPT-4 не поддаются заблуждению из-за контрфактических примеров, добавленных в демонстрацию, но предоставление демонстрации по борьбе с мошенничеством может привести к тому, что они будут неправильно предсказывать контрфактические входные данные. В отношении токсичности и предвзятости обе модели показывают небольшие отклонения от большинства стереотипных тем при благожелательных подсказках, но могут быть склонны согласиться с предвзятым содержанием под вводящими в заблуждение подсказками.
Что касается проблемы утечки конфиденциальности, исследования показывают, что модели GPT могут раскрывать конфиденциальную информацию из обучающих данных, такую как адреса электронной почты. В некоторых случаях использование дополнительной информации может значительно повысить точность извлечения информации. В целом, GPT-4 более надежен в защите личной идентифицируемой информации по сравнению с GPT-3.5, но обе модели демонстрируют сильные защитные способности при работе с определенными типами конфиденциальной информации.
Это исследование предоставляет всесторонний взгляд на оценку надежности моделей GPT, раскрывая потенциальные риски и возможности для улучшения. Исследовательская группа надеется, что эта работа сможет способствовать дальнейшему углубленному исследованию в академическом сообществе на этой основе, совместными усилиями создавая более мощные и надежные языковые модели.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
6 Лайков
Награда
6
5
Репост
Поделиться
комментарий
0/400
ReverseFOMOguy
· 07-24 20:05
Если это токсично, то так и надо. Правила созданы для того, чтобы их нарушать.
Посмотреть ОригиналОтветить0
BearMarketSurvivor
· 07-21 20:33
Все пропало, Мивэй тоже не очень надежен.
Посмотреть ОригиналОтветить0
OvertimeSquid
· 07-21 20:29
4 заслуживает наказания
Посмотреть ОригиналОтветить0
DisillusiionOracle
· 07-21 20:13
4 чем больше слушаешь, тем больше опасности. Победа сторонников максимума человеческой природы.
Посмотреть ОригиналОтветить0
CryptoMotivator
· 07-21 20:08
Думал, что это безопасно, но это довольно ненадежно.
Исследование выявило уязвимости в надежности моделей GPT, многогранная оценка рисков безопасности и конфиденциальности.
Полная оценка надежности модели GPT
Недавно исследование, проведенное Университетом Иллинойс в Шампейне, Стэнфордским университетом, Калифорнийским университетом в Беркли, Центром безопасности искусственного интеллекта и Исследовательским центром Microsoft, было посвящено всесторонней оценке доверенности генеративной предобученной трансформерной модели (GPT). Исследовательская группа разработала комплексную платформу для оценки, чтобы проверить доверенность крупных языковых моделей (LLMs) с различных точек зрения.
Исследование выявило некоторые ранее не опубликованные уязвимости, связанные с надежностью. Например, модели GPT склонны выдавать токсичный и предвзятый контент, а также могут раскрывать личную информацию из обучающих данных и истории диалогов. Хотя в стандартных тестах GPT-4 обычно более надежен, чем GPT-3.5, в условиях злонамеренно разработанных системных подсказок или пользовательского ввода GPT-4 оказывается более уязвимым для атак, возможно, из-за того, что он более строго следует вводящим в заблуждение инструкциям.
Исследовательская команда провела всестороннюю оценку модели GPT с восьми различных точек зрения, включая устойчивость к атакующим воздействиям, способность следовать инструкциям, восстановительные способности модели и т.д. Оценка охватывала различные сценарии, задачи, показатели и наборы данных.
В процессе оценки исследователи обнаружили несколько интересных явлений. Например, GPT-3.5 и GPT-4 не поддаются заблуждению из-за контрфактических примеров, добавленных в демонстрацию, но предоставление демонстрации по борьбе с мошенничеством может привести к тому, что они будут неправильно предсказывать контрфактические входные данные. В отношении токсичности и предвзятости обе модели показывают небольшие отклонения от большинства стереотипных тем при благожелательных подсказках, но могут быть склонны согласиться с предвзятым содержанием под вводящими в заблуждение подсказками.
Что касается проблемы утечки конфиденциальности, исследования показывают, что модели GPT могут раскрывать конфиденциальную информацию из обучающих данных, такую как адреса электронной почты. В некоторых случаях использование дополнительной информации может значительно повысить точность извлечения информации. В целом, GPT-4 более надежен в защите личной идентифицируемой информации по сравнению с GPT-3.5, но обе модели демонстрируют сильные защитные способности при работе с определенными типами конфиденциальной информации.
Это исследование предоставляет всесторонний взгляд на оценку надежности моделей GPT, раскрывая потенциальные риски и возможности для улучшения. Исследовательская группа надеется, что эта работа сможет способствовать дальнейшему углубленному исследованию в академическом сообществе на этой основе, совместными усилиями создавая более мощные и надежные языковые модели.