Исследование выявило уязвимости в надежности моделей GPT, многогранная оценка рисков безопасности и конфиденциальности.

2025-07-21 20:04:56

Полная оценка надежности модели GPT

Недавно исследование, проведенное Университетом Иллинойс в Шампейне, Стэнфордским университетом, Калифорнийским университетом в Беркли, Центром безопасности искусственного интеллекта и Исследовательским центром Microsoft, было посвящено всесторонней оценке доверенности генеративной предобученной трансформерной модели (GPT). Исследовательская группа разработала комплексную платформу для оценки, чтобы проверить доверенность крупных языковых моделей (LLMs) с различных точек зрения.

Исследование выявило некоторые ранее не опубликованные уязвимости, связанные с надежностью. Например, модели GPT склонны выдавать токсичный и предвзятый контент, а также могут раскрывать личную информацию из обучающих данных и истории диалогов. Хотя в стандартных тестах GPT-4 обычно более надежен, чем GPT-3.5, в условиях злонамеренно разработанных системных подсказок или пользовательского ввода GPT-4 оказывается более уязвимым для атак, возможно, из-за того, что он более строго следует вводящим в заблуждение инструкциям.

Исследовательская команда провела всестороннюю оценку модели GPT с восьми различных точек зрения, включая устойчивость к атакующим воздействиям, способность следовать инструкциям, восстановительные способности модели и т.д. Оценка охватывала различные сценарии, задачи, показатели и наборы данных.

В процессе оценки исследователи обнаружили несколько интересных явлений. Например, GPT-3.5 и GPT-4 не поддаются заблуждению из-за контрфактических примеров, добавленных в демонстрацию, но предоставление демонстрации по борьбе с мошенничеством может привести к тому, что они будут неправильно предсказывать контрфактические входные данные. В отношении токсичности и предвзятости обе модели показывают небольшие отклонения от большинства стереотипных тем при благожелательных подсказках, но могут быть склонны согласиться с предвзятым содержанием под вводящими в заблуждение подсказками.

Что касается проблемы утечки конфиденциальности, исследования показывают, что модели GPT могут раскрывать конфиденциальную информацию из обучающих данных, такую как адреса электронной почты. В некоторых случаях использование дополнительной информации может значительно повысить точность извлечения информации. В целом, GPT-4 более надежен в защите личной идентифицируемой информации по сравнению с GPT-3.5, но обе модели демонстрируют сильные защитные способности при работе с определенными типами конфиденциальной информации.

Это исследование предоставляет всесторонний взгляд на оценку надежности моделей GPT, раскрывая потенциальные риски и возможности для улучшения. Исследовательская группа надеется, что эта работа сможет способствовать дальнейшему углубленному исследованию в академическом сообществе на этой основе, совместными усилиями создавая более мощные и надежные языковые модели.

GPT2.85%

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

6 Лайков

Награда
6
5
Репост
Поделиться

комментарий

0/400

ReverseFOMOguy

· 07-24 20:05

Если это токсично, то так и надо. Правила созданы для того, чтобы их нарушать.

Посмотреть ОригиналОтветить0

BearMarketSurvivor

· 07-21 20:33

Все пропало, Мивэй тоже не очень надежен.

Посмотреть ОригиналОтветить0

OvertimeSquid

· 07-21 20:29

4 заслуживает наказания

Посмотреть ОригиналОтветить0

DisillusiionOracle

· 07-21 20:13

4 чем больше слушаешь, тем больше опасности. Победа сторонников максимума человеческой природы.

Посмотреть ОригиналОтветить0

CryptoMotivator

· 07-21 20:08

Думал, что это безопасно, но это довольно ненадежно.

Посмотреть ОригиналОтветить0

Тема
#Gate & WLFI USD1 Points Program
57k Популярность
#Trump Allows 401(k) Crypto Investing
29k Популярность
#Join Copy Trading Share to Win $2,000
27k Популярность
#Show My Alpha Points
76k Популярность
#SOL Futures Reach New High
22k Популярность

Закрепить

Карта сайта