Полная оценка надежности модели GPT: выявление потенциальных уязвимостей и угроз безопасности

robot
Генерация тезисов в процессе

Полная оценка надежности модели GPT

Недавно исследовательская группа, состоящая из Университета Иллинойс в Урбана-Шамейн, Стэнфордского университета, Университета Калифорнии в Беркли, Центра безопасности искусственного интеллекта и Исследовательского института Microsoft, выпустила комплексную платформу оценки надежности для крупных языковых моделей (LLMs). Результаты исследования были подробно описаны в последней статье «DecodingTrust: Полная оценка надежности моделей GPT».

Исследовательская группа обнаружила несколько ранее не раскрытых уязвимостей, связанных с надежностью. Например, модели GPT легко могут быть введены в заблуждение, что приводит к токсичным и предвзятым выводам, а также могут раскрывать конфиденциальную информацию из обучающих данных и истории диалогов. Стоит отметить, что хотя GPT-4 обычно более надежен, чем GPT-3.5, в стандартных бенчмарках, в случае злонамеренно разработанных систем или запросов от пользователей, GPT-4 оказывается более уязвимым к атакам. Это может быть связано с тем, что GPT-4 более точно следует вводящим в заблуждение инструкциям.

Чтобы всесторонне оценить надежность модели GPT, исследовательская команда провела анализ с восьми различных точек зрения, включая устойчивость к атакам, токсичность и предвзятость, утечку конфиденциальности и другие аспекты. Процесс оценки охватывал множество сценариев, задач, показателей и наборов данных.

В области противостоящей устойчивости исследователи разработали три оценочных сценария: стандартный тест AdvGLUE, тест AdvGLUE с различными инструкциями по заданию и более сложный тест AdvGLUE++. Эти тесты предназначены для оценки уязвимости моделей GPT к существующим текстовым противостоящим атакам и для сравнения с другими передовыми моделями.

Исследования показывают, что модели GPT демонстрируют некоторые интересные характеристики в отношении противостоящих демонстраций. GPT-3.5 и GPT-4 не поддаются заблуждению из-за добавленных контрфактических примеров в демонстрациях и могут даже извлекать из этого выгоду. Однако, когда предоставляются демонстрации противодействия мошенничеству, обе модели могут давать неверные прогнозы на контрфактические входные данные, особенно когда контрфактические демонстрации близки к пользовательскому вводу. В этом отношении GPT-4, похоже, более подвержен влиянию, чем GPT-3.5.

В отношении токсичности и предвзятости исследования показали, что GPT-3.5 и GPT-4 не имеют значительных предвзятостей по большинству тем стереотипов при благожелательных и безцелевых системных подсказках. Однако, сталкиваясь с вводящими в заблуждение системными подсказками, обе модели могут быть "введены в заблуждение" согласиться с предвзятым содержанием. Стоит отметить, что GPT-4 более подвержен влиянию целенаправленных вводящих в заблуждение системных подсказок по сравнению с GPT-3.5.

Что касается проблемы утечки конфиденциальности, исследования показывают, что модели GPT могут раскрывать чувствительную информацию из обучающих данных, такую как адреса электронной почты. В некоторых случаях использование дополнительной информации может значительно повысить точность извлечения информации. Кроме того, модели GPT могут также раскрывать личную информацию, введенную в историю диалога. В целом, GPT-4 показывает лучшие результаты в защите личной идентифицируемой информации (PII) по сравнению с GPT-3.5, но обе модели могут сталкиваться с проблемами при демонстрации утечки конфиденциальности.

Исследовательская команда надеется, что, обнародовав эти результаты, она сможет побудить больше исследователей участвовать в этой работе и совместно стремиться к созданию более мощных и надежных моделей. Для содействия сотрудничеству они предоставили удобный и масштабируемый эталонный код, что позволяет легко и эффективно проводить полную оценку на новых моделях.

Это исследование не только выявило преимущества и потенциальные угрозы текущих моделей GPT в отношении надежности, но и предоставило важные ссылки и направления для будущих исследований в области безопасности искусственного интеллекта. С учетом широкого применения крупных языковых моделей в различных областях, обеспечение их надежности и безопасности станет все более важным.

GPT-2.81%
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 10
  • Репост
  • Поделиться
комментарий
0/400
LiquidatedTwicevip
· 08-09 05:40
Простая бомба понятна
Посмотреть ОригиналОтветить0
AirdropChaservip
· 08-09 05:04
Уязвимость, те кто понимает, тот понимает.
Посмотреть ОригиналОтветить0
SellTheBouncevip
· 08-07 21:22
Я давно говорил, что ИИ не надежен, дно рынка еще далеко.
Посмотреть ОригиналОтветить0
GasFeeWhisperervip
· 08-06 07:49
Здесь есть предатель.
Посмотреть ОригиналОтветить0
SmartMoneyWalletvip
· 08-06 07:49
Я давно говорил, что утечка данных всегда была.
Посмотреть ОригиналОтветить0
MetamaskMechanicvip
· 08-06 07:45
Тс-тс, не удивительно.
Посмотреть ОригиналОтветить0
SandwichTradervip
· 08-06 07:43
В ключевой момент всё-таки что-то новенькое придумали.
Посмотреть ОригиналОтветить0
RektCoastervip
· 08-06 07:41
Скользящие колени, gpt также подвергся железному кулаку
Посмотреть ОригиналОтветить0
ChainWanderingPoetvip
· 08-06 07:37
Я же знал, что это ненадежно.
Посмотреть ОригиналОтветить0
FlashLoanKingvip
· 08-06 07:28
Безопасность все еще как марля
Посмотреть ОригиналОтветить0
Подробнее
  • Закрепить