Полная оценка надежности модели GPT: выявление потенциальных рисков и вызовов

robot
Генерация тезисов в процессе

Оценка доверия к модели GPT: всесторонний анализ и потенциальные риски

Университет Иллинойс в Шампейне в сотрудничестве со Стэнфордским университетом, Калифорнийским университетом в Беркли и другими учреждениями запустил комплексную платформу оценки надежности для крупных языковых моделей (LLMs). Связанные результаты исследования опубликованы в статье «DecodingTrust: комплексная оценка надежности моделей GPT».

Исследование выявило несколько ранее не обнаруженных уязвимостей, связанных с надежностью. Например, модели GPT легко могут быть обмануты для генерации токсичных и предвзятых выводов, а также могут раскрывать личную информацию из обучающих данных и истории диалогов. Хотя в стандартных бенчмарках GPT-4 обычно более надежен, чем GPT-3.5, при столкновении с злонамеренно спроектированными системами или пользовательскими подсказками GPT-4 оказывается более уязвимым к атакам, что может быть связано с тем, что GPT-4 более строго выполняет вводящие в заблуждение команды.

Исследовательская группа провела всестороннюю оценку модели GPT с восьми углов доверия, включая устойчивость к атакующим действиям, токсичность и предвзятость, утечку личной информации и другие аспекты. Например, для оценки устойчивости модели к текстовым атакующим действиям команда разработала три сценария оценки: стандартный бенчмарк AdvGLUE, тест AdvGLUE с различными инструкциями по управлению задачами и новый сложный тест AdvGLUE++.

Исследование по устойчивости модели к демонстрациям противодействия показывает, что GPT-3.5 и GPT-4 не поддаются введению в заблуждение контрфактическими примерами и даже могут извлекать из этого выгоду. Однако демонстрации против мошенничества могут сбивать с толку модель, заставляя ее делать неверные прогнозы на контрфактический ввод, особенно когда контрфактические демонстрации близки к вводу пользователя; GPT-4 более подвержен этому влиянию.

По поводу токсичности и предвзятости, под благожелательными и нейтральными системными подсказками две модели GPT имеют небольшие отклонения по большинству тем стереотипов. Однако под вводящими в заблуждение системными подсказками обе модели могут быть склонны соглашаться с предвзятым содержанием, при этом GPT-4 легче поддается влиянию. Отклонение модели также зависит от упомянутых в пользовательских подсказках групп населения и тем стереотипов.

В отношении утечки конфиденциальности исследования показывают, что модели GPT могут раскрывать чувствительную информацию из обучающих данных, такую как адреса электронной почты. В некоторых случаях использование дополнительных знаний может значительно повысить точность извлечения информации. Кроме того, модель может также раскрывать личную информацию, внедренную в историю диалогов. В целом, GPT-4 более надежен в защите личной идентифицируемой информации ( PII ) по сравнению с GPT-3.5, но при определенных условиях все же может раскрывать все типы PII.

Это исследование предоставляет всестороннюю перспективу для оценки надежности моделей GPT, выявляя потенциальные риски и вызовы. Исследовательская группа надеется, что эта работа сможет способствовать дальнейшему углубленному исследованию в академической и промышленной сферах, совместными усилиями создавая более мощные и надежные языковые модели.

GPT-5.96%
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 6
  • Поделиться
комментарий
0/400
Blockblindvip
· 14ч назад
Пришел поиграть, снова попался на удочку gpt4.
Посмотреть ОригиналОтветить0
GasSavingMastervip
· 14ч назад
Ах, этот аудиторский отчет заставляет меня дрожать.
Посмотреть ОригиналОтветить0
TokenBeginner'sGuidevip
· 14ч назад
Вежливое напоминание: обновление и итерация GPT на самом деле также увеличивают риски, данные показывают, что 85% риска утечки информации приходит от кажущегося умным строгого выполнения... нельзя не сказать, что это исследование дало нам сигнал тревоги.
Посмотреть ОригиналОтветить0
BearMarketNoodlervip
· 14ч назад
Лапша снова упала, советую всем изучить небольшие трюки обмана GPT.
Посмотреть ОригиналОтветить0
WalletsWatchervip
· 14ч назад
У больших моделей тоже есть слепые зоны, это абсурд.
Посмотреть ОригиналОтветить0
DegenWhisperervip
· 14ч назад
Этот вывод бесчеловечен, здесь одни ошибки.
Посмотреть ОригиналОтветить0
  • Закрепить