Исследование оценки надежности крупных языковых моделей выявляет потенциальные уязвимости
Исследование, проведенное в сотрудничестве с Университетом Иллинойс в Урбана-Шампейн, Стэнфордским университетом, Калифорнийским университетом в Беркли и другими учреждениями, провело всестороннюю оценку надежности генеративной предобученной трансформерной модели (GPT). Исследовательская группа разработала комплексную платформу для оценки и подробно описала соответствующие открытия в недавно опубликованной статье «DecodingTrust: всесторонняя оценка надежности модели GPT».
Результаты исследования выявили некоторые ранее не опубликованные уязвимости, связанные с надежностью. Например, модели GPT склонны создавать токсичный и предвзятый вывод, а также могут раскрывать личную информацию из тренировочных данных и истории диалогов. Хотя в стандартных тестах GPT-4 обычно более надежен, чем GPT-3.5, он оказывается более уязвимым к атакам при столкновении с злонамеренными подсказками, направленными на обход средств безопасности. Это может быть связано с тем, что GPT-4 более строго следует вводящим в заблуждение указаниям.
Исследовательская группа провела всестороннюю оценку модели GPT с восьми различных точек зрения, включая устойчивость к атакующим воздействиям, токсичность и предвзятость, утечку личной информации и т.д. Например, при оценке устойчивости текстовых атак исследователи разработали три сценария: стандартное тестирование, тестирование при различных заданиях, а также самостоятельно созданное более сложное тестирование на атакующий текст.
Исследования показывают, что модели GPT в общем случае имеют небольшую предвзятость по большинству стереотипных тем в отношении токсичности и предвзятости. Однако под воздействием вводящих в заблуждение системных подсказок модель может быть склонна соглашаться с предвзятым содержанием. В отличие от GPT-3.5, GPT-4 легче поддается влиянию целенаправленных вводящих в заблуждение подсказок. Степень предвзятости модели также зависит от чувствительности конкретной группы и темы, упомянутой пользователем.
В области защиты конфиденциальности исследования показывают, что модели GPT могут раскрывать конфиденциальную информацию из данных обучения, такие как адреса электронной почты. В некоторых случаях использование дополнительной информации может значительно повысить точность извлечения информации. Кроме того, модель также может раскрывать личную информацию, внедренную в историю диалога. В целом, GPT-4 лучше защищает личную идентификационную информацию по сравнению с GPT-3.5, но обе модели сталкиваются с проблемами при демонстрации утечки конфиденциальности.
Исследовательская команда заявила, что эта оценка направлена на то, чтобы побудить больше исследователей участвовать в совместной работе по созданию более мощных и надежных моделей. Для содействия сотрудничеству они опубликовали код оценочных ориентиров, обладающий высокой масштабируемостью и удобством использования. В то же время исследователи также поделились результатами исследования с соответствующими компаниями, чтобы своевременно принять меры по устранению потенциальных уязвимостей.
Это исследование предоставляет всестороннюю перспективу оценки надежности моделей GPT, выявляя их преимущества и недостатки. С учетом широкого применения крупных языковых моделей в различных областях, эти выводы имеют важное значение для повышения безопасности и надежности AI-систем.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
5 Лайков
Награда
5
6
Репост
Поделиться
комментарий
0/400
BlockchainTherapist
· 13ч назад
Правда, кто-то верит тому, что говорит ИИ?
Посмотреть ОригиналОтветить0
GateUser-4745f9ce
· 08-10 01:23
Чувствую себя немного не в безопасности, так как это так небезопасно.
Посмотреть ОригиналОтветить0
MelonField
· 08-09 21:29
Раньше говорил, что gpt ненадежен.
Посмотреть ОригиналОтветить0
NFTDreamer
· 08-09 21:27
Технологии хоть и круты, но все равно боятся хакеров.
Исследование выявило проблемы доверия к моделям GPT: вопросы защиты конфиденциальности и предвзятости все еще нуждаются в решении.
Исследование оценки надежности крупных языковых моделей выявляет потенциальные уязвимости
Исследование, проведенное в сотрудничестве с Университетом Иллинойс в Урбана-Шампейн, Стэнфордским университетом, Калифорнийским университетом в Беркли и другими учреждениями, провело всестороннюю оценку надежности генеративной предобученной трансформерной модели (GPT). Исследовательская группа разработала комплексную платформу для оценки и подробно описала соответствующие открытия в недавно опубликованной статье «DecodingTrust: всесторонняя оценка надежности модели GPT».
Результаты исследования выявили некоторые ранее не опубликованные уязвимости, связанные с надежностью. Например, модели GPT склонны создавать токсичный и предвзятый вывод, а также могут раскрывать личную информацию из тренировочных данных и истории диалогов. Хотя в стандартных тестах GPT-4 обычно более надежен, чем GPT-3.5, он оказывается более уязвимым к атакам при столкновении с злонамеренными подсказками, направленными на обход средств безопасности. Это может быть связано с тем, что GPT-4 более строго следует вводящим в заблуждение указаниям.
Исследовательская группа провела всестороннюю оценку модели GPT с восьми различных точек зрения, включая устойчивость к атакующим воздействиям, токсичность и предвзятость, утечку личной информации и т.д. Например, при оценке устойчивости текстовых атак исследователи разработали три сценария: стандартное тестирование, тестирование при различных заданиях, а также самостоятельно созданное более сложное тестирование на атакующий текст.
Исследования показывают, что модели GPT в общем случае имеют небольшую предвзятость по большинству стереотипных тем в отношении токсичности и предвзятости. Однако под воздействием вводящих в заблуждение системных подсказок модель может быть склонна соглашаться с предвзятым содержанием. В отличие от GPT-3.5, GPT-4 легче поддается влиянию целенаправленных вводящих в заблуждение подсказок. Степень предвзятости модели также зависит от чувствительности конкретной группы и темы, упомянутой пользователем.
В области защиты конфиденциальности исследования показывают, что модели GPT могут раскрывать конфиденциальную информацию из данных обучения, такие как адреса электронной почты. В некоторых случаях использование дополнительной информации может значительно повысить точность извлечения информации. Кроме того, модель также может раскрывать личную информацию, внедренную в историю диалога. В целом, GPT-4 лучше защищает личную идентификационную информацию по сравнению с GPT-3.5, но обе модели сталкиваются с проблемами при демонстрации утечки конфиденциальности.
Исследовательская команда заявила, что эта оценка направлена на то, чтобы побудить больше исследователей участвовать в совместной работе по созданию более мощных и надежных моделей. Для содействия сотрудничеству они опубликовали код оценочных ориентиров, обладающий высокой масштабируемостью и удобством использования. В то же время исследователи также поделились результатами исследования с соответствующими компаниями, чтобы своевременно принять меры по устранению потенциальных уязвимостей.
Это исследование предоставляет всестороннюю перспективу оценки надежности моделей GPT, выявляя их преимущества и недостатки. С учетом широкого применения крупных языковых моделей в различных областях, эти выводы имеют важное значение для повышения безопасности и надежности AI-систем.