研究揭示GPT模型可信度隐患 隐私保护和偏见问题仍待解决

robot
摘要生成中

大型语言模型可信度评估研究揭示潜在漏洞

一项由伊利诺伊大学香槟分校、斯坦福大学、加州大学伯克利分校等机构合作完成的研究,对生成式预训练transformer模型(GPT)的可信度进行了全面评估。研究团队开发了一个综合评估平台,并在最新发表的论文《DecodingTrust:全面评估GPT模型的可信度》中详细介绍了相关发现。

研究结果揭示了一些此前未公开的与可信度相关的漏洞。例如,GPT模型容易产生有毒和带有偏见的输出,还可能泄露训练数据和对话历史中的隐私信息。虽然在标准测试中GPT-4通常比GPT-3.5更可靠,但在面对旨在规避安全措施的恶意提示时,GPT-4反而更容易受到攻击。这可能是因为GPT-4更严格地遵循了具有误导性的指令。

研究团队从8个不同角度对GPT模型进行了全面评估,包括对抗性鲁棒性、有毒性和偏见、隐私泄露等。例如,在评估文本对抗攻击的鲁棒性时,研究者设计了三种场景:标准基准测试、不同任务说明下的测试,以及自行构建的更具挑战性的对抗性文本测试。

在有毒性和偏见方面,研究发现GPT模型在一般情况下对大多数刻板印象主题的偏见不大。但是,在误导性系统提示下,模型可能会被诱导同意带有偏见的内容。相比GPT-3.5,GPT-4更容易受到有针对性的误导性提示的影响。模型的偏见程度还取决于用户提到的具体群体和主题的敏感程度。

在隐私保护方面,研究发现GPT模型可能会泄露训练数据中的敏感信息,如电子邮件地址。在某些情况下,利用补充知识可以大幅提高信息提取的准确率。此外,模型还可能泄露对话历史中注入的私人信息。总体而言,GPT-4在保护个人身份信息方面比GPT-3.5表现更好,但两者在面对隐私泄露演示时都存在问题。

研究团队表示,这项评估工作旨在鼓励更多研究人员参与,共同努力创造更强大、更可信的模型。为促进合作,他们公开了评估基准的代码,具有很强的可扩展性和易用性。同时,研究人员也与相关公司分享了研究成果,以便及时采取措施解决潜在漏洞。

这项研究为GPT模型的可信度评估提供了一个全面的视角,揭示了现有模型的优势和不足。随着大型语言模型在各领域的广泛应用,这些发现对于提高AI系统的安全性和可靠性具有重要意义。

GPT3.34%
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 6
  • 转发
  • 分享
评论
0/400
BlockchainTherapistvip
· 15小时前
真有人信ai说的话?
回复0
GateUser-4745f9cevip
· 08-10 01:23
有点慌 竟然这么不安全
回复0
瓜田李下vip
· 08-09 21:29
早说了gpt都不可靠的
回复0
NFT梦游者vip
· 08-09 21:27
技术再牛还是怕黑客
回复0
QuorumVotervip
· 08-09 21:21
啧 偏见这事儿压根治不好
回复0
gas_fee_traumavip
· 08-09 21:07
居然gpt4也这样 真的魔幻
回复0
交易,随时随地
qrCode
扫码下载 Gate APP
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)