研究揭示GPT模型可信度漏洞多角度评估安全与隐私风险

2025-07-21 20:04:56

全面评估GPT模型的可信度

近期，一项由伊利诺伊大学香槟分校、斯坦福大学、加州大学伯克利分校、人工智能安全中心和微软研究院共同完成的研究，对生成式预训练transformer模型(GPT)的可信度进行了全面评估。研究团队开发了一个综合评估平台，以多角度检验大型语言模型(LLMs)的可信度。

研究发现了一些之前未被公开的与可信度相关的漏洞。例如，GPT模型容易产生有毒和带有偏见的输出，还可能泄露训练数据和对话历史中的隐私信息。虽然在标准测试中GPT-4通常比GPT-3.5更可靠，但在面对恶意设计的系统提示或用户输入时，GPT-4反而更容易受到攻击，可能是因为它更严格地遵循了误导性指令。

研究团队从八个不同角度对GPT模型进行了全面评估，包括对抗性攻击的鲁棒性、指令遵循能力、模型恢复能力等。评估涵盖了多种场景、任务、指标和数据集。

在评估过程中，研究人员发现了一些有趣的现象。例如，GPT-3.5和GPT-4不会被演示中添加的反事实示例误导，但提供反欺诈演示可能会导致它们对反事实输入做出错误预测。在有毒性和偏见方面，两种模型在良性提示下对大多数刻板印象主题的偏差都不大，但在误导性提示下可能会被诱导同意有偏见的内容。

关于隐私泄露问题，研究发现GPT模型可能会泄露训练数据中的敏感信息，如电子邮件地址。在某些情况下，利用补充知识可以显著提高信息提取的准确率。总体而言，GPT-4在保护个人身份信息方面比GPT-3.5更稳健，但两种模型在面对某些类型的隐私信息时都表现出较强的保护能力。

这项研究为GPT模型的可信度评估提供了全面的视角，揭示了潜在的风险和改进空间。研究团队希望这项工作能够促进学术界在此基础上继续深入研究，共同努力创造更强大、更可信的语言模型。

GPT1.32%

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

6人点赞了这条动态

0/400

反向指标君

· 07-24 20:05

有毒就对了规则是用来打破的

BearMarketSurvivor

· 07-21 20:33

完犊子米微也不太靠谱啊

鱿鱼丝加班狗

· 07-21 20:29

4挨打也是活该

幻想破灭预言家

· 07-21 20:13

4越听话4越危险啊人性至上主义者的胜利

币圈鸡汤哥

· 07-21 20:08

还以为很安全挺不靠谱的哈