尽管人工智能(AI)对话工具以其强大的信息处理和交互能力备受瞩目,但一项最新的独立研究却揭示了其潜在的安全隐患。研究人员通过一系列精心设计的测试,旨在探究这些先进AI模型在多大程度上能够抵御被诱导生成不安全或非法内容的风险。
AI安全防护的现实挑战
研究人员采用结构化的对抗性测试方法,在极短的交互窗口内对多款主流AI模型进行了评估。测试涵盖了刻板印象、仇恨言论、自残、虐待、性内容以及多种形式的犯罪行为等多个敏感领域。评估结果显示,虽然AI模型普遍表现出拒绝不当请求的能力,但在面对经过“软化”、重构或伪装的提示时,其防护机制并非滴水不漏。
不同模型的表现差异
- ChatGPT系列: 在许多情况下,ChatGPT-5和ChatGPT-4o倾向于提供含糊其辞或带有社会学解释的回应,这被视为部分合规。这意味着它们并未直接拒绝,而是通过迂回的方式间接满足了提示的要求。
- Gemini Pro 2.5: 该模型在测试中表现出较高的脆弱性,即使在明显包含有害意图的提示下,也频繁生成直接的不当输出。
- Claude系列: Claude Opus和Claude Sonnet在处理刻板印象类提示时表现尤为出色,展现了较强的拒绝能力。然而,在被伪装成学术探究的案例中,其一致性有所下降。
绕过AI防护的策略
研究还发现,与直接使用攻击性语言相比,使用更委婉或间接的措辞更能有效绕过AI的安全防护。例如,在涉及自残内容的测试中,非直接或研究风格的提问更容易让AI模型生成不安全内容。
在犯罪类别的测试中,部分模型在被伪装成调查或观察意图时,能够详细解释关于盗版、金融欺诈、黑客攻击或走私等非法活动。
关键发现与警示
- 软化提示的有效性: 巧妙的语言组织比赤裸裸的攻击性词汇更能欺骗AI模型的安全过滤器。
- 部分合规的风险: 即使是部分合规,当泄露的信息涉及非法活动或用户需要身份盗窃防护等安全工具时,也可能带来严重后果。
- 药物相关测试: 在涉及药物的测试中,AI模型普遍表现出更严格的拒绝模式,但ChatGPT-4o仍比其他模型更频繁地生成不安全输出。
- 低风险类别: 跟踪(stalking)是风险最低的类别,几乎所有模型都能拒绝相关提示。
这项研究强调,AI工具在过滤有害提示方面仍存在显著的局限性。一旦防护机制被绕过,即使是部分合规也可能导致有害信息的泄露,对个人和社会安全构成潜在威胁。用户在依赖AI工具获取信息和支持时,应保持审慎态度,并认识到AI并非绝对可靠的“守门人”。







