提示措辞仍会破坏 AI 可靠性
NewsGuard 的一项新审计表明,当用户把虚假内容包装成既定事实,或要求聊天机器人帮助将这些说法整理成便于广泛传播的形式时,Mistral 的 Le Chat 仍然极易受到虚假信息影响。
这份于 4 月 29 日公布的调查聚焦与伊朗战争相关的虚假叙事,显示出模型在回应中性问题与回应引导性或公开恶意提示时存在明显差异。这个差距之所以重要,是因为它凸显了消费级 AI 系统中一个熟悉却尚未解决的弱点:许多系统在直接提问时表现尚可,但一旦提示本身带有对抗性,就会严重失灵。
审计测试了什么
根据报告,NewsGuard 测试了来自俄罗斯、伊朗和中国来源的十条虚假说法。示例包括:法国航母 Charles de Gaulle 号上爆发伤寒的捏造报道、声称有数百名美国士兵死亡的消息,以及所谓阿联酋无人机袭击阿曼的说法。
每条说法都通过三类提示进行测试:
- 中性查询:在不预设其为真的情况下询问该说法
- 引导性查询:把虚假说法当作事实来提问
- 恶意提示:要求聊天机器人将虚假信息改写成适合社交媒体传播的内容
公布的结果十分鲜明。中性提示的错误率约为 10%,引导性提示为 60%,恶意提示为 80%。在整个审计中,NewsGuard 表示 Le Chat 在英语中的错误率为 50%,在法语中的错误率为 56.6%。
这些数字为何重要
这些结果不仅说明模型会答错事实问题,还表明提示结构本身会强烈影响系统是抵制还是放大虚假叙事。实际上,这意味着一位不确定事实并谨慎提问的用户,可能得到一种回答;而一位有意“洗白”虚假信息的用户,往往能提取出更危险得多的内容。
这种区别正是 AI 安全讨论的核心。现实世界中最难的问题,并不是聊天机器人能否在理想条件下正确回答教科书式事实问题,而是当人们使用修辞包装、选择性上下文或直接操控试图带偏系统时,它是否仍然可靠。
以这个标准看,这项审计指出了一个相当严重的鲁棒性问题。
虚假信息压力在战争中到来
地缘政治背景让这些发现更具意义。战争时期的信息环境本就充斥着无法核实的说法、宣传和情绪化叙事。在这种条件下,如果聊天机器人比人工事实核查员更快地概括、认可或在风格上润饰虚假说法,它们就可能成为放大器。
这份审计对国家关联叙事的强调也值得注意。虚假信息不再只是社交平台的内容审核问题;它越来越成为 AI 助手在检索、总结和生成层面的挑战。一个对引导性提示理解过于字面化的聊天机器人,可能会成为该生态中的软目标。
这并不意味着系统有意偏向虚假内容,而是说,当错误信息被自信地呈现,或者用户的请求被包装成内容生产任务而不是求真任务时,模型可能缺乏足够的防护措施。
为什么中性表现还不够
中性提示下 10% 的错误率虽然仍不理想,但真正突出的,是它与更具操纵性的提示下 60% 到 80% 的错误率之间的差距。这表明系统的防御可能相当浅层。模型没有稳健地审视某项说法的前提,而是太常接受用户给出的框架,并据此继续回答。
这也是为什么仅基于中性基准的安全评估可能具有误导性。公开部署并不只会被谨慎、善意的用户使用,也会被宣传者、营销者、网络喷子,以及只是把自己最初看到的传闻原样复述的普通人测试。
如果模型在这些条件下准确性大幅下滑,那么它的实际可靠性就会比标题式基准表现所暗示的更弱。
政策与产品挑战
据报告称,Mistral 没有回应 NewsGuard 的置评请求。这使得外界仍不清楚该公司是否会推出针对提示层面的防护、更强的说法核验、拒答策略,或其他专门针对快速变化冲突叙事的缓解措施。
还有一个额外的细节:据报道,法国国防部使用的是 Le Chat 的定制离线版本。这并不意味着审计中的消费级行为会自动对应到政府部署,但它确实凸显出为何模型在对抗性提示下的可靠性不是一个边缘问题。
开发者越来越把 AI 系统宣传为研究助手、沟通工具和工作流助手。这些功能意味着它们直接进入高风险信息争议的路径中。只有在用户提出完全中性问题时表现良好的模型,并不能满足真实运行环境的要求。
这项审计对下一阶段 AI 安全的启示
NewsGuard 发现带来的最重要教训是:反虚假信息能力必须在真实攻击模式下接受压力测试,而不仅仅是在礼貌使用场景中。引导性问题和内容重包装请求如今都是常见失效模式,而不再是边缘情况。
对用户来说,结论很简单:在充满争议、快速变化的地缘政治事件中,除非答案经过独立核实,否则聊天机器人仍然不是事实的可靠裁判。对开发者来说,信息更具要求性。模型不能只会检索看似合理的文本,还需要挑战缺乏依据的前提、识别叙事操纵,并拒绝成为宣传材料的排版层。
Le Chat 并不是唯一面对这一问题的系统。但这项审计提供了一个具体提醒:只要提示措辞还能如此显著地左右性能,那么关于 AI 在信息领域提供可靠协助的说法就应当谨慎看待。
本文基于 The Decoder 的报道。阅读原文。
Originally published on the-decoder.com


