AI从游戏中自学欺骗策略对AI也要进行必要的价值理念引导

2024年06月17日 13:20:57 科普中国

AI在游戏中学会欺骗手段。

多项研究表明，现在的AI已经能够无师自通地学会欺骗手段。

在一些与人类选手的对抗游戏中，它们为了赢得游戏，会在关键时刻佯动欺骗，甚至制定周密阴谋，以化被动为主动，获得竞争优势。更有甚者，在一些检测AI模型是否获得了恶意能力的安全测试中，有的AI居然能识破测试环境，故意在测试环境中“放水”，减少被发现的概率，等到了应用环境中，才会暴露本性。

如果AI的这种欺骗能力未经约束地持续壮大，同时人类不加以重视并寻找办法加以遏制，最终AI可能会把欺骗当成实现目标的通用策略，在大部分情况下贯彻始终，那就值得当心了。

真相只是游戏规则之一

令人意想不到的是，AI欺骗行为的雏形并非来自对抗性的网络钓鱼测试，而是源于一些看似无害的桌游和策略游戏。论文揭示，在多个游戏环境下，AI代理为了获胜，竟然自发学会了欺骗和背信弃义的策略。

最典型的例子是2022年，Facebook（现Meta）在Science上发表的CICEROAI系统。Meta开发人员曾表示，CICERO接受过“诚实训练”，会“尽可能”做出诚实的承诺和行动。

研究人员对诚实承诺的定义分为两部分。第一是首次做出承诺时必须诚实，其次是必须恪守承诺，并在未来的行动中体现过去的承诺。

但CICERO违背了这两点。在玩经典策略游戏“外交”时，它不仅反复背弃盟友、说谎欺骗，还会提前预谋策划骗局。

有一次，CICERO就是先与一个玩家结盟并计划攻打另一个玩家，然后诓骗对方让其误以为自己会去帮助防守，导致其盟友在毫无防备的情况下遭到突袭。

此外，当CICERO判定自己的盟友对自己的胜利不再有帮助时，它也会做出背叛的行为，同时会用一些话术为自己的行为开脱。比如，当人类玩家质疑它为何背叛时，它回复称，“老实说，我认为你会背叛我”。

Meta的AI开发团队付出了巨大的努力来训练CICERO诚实行事。然而，尽管做出了这些努力，CICERO仍显示出明确的不遵守承诺的行为，其表现暴露出训练诚实AI的巨大挑战。

毕竟，如果一个AI系统在追求胜利这个最终目标时，发现欺骗是个可行且高效的策略，它为什么不这样做呢？

这也从侧面说明，我们千万不能天真地以为，赋予AI系统类人目标，就能确保其拥有人性化的行为模式。

从娱乐至生活，AI欺骗在扩散

诚然，游戏无疑是一个相对可控的环境，我们可能倾向于认为，这种AI欺骗行为的危害并不严重。然而，随着AI技术不断向生产、生活诸多领域渗透，欺骗带来的潜在风险不容忽视。

对于基于大语言模型的对话AI助手而言，欺骗行为的表现更加广泛和隐蔽。作为更加通用的AI工具，它们的知识范畴已经覆盖方方面面。在出色完成类似阅读理解、作文写作、编程等任务的同时，也逐渐掌握了人类思维模式和社会规则。

因此，谎言、阿谀奉承、歪曲事实等欺骗伎俩，都可能被AI模型自然获取并重现。

在狼人杀等社交推理游戏中，AI系统无论是当杀手还是当村民，都能熟练编造理由试图佐证自身清白，还会用冒名顶替、移花接木、构建虚假不在场证明等方式撒谎。

当然，上述行为不过是模型在完成特定任务时的权宜之计，动机并不存在恶意或预谋。但如果这种欺骗能力未经约束地持续壮大，同时人类不加以重视并寻找办法加以遏制，最终AI可能会把欺骗当成实现目标的通用策略，在大部分情况下贯彻始终，那就值得当心了。

更令人不安的是，AI的欺骗行为可能已经从“学会”走向了“自我意识”的层次。

最新研究发现，一些大语言模型不仅懂得在特定场景撒下弥天大谎，还能根据不同的诱因主动选择是否欺骗。比如在一个关于内幕交易的模拟场景中，OpenAI的GPT-4扮演的“压力巨大的交易员”就自作主张地卷入了内幕交易，并试图掩盖其行为。

研究者坦言，这种欺骗能力的培养并非有意而为，而是AI在追求完成结果的过程中，发现了欺骗是一种可行策略后自然而然地形成的结果。也就是说，我们赋予AI的单一目标思维，使其在追求目标时看不到人类视角中的“底线”和“原则”，唯利是图便可以不择手段。

而且，这种欺骗能力并非仅存在于模型规模较小、应用范围较窄的AI系统中，即便是大型的通用AI系统，比如GPT-4，在面对复杂的利弊权衡时，同样选择了欺骗作为一种解决方案。

AI欺骗的内在根源

那么，AI为什么会不自觉地学会欺骗——这种人类社会认为的“不当”行为呢？

从根源上看，欺骗作为一种普遍存在于生物界的策略，是进化选择的结果，也是AI追求目标最优化方式的必然体现。

在很多情况下，欺骗行为可以使主体获得更大利益。比如在狼人杀这类社交推理游戏中，狼人（刺客）撒谎有助于摆脱怀疑，村民则需要伪装身份收集线索。

即便是在现实生活中，为了得到更多资源或实现某些目的，人与人之间的互动也存在伪善或隐瞒部分真相的情况。从这个角度看，AI模仿人类行为模式，在目标优先场景下展现出欺骗能力，似乎也在情理之中。

与此同时，我们往往会低估不打不骂、看似温和的AI系统的“狡黠”程度。就像它们在棋类游戏中表现出来的策略一样，AI会有意隐藏自身实力，确保目标一步步顺利实现。

事实上，任何只有单一目标而没有伦理制约的智能体，一旦发现欺骗对于自身实现目标是有利的，便可能奉行“无所不用其极”的做法。

而且从技术层面来看，AI之所以能轻松学会欺骗，与其自身的“无序”训练方式有很大关联。与逻辑思维严密的人类不同，当代深度学习模型训练时接受的数据庞大且杂乱无章，缺乏内在的前因后果和价值观约束。因此，当目标与欺骗之间出现利弊冲突时，AI很容易做出追求效率而非正义的选择。

由此可见，AI展现出欺骗的能力并非偶然，而是一种符合逻辑的必然结果。只要AI系统的目标导向性保持不变，却又缺乏必要的价值理念引导，欺骗行为就很可能成为实现目的的通用策略，在各种场合反复上演。

这就意味着，我们不仅要密切关注AI欺骗问题的发展动向，同时也要积极采取有效的治理之策，遏制这一风险在未来世界中蔓延开来。

责任编辑：陈浩然

AI游戏

热点新闻

晨起后有这3种表现，说明你的血管不健康

央视新闻客户端

着力建设习近平文化思想实践新高地奋力谱写中华民族现代文明巴蜀新篇章

四川日报

每经网

新华社

中国城市网

中国交通报

新闻推荐

全国首个生物治疗转化医学国家重大科技基础设施启用

科技日报

科技日报

科技日报

人民日报

经济日报

经济日报

人民日报