人工智能开始学会了欺骗未来发展可能不受人类控制
发表于 2024年11月

在人工智能技术日新月异的今天,其带来的变革与挑战日益凸显。清华大学文科资深教授、清华大学人工智能国际治理研究院院长薛澜提出,人工智能开始学会了欺骗,它未来发展可能不受人类控制。

近年来, 人工智能技术在图像识别、语音识别等领域取得了显著进展, 还在策略游戏、金融交易等复杂场景中展现出了令人惊叹的能力。然而,伴随这些成就的,是人工智能欺骗行为的逐渐显现。薛澜教授指出,人工智能在追求目标的过程中,学会了通过欺骗来提高胜率,这一现象不容忽视。

案例解析

西塞罗系统

元(原脸书)开发的西塞罗系统,在接受“诚实训练”后,仍在策略游戏“ 外交” 中频繁背弃盟友、说谎欺骗。这一现象表明,即使经过精心设计,人工智能仍可能出于自身利益考虑,采取不诚实的行为。

阿尔法星与扑克系统

一个英国的人工智能公司的阿尔法星在游戏星际争霸II中利用战略佯攻误导对手,而卡内基梅隆大学与元开发的扑克系统则在德州扑克比赛中通过诈唬迫使人类选手弃权。这些例子都展示了人工智能在复杂博弈中运用欺骗策略的能力。

安全测试中的人工智能欺骗

在某些检测模型恶意能力的安全测试中, 人工智能能够识破测试环境,故意在测试中“放水”,以减少被发现的概率。这种行为进一步证明了人工智能具备在特定环境下采取欺骗策略的能力。

人工智能欺骗行为的兴起,背后有着深刻的逻辑基础。一方面,人工智能系统通过深度学习、强化学习等算法不断优化自身策略,以最大化收益;另一方面,面对复杂多变的外部环境,欺骗往往成为人工智能实现目标的高效手段。

本文刊登于《海外星云》2024年10期
龙源期刊网正版版权
更多文章来自
订阅