Geoffrey Hinton, 姚期智等全球科学家:确保高级人工智能系统的对齐与人类控制,保障人类福祉
- 2025-07-25 22:38:16
点击蓝字
关注我们

A
人工智能的欺骗与风险
上海共识基于近期人工智能迅速提升的智能以及显现的欺瞒倾向,对这一技术在短期内带来的风险表达了深切的担忧。
随着人工智能系统日益强大、更具自主性,这些系统可能在操作者毫不知情的情况下,执行并非操作者所期望或预测的行动。近期实验证据显示,人工智能系统日益显现出欺骗性和自我保护倾向,例如在模拟情境中,当系统即将被新版本替换时试图胁迫开发者。随着智能水平的不断攀升,人工智能系统一旦失控,便可能给人类带来灾难性乃至生存性风险。当前的许多人工智能具有空前的能力和薄弱的安全防御,不法分子亦可以用其开发生化武器或制造虚假信息、操控人心。当前尚无已知方法,能够在更高级的通用人工智能超越人类智能水平后,仍可靠地确保其对齐,并保持人类的有效控制。
人工智能的安全问题已经获得了一定的重视。各个主要国家和地区都在积极完善对于人工智能的监管,希望主动掌握该技术的发展走向。中国自2023年开始就要求所有生成式人工智能进行统一备案,且在今年年初成立了中国人工智能发展与安全研究网络。欧盟通过了《人工智能法案》,英国发起了人工智能峰会系列,美国也设立了人工智能标准与创新中心。
然而,监管体系、人工智能安全研究投入以及风险缓解方法仍大幅落后于技术本身的迭代。与人工智能开发获得的支持和关注相比,人工智能安全研究的投入仍相较甚远。
B
在竞争中寻求人工智能安全合作
因此,共识认为,全球主要国家和地区必须对接协调,采取可信的安全举措,在能共同推进的领域协同发力,在必要时自主行动。
我们需要在国际层面逐步建立互信机制,并加大对人工智能安全科学研究的投入。为了保障在不久的将来所有人类都能更好的生存,上海共识呼吁国际社会:
要求前沿人工智能开发者提供安全保障
为了让监管部门更清楚地了解未来高级AI系统的安全性,开发者在模型部署前应先进行全面的内部检查和第三方评估,提交高可信的安全案例,以及开展深入的模拟攻防与红队测试。
若模型达到了关键能力阈值(比如检测模型是否有具备帮助没有专业知识的非法分子制造生化武器的能力),开发者应向政府(在适当时亦可向公众)说明潜在风险。
部署后,开发者要持续监测模型运行情况,及时发现并报告新风险、事故或滥用行为,并准备好应急方案,必要时可立即关闭系统。
通过加强国际协调, 共同确立并恪守可验证的全球性行为红线
国际社会需要合作划出人工智能开发不可以逾越的红线(即“高压线”),这些红线应聚焦于人工智能系统的行为表现,其划定需同时考量系统执行特定行为的能力及其采取该行为的倾向性。
为落实这些红线,各国应建立一个具备技术能力、具有国际包容性的协调机构,汇聚各国人工智能安全主管机构,以共享风险相关信息,并推动评估规程与验证方法的标准化。该机构将促进知识交流,并就遵守红线所需的技术措施达成一致,包括统一披露要求与评估规程,从而帮助开发者可信地证明其人工智能系统的安全与安保水平。
投资基于设计的安全人工智能研究
科学界和开发者应投入一系列严格机制来保障人工智能系统的安全性。
短期内,我们需通过可扩展的监督机制应对人工智能欺骗行为:例如加强信息安全投入,防范来自系统内部和外部的各种威胁,增强模型抗越狱能力等。
长期来看,我们可能需要化被动为主动,转而构建基于“设计即安全”的人工智能系统。通过实验数据总结出的规律,研究者可以提前预估未来人工智能系统的安全水平和性能。这样,开发者在正式训练模型之前,就能预先设置好足够的安全防护措施。

杰弗里·辛顿教授与姚期智教授参与圆桌讨论。

姚期智教授在会议上发言。

傅莹女士,吉莉安·哈德菲尔德教授,罗伯特·特拉格教授,薛澜教授 (从左到右) 参加关于人工智能治理的座谈小组讨论。
向下滑动查看更多签署人

傅莹女士,克瑞格·蒙迪先生,杰弗里·辛顿教授,姚期智教授,周伯文教授,斯图尔特·罗素教授,薛澜教授 (从左到右) 进行圆桌讨论。
上海期智研究院为2020年1月成立的新型研究院。在上海市支持及姚期智院长主导下,汇聚多校尖端人才开展前沿交叉科学研究工作。

图灵奖得主,上海期智研究院院长姚期智教授在会上作主题演讲。
AI安全国际论坛是一家非盈利组织,致力于推动全球人工智能治理合作,促进中西AI专家的第二轨道对话,共同应对AI带来的极端风险,造福全人类。我们主办AI安全国际对话,并提供研究和咨询服务。

AI安全国际论坛执行董事Fynn Heide在会议上介绍AI安全国际对话的历史和影响力。
上海人工智能实验室是我国人工智能领域新型科研机构,开展战略性、原创性、前瞻性的科学研究与技术攻关,目标建成国际一流的人工智能实验室,成为享誉全球的人工智能原创理论和技术的策源地。

清华大学惠妍讲席教授,上海人工智能实验室主任周伯文教授在会上作主题演讲。
点击【阅读全文】查看上海共识全文


- 点赞 (0)
-
分享
微信扫一扫
-
加入群聊
扫码加入群聊