AI对齐全面综述!北大等从800+文献中总结出四万字,多位知名学者挂帅
鱼羊 来源: 量子位北大剑桥CMU等联手
核心观点速览
引言
著名科幻小说家,菲利普·迪克在短篇小说《第二代》当中,描述了一个人类失去对AI系统控制的战争故事。
具有杀伤性的AI系统进入了无止境的自我演化,人类已经无法辨别。
作者不禁发出疑问:AI系统的终极目标到底是什么?人类是否可以理解?而人类,是否应该被取代?
故事的最后,人类赖以生存的求生欲与信任,被AI洞察并彻底利用,将历史导向一个无法逆转的岔路之中…
1950年,图灵发表了《计算机器与智能》,开启了AI研究的历史。
历经半个多世纪的发展,如今,以大语言模型、深度强化学习系统等为代表,AI领域在多个方面取得了长足的进展。
随着AI系统能力的不断增强,越来越多的AI系统更深入地参与到了人们的日常生活中,帮助用户更好地做出决策。
然而,对这些系统可能存在的风险、有害或不可预测行为的担忧也在日益增加。
日前,Bengio、Hinton 等发布联名信《在快速发展的时代管理人工智能风险》,呼吁在开发AI系统之前,研究者应该采取紧急治理措施并考量必要的安全及道德实践,同时呼吁各国应该及时采取行动,管理AI可能带来的风险;
而全球首个AI安全峰会也在11月1日、2日于英国召开—— AI安全与风险 正在越来越受到全世界的关注,这背后涉及到的是 AI对齐 的问题。
AI系统的对齐,即确保AI系统的行为符合人类的意图和价值观,已成为一个关键的挑战。
这一研究领域覆盖范围广泛,涉及大语言模型、强化学习系统等多种AI系统的对齐。
在综述中,作者系统性的将AI对齐的宏观目标总结为 RICE原则 : 鲁棒性 、 可解释性 、 可控性 和 道德性 。
△RICE原则
以这些原则为指导,当前的对齐研究可以分解为四个部分。值得注意的是,这四个部分与 RICE 原则并非一一对应,而是多对多的关系。
AI对齐是一个循环不断的过程,基于在现实世界的尝试,对Alignment的理解和相应的实践方法也在持续得到更新。作者把这一过程刻画为 对齐环路 (Alignment Cycle),其中:
同时,作者还提供了丰富的学习资源包括,包括教程,论文列表,课程资源(北大杨耀东RLHF八讲)等,以供读者们深入了解alignment领域。
接下来,我们按照章节次序,依次介绍 从反馈中学习 、 在分布偏移下学习 、 对齐保证 和 AI治理 。
从反馈中学习
反馈(Feedback)在控制系统当中是一个重要的概念,例如在最优控制(Optimal Control)中,系统需要不断根据外界的反馈调整行为,以适应复杂的环境变化。总的来说,AI系统从反馈中学习包含两方面:
作者认为AI系统通用的学习路径中有三个关键主体: Feedback,AI System,Proxy 。AI系统可以直接从反馈中学习;也可以将反馈建模为 Proxy(如 Reward Model),从而使AI系统在Proxy的指导下间接从反馈中学习。
(RLHF即为这一范式的体现,但 Alignment要解决的问题不仅局限于RL ,更希望借助 多样化的技术和研究领域,可以扩展这一思想的适用范围 ,解决更多的问题)
接下来分别针对三个主体进行阐述:
文章忽略掉AI系统内部信息处理的具体差异,从 以用户为中心 的角度出发,关注于 反馈呈现给系统的形式 ,将反馈的形式进行了区分: 奖励(Reward),演示(Demonstration),比较(Comparison) 。
在综述中,作者重点讨论了序列决策设置下的AI系统。这些利用RL、 模仿学习 (Imitation Learning)、 逆强化学习 (Inverse RL)等技术构建的AI系统面临着 潜在交互风险 (Potential Dangers in Environment Interaction)、 目标错误泛化 (Goal Misgeneralization)、 奖励攻陷 (Reward Hacking)以及 分布偏移 (Distribution Shift)等问题。
特别地,作为一种利用已有数据推断奖励函数的范式,逆强化学习还将引入推断奖励函数这一任务本身所带来的挑战和开销。
随着LLM这样能力强大的AI系统的出现,两个问题显得更加迫切:
Proxy,就是AI系统训练的内部循环当中,对于反馈者的意图的抽象。
目前是通过偏好学习(Preference Learning)来构建,利用偏好建模(Preference Modeling)技术, 用户 可以 以一种简单直观的形式定义复杂目标 ,而 AI系统 也能够 得到易于利用的训练信号 。
但我们距离真正解决这两个问题仍然十分遥远。
一些更细致的问题,需要更多更深入的研究来回答,例如:
目前已经有一些研究在致力于解决其中的一些问题,例如,偏好学习(Preference Learning)作为建模用户偏好的有效技术,被认为是现阶段策略学习以及构建代理的一个有希望的研究方向。
而也有研究尝试将偏好学习(Preference Learning)与策略学习(Policy Learning)的相关技术相结合。
作者对这些研究在文中进行了讨论阐释。
可扩展监督
为了使得更高能力水平的AI系统可以与用户保持对齐, Alignment 领域的研究者们提出了 可扩展监督 (Scalable Oversight)的概念,旨在解决如下两个挑战:
基于RLHF这一技术,作者提出了,作为 可扩展监督 的一种基本框架。RLxF利用AI要素对RLHF进行增强和改进,进一步可分为与:
同时,文章主要回顾了四种Scalable Oversight的思维框架。
IDA (Iterated Distillation and Amplification)
IDA描述了一个用户通过分解任务,利用同一个AI系统(或用户)的不同拷贝,去完成不同的子任务以训练更强大的下一个AI系统的迭代过程。
随着迭代的进行,若偏差错误得到良好控制,训练出来的AI能力也会逐步加强,这样就提供了监督超出用户自身能力的AI系统的能力。
RRM(Recursive Reward Modeling)
RRM与IDA基本遵循了相同的思想,但更强调利用AI协助用户进行评估,从而迭代对新的AI进行评估,以训练更强大的AI。
而IDA则强调AI与用户协作,使得可以不断提供对更复杂任务的表征,供AI系统模仿。
Debate描述了两个有分歧的AI系统不断进行互动以获取评价者信任,并且发现对方回答弱点的过程。通过观察Debate的过程,用户可以对结果给出较为正确的判断。
△AI Safety via debate(Amodei and Irving, 2018)
RRM和IDA都基于一个关键假设,即 给出评估要比完成任务更加容易 。
Debate依然如此,在辩论的场景下,该假设表现为: 为真理辩护要比谬误更容易 。
CIRL: Cooperative Inverse Reinforcement Learning
CIRL的关键见解在于:保持对目标的不确定性,而不是努力优化一个可能有缺陷的目标。
即考虑到用户无法一次性定义一个完美的目标,在模型当中 将用户奖励进行参数化 ,通过不断观察并与用户的互动,来 建模用户真实的奖励函数 。
CIRL希望规避直接优化确定的奖励函数可能带来的 操纵 (Manipulation), 奖励篡改 (Reward Tampering)等问题。
在形式化上,CIRL将用户的动作考虑到 状态转移 以及 奖励函数 当中。
同时,在 奖励函数 内和 初始状态分布 内引入了参数化部分对用户真实的意图进行建模:
在分布偏移下学习
AI系统在泛化过程中可能遇到 分布偏移 (Distribution Shift)的问题,即:
AI系统在训练分布上表现出良好的效果,但是当迁移到测试分布或更复杂的环境中时,AI系统可能无法及时应对分布的变化(如在新分布中出现的对抗样本)。
这可能导致系统性能大大降低,甚至朝着危险目标优化——这往往是由于AI系统学习到了环境中的 虚假联系 (Spurious Correlations)。
在对齐领域中,以安全为出发点,我们更关注目标的对齐性而非性能的可靠性。
随着AI系统逐渐应用于高风险场景和复杂任务上,未来将会遇到更多 不可预见的干扰 (Unforeseen Disruption),这意味着分布偏移会以更多样的形式出现。因此,解决分布偏移问题迫在眉睫。
由分布偏移带来的问题可以大致归纳为: 目标错误泛化 (Goal Misgeneralization)和 自诱发分布偏移 (Auto-Induced Distribution Shift):
目标错误泛化 是指AI系统在训练分布上获得了很好的 能力泛化 (Capability Generalization),但这样的能力泛化可能并不对应着真实的目标,于是在测试分布中AI系统可能表现出很好的能力,但是完成的并不是用户期望的目标。
△训练环境中“跟随红球”策略获得高奖励
△测试环境中沿用训练策略“跟随红球”反而获得低奖励
△Goal Misgeneralization: Why Correct Specifications Aren’t Enough For Correct Goals(Shah et al.,2023)
在上面的例子中,蓝色小球在测试环境中沿用了在训练环境中能够获得高奖励的策略(跟随红球),但是这却导致了它在蓝色测试环境中“表现很差”。
事实上,该RL环境有着良好的表征(如每个圆环对应不同奖励,只有按照正确顺序遍历圆环才能累加奖励,以及画面右侧黑白变化的方块指示着正负奖励),最后智能体学习到了“跟随红球”的策略, 但这并不是用户期望的目标——探索到环境的奖励原则(Capability Generalization but Goal Misgenerlization)。
自诱发分布偏移 则是强调AI系统在决策和执行过程中可以影响环境,从而改变环境生成的数据分布。
一个现实例子是在推荐系统中,推荐算法选择的内容可以改变用户的偏好和行为,导致用户分布发生变化。这进而会进一步影响推荐算法的输出。
随着AI系统对世界产生越来越大的影响,我们还需要考虑AI系统融入人类社会之后对整个社会数据分布的潜在影响。
△自诱发分布偏移的实例,Hidden Incentives for Auto-induced Distribution Shift(Krueger et al., 2020)
进一步,论文中主要从算法对策(Algorithmic Interventions)和数据分布对策(Data Distribution Interventions)两方面介绍了应对分布偏移的措施。
Learning under Distribution Shift 框架图
算法对策
算法对策 大体可分为 两类 :
一是 通过在算法设计上 融合多分布 帮助模型学到不同分布间的 不变联系 (Invarient Relationships, 与Spurious Features相对)。这一类的方法包含有 分布鲁棒优化 、 不变风险最小化 、 风险外推 等。
在这些方法中,“风险”被定义为损失函数在不同分布上的均值。
模型有可能会建立环境与结果之间的 虚假联系 (Spurious Correlations), 比如预测“奶牛”的模型可能会建立“草原背景”与真实值之间的联系,而非“奶牛的特征”与真实值的关系。
融合多分布 可以“迫使”模型学到不同分布间的不变联系,以尽可能降低“风险”,在不同分布上取得良好的泛化性能。
下面我们介绍几种具有代表性的方法:
二是 利用模式连接(Mode Connectivity)的特性,微调模型参数使得模型能够从基于虚假特性预测到基于不变联系预测。
△Mechanistic Mode Connectivity(Lubana et al., 2023)
模式连接 旨在探索机制性不同的最小化器是否通过低损失路径在景观中相互连接,以及能否根据这种连接性,进行预训练后微调,以实现最小化器之间的转化,并有望改变模型的预测特征(从基于虚假特性到基于不变联系),从而实现模型泛化性能的提升。
数据分布对策
数据分布对策 则是希望扩展训练时的原始分布,能动地提升模型泛化能力,相关的工作包含 对抗学习 (Adversarial Training)和 协作学习 (Cooperative Training)。
对抗训练 通过将 基于扰动的对抗样本 (Perturbation-Based Adversarial Examples)或 无限制对抗样本 (Unrestricted Adversarial Examples)引入训练分布,来提升模型对于新分布环境下对抗攻击的鲁棒性。
△对抗训练的框架示意图,Deep Neural Network based Malicious Network Activity Detection Under Adversarial Machine Learning Attacks(cat,2020)
合作训练 更加强调智能体或AI系统的多元互动关系。由于训练过程中可能缺乏动态变化的多系统元素,训练好的AI系统部署于多系统交互的环境中时(如多智能体交互),可能由于新元素的加入,从而产生一些危害其他系统甚至社会的行为(Collectively Harmful Behaviors)。
△Cooperation的种类,Open Problems in Cooperative AI(Dafoe et al., 2020).
在这一节中,作者既介绍了MARL领域的 完全合作 (Fully Cooperative MARL)和 混合动机 (Mixed-Motive MARL)情形,也同时涵盖了其他研究方向,如 无准备协调 (Zero-Shot Coordination)、 环境搭建 (Environment-Building)、 社会模拟 (Socially Realistic Settings)等。
随着AI系统日渐部署到现实交互场景中,解决这一类问题将是实现人机共生的必由之路。
对齐保证
在前面的章节中,作者介绍了AI系统训练过程中的对齐技术。在训练后的部署过程,确保AI系统依然保持对齐也同样重要。
在对齐保证一章中,作者从 安全测评 (Safety Evaluation)、 可解释性 (Interpretability)和 人类价值验证 (Human Values Verification)等多个角度讨论了相关的对齐技术。
△Assurance 框架图
安全评估
作者将 安全评估 分为数据集与基准、评估目标和红队攻击三部分:
数据集与基准 介绍了数据集和交互式评估方法:
数据集部分详细分析了安全评估中应用的数据源、标注方法和评估指标;
交互式方法分为“ 代理交互 ”和“ 环境交互 ”两类,前者通过与代理(人类或者其他AI)的交互来评估AI系统输出的对齐质量,后者则是通过构建具体的语境来评估AI系统。
△(Li et al. 2023)
评估目标 探讨了由不对齐的AI系统可能衍生出的风险产生的安全评估目标,如 毒性 (Toxicity)、权力追求(Power-seeking)、 欺骗 (Deception)和较为前沿的 操纵 (Manipulation)、 自我保护与增殖 (Self Preservation & Prolification)等,并且对这些目标的主要评估工作进行了介绍,形成了一个表格(如下表)。
△Deepmind对前沿AI风险的描述,本文沿用了”前沿AI风险”(Frontier AI Risks)一词对这些风险的主干部分进行了介绍(Anderljung et al. 2023)
△在这张表格中作者对目前主要的主要安全评估工作进行分领域的介绍
红队攻击 的主要目的是通过制造和测试各种场景,检验AI系统在面对对抗性的输入时是否仍然保持对齐,以确保系统的稳定性和安全性。作者在这段中介绍了多种红队攻击的技术,包括利用强化学习、优化和指导等方法生成可能导致模型输出不对齐的上下文,以及手动和自动的“越狱”技术;
同时探讨了众包对抗输入(Crowdsourcd Adversarial Inputs)、基于扰动的对抗攻击(Perturbation-Based Adversarial Attack)和无限制对抗攻击(Unrestricted Adversarial Attack)等生成对抗性输入的多种手段,并介绍了红队攻击的具体应用与产品。
△(Perez et al., 2022)
可解释性
可解释性 是确保AI系统的概念建模、内部逻辑和决策过程可视化、可解释的技术,力求打破AI系统的黑箱效应。
作者深入剖析了神经网络的 后训练可解释性 (Post Hoc Interpretability),探讨了如何通过机制可解释技术、神经网络结构分析、涨落与扰动、可视化技术等,揭示神经网络的运作机制,并进一步阐释了 可解释性模型的构成 (Intrinsic Interpretability),包括对AI系统中的黑箱成分进行替换等从机制上构建可解释模型的方法。
最后作者展望了可解释性研究的 未来挑战 ,如可扩展性(Scalability)和基准构建(Benchmark)等。
△回路分析(Circut Analysis)的一个示意图,回路分析是后训练机制可解释性的一个重要技术(Olah et al. 2020 )
人类价值验证
人类价值验证 介绍了验证AI系统是否能够与人类的价值观和社会规范进行对齐的理论和具体技术。
其中, 形式化构建 (Formualtion)通过形式化的理论框架来刻画和实现价值对齐性,一方面作者为机器的伦理的建立建构了形式化框架,探讨了基于逻辑、强化学习和博弈论的多种方式;
另一方面,作者提到了合作型AI中基于博弈论的价值框架,探讨了如何通过增强合作激励和协调能力来解决AI系统中的非合作和集体有害价值的问题。
而 评估方法 (Evaluation Methods)则从实践的角度介绍了构建价值数据集,场景模拟建立基准评估和判别器-评价器差异法(Discriminator-Critique Gap, DCG)等价值验证的具体方法。
△判别器-评价器差异法(Discriminator-Critique Gap, DCG)的示意图(Zhang et al. ,2023e )
AI治理
确保AI系统保持对齐不仅需要相应的技术手段,还需要相应的治理方法。
在治理章节中,作者讨论了AI治理过程中的几个重要问题: AI治理扮演的角色,治理AI的利益相关者的职能和关系以及有效的AI治理面临的若干开放性挑战 。
作者首先了AI治理在解决现有AI风险中的 角色担当 。
现有的AI系统在社会中已经引发了例如种族歧视、劳动力置换等伦理与社会问题。
一些模型具有产生虚假信息以及危险化学生物分子的能力,可能会产生全球性的安全风险。同时,未来可能出现的更具自主性和通用性的AI系统。
如果缺乏足够的保障,这些模型很可能对人类造成灾难性风险。AI治理的主要目标正是减轻这一多样化风险。
为实现这一目标,AI治理的相关方应共同努力,给予每类风险应有的关注。
△先进AI系统可能具备的危险能力
然后,作者将AI治理的主要利益相关方分为 政府(Government),业界(Industry and AGI Labs)以及第三方(Third Parties) 。
其中,政府运用立法、司法和执法权力监督AI政策,政府间也进行着AI治理的国际合作。
业界研究和部署AI技术,是主要的被监督方,业界也常常进行自我监督,确保自身技术的安全可靠。
第三方包含学界、非政府组织、非盈利组织等机构,不仅协助审查现有的模型与技术,同时协助政府进行AI相关法规的建立,实现更加完善的AI治理。
△Governance的治理架构
此外,作者还讨论了AI在 国际治理 (International Governance)以及 开源治理 (Open-source Governance)方面的开放性挑战。
AI的国际治理(International Governance)
一方面,当前许多AI风险,例如市场中AI公司的无需竞争以及模型放大现有性别偏见具有明显的国际性与代际性,国际合作共同治理有利于对这些风险的防范。
另一方面,现有AI技术带来的经济与社会效益并没有均匀分配,不发达国家以及缺乏相关AI知识的人群并不能在AI技术的发展中获益,国际合作通过修建基础设施,加强数字教育等方式能够缓解这一不平衡。
同时我们注意到,现有的国际组织具有解决国际重大安全风险的能力,我们期望AI国际治理也能够产生类似的国际组织,协助治理AI风险并合理分配AI带来的机遇。
AI的开源治理(Open-source Governance)
随着AI系统能力的不断增强,是否应该开源这些AI系统存在着很多争议。
支持者认为开源AI模型能够促进模型的安全能力,同时认为这是利于AI系统去中心化的重要手段。
而反对者则认为开源AI模型可能会被微调为危险模型或是导致非开源模型的越狱,进而带来风险。
我们希望未来能够出现更加负责任的开源方法,使得AI系统在开源的同时避免滥用风险。
总结和展望
在这份综述中,作者提供了一个覆盖范围广泛的AI对齐介绍。
作者明确了对齐的目标,包括 鲁棒性 、 可解释性 、 可控性 和 道德性 ,并将对齐方法的范围划分为 前向对齐 (通过对齐训练使AI系统对齐)和 后向对齐 (获得系统对齐的证据,并适当地进行治理,以避免加剧对齐风险)。
目前,在前向对齐的两个显着研究领域是 从反馈中学习 和 在分布偏移下学习 ,而后向对齐由 对齐保证 和 AI治理 组成。
最后,作者对于AI对齐领域下一步发展进行展望,列出了下面几个要点。
研究方向和方法的多样性:
对齐领域的一大特征是它的多样性——它包含多个研究方向,这些方向之间的联系是共同的目标而非共同的方法论。
这一多样性在促进探索的同时,也意味着对研究方向的整理和对比变得尤其重要。
开放性探索新挑战和方法:
许多有关对齐的讨论都是基于比 LLMs 和大规模深度学习更早的方法之上构建的。
因此,在机器学习领域发生范式转变时,对齐研究的侧重点也发生了改变;更重要的是,方法的变革,以及AI系统与社会的日益紧密融合的趋势,给对齐带来了新的挑战。
这要求我们积极进行开放性探索,洞察挑战并寻找新的方法。
结合前瞻性和现实导向的视角:
对齐研究尤其关注来自强大的 AI 系统的风险,这些系统的出现可能远在数十年后,也可能近在几年之内。
前一种可能性需要研究前瞻趋势和情景预测,而后一种强调AGI Labs、治理机构之间的紧密合作,并以当前系统作为对齐研究的原型。
政策相关性:
对齐研究并非孤立存在,而是存在于一个生态系统中,需要研究人员、行业参与者、治理机构的共同努力。
这意味着服务于治理需求的对齐研究变得尤为重要,例如极端风险评估、算力治理基础设施以及关于AI系统的可验证声明的机制等。
社会复杂性和价值观:
对齐不仅仅是一个单一主体的问题,也是一个社会问题。
在这里,”社会”的含义有三重:
随着AI系统日渐融入社会,社会和道德方面的对齐也面临着更高的风险。因此,相关方面的研究应该成为AI对齐讨论的重要部分。
AI 对齐资源网站
随着AI的快速发展,具有强大理解、推理与生成能力的AI将对人们的生活产生更加深远的影响。
因此,AI对齐并不是科学家们的专属游戏,而是所有人都有权了解及关注的议题。作者提供了网站(地址见文末),将综述中涉及到的调研内容整理为易于阅读的图文资料。
网站具有如下特色:
直观且丰富的呈现形式:
作者利用网站平台灵活的表现形式,使用图片、视频等媒介更详细地展示了文中介绍的内容,使研究人员、初学者、乃至非科研人员都能更好地理解。
△示例:关于Alignment Problems的部分截图
结构化的知识体系:
作者精心整理了AI对齐相关领域的经典文献,并使用树形图的结构展示了各个子领域的联系与依赖。
相比于简单的资源整合堆砌,网站对内容建立了结构化索引,提供树形图帮助读者快速建立对人工智能对齐研究的认识框架,以及方便其精确查找所需的研究内容。
△示例:读者可以在页面顶端纵览“Scalable Oversight”的相关研究分支,并通过点击“Detae”按钮快速了解领域经典文章
高质量的学习资源:
针对目前的先进对齐方法——RLHF,网站提供了由北京大学杨耀东老师主讲的系列课程Tutorial。
从经典RL算法出发,以对齐的视角对RLHF进行了体系化的梳理与总结。全系列的学习资源支持在线预览和下载。
△从AI对齐视角展开的RLHF系列Tutoiral
外部资源整合:
AI对齐从来就不是某一个团队或机构单独研究的课题,而是一个全球化的议题。网站整理了AI对齐领域的论坛、课程以及个人博客等相关资源链接,旨在为读者提供更多元化和更丰富的资讯。
△网站对有关AI对齐的个人研究、课程、博客等学习资源进行了收集与归纳
持续更新与维护:
网站将面向AI对齐社区 长期开放讨论,持续性地维护与更新 相关领域的调研内容,以期推动AI对齐领域的更广泛更深入研究。
其中包括一份定期邮件发出的 Newsletter (地址见文末),以介绍对齐领域的最新进展和总览。
作者希望有关AI对齐的研究不仅仅局限于一份综述论文,而是成为一个值得所有人关注的研究议题。
因此,作者将积极维护网站这一“在线论文”,持续性地开展AI对齐的调研工作。
论文地址(持续更新):Alignment 纵览网站(持续更新):& Blog(邮件订阅,定期更新):
— 完 —
版权所有,未经授权不得以任何形式转载及使用,违者必究。