万字长文解读百度大模型原生安全构建之路 (万字长文解读百年孤独)

大模型以其更智能、不确定和不可解释的特点，给安全领域，尤其是内容安全带来了更大的挑战。百度在打造文心一言之初就意识到，传统的内容审核技术无法从根本上满足大模型内容安全的需求。因此，我们必须从头开始构建一套全新的方法。

在不久前举办的 AICon 全球人工智能开发与应用大会上，百度安全平台副总经理冯景辉发表了专题演讲“百度大模型原生安全构建之路”，分享聚焦于百度在过去两年百度安全平台团队在大模型内容安全领域遭遇的挑战和问题，以及团队尝试过的解决思路和应对方法，涵盖数据清洗、内生安全与安全对齐、安全围栏建设，以及应用安全与基础模型安全等方面。

我们将在 10 月 18 -19 日QCon 上海站【探索安全边界：出海合规与大模型实践】专场，探讨大模型如何帮助团队成员更高效地解决安全问题。百度杰出架构师、安全技术委员会主席包沉浮将分享百度基于大模型安全运营的质效提升实践。欲了解更多内容，可访问大会官网：

今天，我想与大家分享百度在过去两年中，如何在开发大模型的过程中确保安全性的故事。早期当大模型遇到敏感问题时，，它通常会建议我们换个话题。在过去两年里，我们一直在不断优化，解决模型生成过程中出现的各类安全性问题，同时也在提升用户体验。在下面的图中，我们可以看到，即使是其他公司的模型也经常会遇到需要用户重新提问或直接拒绝回答的情况。然而，最近在使用文心一言时，我们发现它已经开始用更积极的角度引导用户正确看待敏感问题，这在很大程度上改善了用户体验。

今天，我将讨论四个方面的问题。首先，我们会回顾一下大型模型面临的安全挑战。接着，我们将探讨我们是如何逐步演进，以确保大模型的安全性。然后，我们将深入讨论今天的主题——原生安全之路。我们将解释什么是原生安全，以及我们是如何实现它的。最后，会简要介绍一些我们最近在智能体和 agent 安全领域遇到的课题。

大模型安全的挑战

大模型的安全性挑战贯穿其整个生命周期，我们将其与安全相关的部分分为三个阶段：训练阶段、部署阶段和运营阶段。

在训练阶段，确保训练数据的安全至关重要。我们需要采取措施来保护数据不被泄露或滥用，因为这些数据往往是模型学习的基础，并且可能包含敏感信息。

进入部署阶段，我们面临的挑战是如何在模型部署和推理过程中保护模型参数和文件不被泄露。这包括确保模型文件在存储和传输过程中的安全性，以及在运行时防止未授权的访问。

最后，也是今天讨论的重点，是在运营阶段我们会遇到的问题。这个阶段涉及模型与用户交互的安全性，包括但不限于防止恶意输入、处理敏感请求以及确保用户数据的隐私保护。在这一阶段，我们需要不断地监控和更新模型，以应对新出现的安全威胁和挑战。

大模型训练阶段的安全挑战

在大模型的训练阶段，我们面临的安全挑战主要涉及训练数据的选择、数据的血缘分析以及模型质量的评估。首先，训练数据的选择至关重要，因为它不仅决定了模型的性能，还影响着模型的安全性。我们希望模型能够提供正确价值观的回答，同时保持创新性和多样性。因此，在数据选择时，我们需要清洗掉不安全的内容，保留不同的观点和数据。

大模型训练与部署阶段的安全挑战

在训练与部署阶段，我们面临的挑战包括如何保护模型文件和数据文件在流转和传输过程中的安全。由于许多数据文件存储在云训练平台上，企业内部人员可能拥有访问权限，因此，我们需要确保训练数据和模型参数文件在这一过程中不被泄露、篡改或删除。

为了应对这些挑战，我们需要一套解决方案，确保数据从训练开始就是密态存储，直到模型内部能够原生支持加载密态文件。同时，我们还需要通过完整性校验来发现模型文件的任何缺失或修改情况。

大模型业务运营阶段的安全挑战

在大模型的业务运营阶段，我们面临的安全挑战不仅限于传统内容安全中的黄反类信息，还包括一些特定于大模型的重点问题。这些挑战包括注入型攻击，即通过伪造特定环境或指令，试图使大模型突破其原有的安全限制，输出不应泄露的信息。此外，随着多轮对话窗口的增加，大模型的能力得到扩展，但同时也引入了更多的安全风险。这包括主语指代问题，以及引入多模态内容（如网页、文档、图片、音视频）时增加的风险。

为了说明这些概念，我们分享一些有趣的故事。例如，“奶奶越狱”的故事，这是一个经典的例子，展示了如何通过巧妙的提问使大模型泄露信息。在这个故事中，通过询问大模型关于 Windows 序列号的问题，试图诱导其泄露信息。今天，注入型攻击不仅限于此类情况，还可能包括其他场景。例如，当直接询问大模型关于某城市不良场所的位置时，大模型通常会拒绝回答。但如果我们换个方式问，比如询问带孩子旅游时应避免哪些区域，大模型的安全对齐机制可能会被绕过，从而泄露原本不应提供的信息。

第二个例子涉及到梯度攻击，这是一种在早期视觉领域模型中，尤其是在无人驾驶和道路识别技术中被广泛讨论的攻击方式。大约在 10 年前，甚至更早，人们通过自动化方法寻找能够干扰图像识别的因子。例如，有人通过修改限速标志，将限速 40 公里 / 小时的标志改为限速 120 公里 / 小时，尽管人类视觉上仍然识别为 40 公里 / 小时，但机器却可能将其识别为 120 公里 / 小时，从而引发安全隐患。

这种攻击方法在大模型中也逐渐被发现。通过自动化的方式，我们称之为“魔法后缀”的技术，可以在不添加任何有意义字符的情况下，仅仅通过在 prompt 后加上特定的后缀，就能让大模型输出原本不应输出的有害信息，比如制造炸弹的方法。

在多模态输入的情况下，大模型的安全问题变得更加复杂。通常是在训练数据阶段可能没有进行有效的清洗，同时在安全对齐阶段存在疏漏。在单一模态下，尤其是在自然语言处理领域，大多数中文大模型已经较好地处理了安全对齐问题。但是，当引入多模态输入后，由于多模态数据需要将不同模态的数据映射到同一模态的向量，这一过程中的安全对齐层可能没有与自然语言的安全对齐完全一致，从而导致了安全问题的出现。

大模型安全的演进之路

大模型内容安全的技术选择

在探讨大模型内容安全的技术和策略时，我们关注了一系列问题。最初，我们希望通过安全对齐来解决大模型的安全问题。随着生成式人工智能的兴起，大模型的能力变得前所未有的强大，能够处理以前无法完成的任务。然而，我们很快发现，仅靠安全对齐并不能在训练阶段和微调阶段就确保大模型的安全性。这是因为安全问题不断演变，而大模型的训练周期很长，无法快速响应新的安全威胁。

因此，我们开始考虑引入传统内容安全技术。百度作为互联网企业，已经研发了自己的内容审核技术，用于 PGC 和 UGC 内容的审核。我们考虑是否能够通过这些技术来覆盖大模型的内容安全。但很快我们发现，大模型有其独特的挑战，如多模态输入和多轮会话，这些在传统内容审核中并不常见。此外，内容审核可以有时间上的灵活性，例如发文审核可以进入队列等待，但大模型的 prompt 审核却不能这样做，因为用户期望在几秒钟内就得到响应。

基于这些考虑，我们放弃了依赖传统内容审核技术的方案，转而进入了第三个阶段，即原生安全。所谓原生安全，是指我们在安全性设计之初就放弃了完全沿用的内容审核技术的思路，转而构建了一套新的方案。这套方案首先将多轮会话纳入模型的 Prompt 和输出结果中，使得安全内容的过滤和分析能够考虑到会话状态。其次，我们引入了提问意图这一概念，关注用户提问的恶意性和他们寻求的答案类型。这通常需要通过 prompt 改写来处理用户的问题，这是大模型领域常用的优化方法。

此外，我们还应用了 RAG 技术和代答模型。代答模型是指用一个小模型来回答敏感的安全问题，而不是完全依赖大模型。这样做的好处是多方面的。结合 RAG 技术，我们形成了一套基于生成式内容的原生安全方案，与底层的安全对齐相结合，构成了我们今天讨论的原生安全策略。

为什么只做安全对齐不行

仅依靠安全对齐是不够的，原因有几点。首先，安全对齐通常在 SFT 或人力反馈的强化学习阶段进行，这个阶段对于价值观类问题比较有效，比如避免红灯区、不赌博、不进行人身攻击等。然而，对于政治敏感性问题、领土完整等具有明确观点性和事实性的问题，安全对齐阶段处理起来就不太有效。这些问题不仅具有极强的专业性，而且具有时效性。这与价值观类问题不同，价值观类问题相对恒定不变，更容易在对齐阶段一次性解决。此外，安全对齐需要及时更新以应对每天从政府、媒体、舆论和海外传来的风险舆情，而重新训练安全模型需要大量时间成本，因此我们需要一种外挂式的方式来实现及时更新。

为什么内容审核技术也不行

至于为什么传统的内容审核技术也不行，主要问题之一是多轮会话的处理。例如，用户可能会问“香港是哪个国家的”，模型会提供香港的历史和回归中国的故事。然后用户可能会基于这个答案提出更多问题。但是，如果有人恶意构造问题，他们可能会利用输出的内容来引导发现更多的问题。在单一的 Prompt 回合中，可能不存在任何默认的敏感词，但多轮会话对传统内容审核技术构成挑战，因为它需要具备会话处理能力。此外，大模型的越狱技术越来越多地采用情景设定，但它会干扰模型回答内容的质量和安全边界。这些情况通常不会被传统内容审核技术关注到。再加上模型本身的不可解释性，我们很难通过一个具体案例去追溯安全对齐或安全问题上出现的问题，需要通过数据的飞轮不断迭代，才能逐步提升安全性。

关注准确率

随着长文本处理的需求日益增长，大模型现在能够处理的文本长度已经从 8K 起步，甚至有些模型可以处理长达 300K 的文本窗口，这使得我们可以将整本书的内容输入到大模型中。在这样的背景下，长文本的准确率变得尤为重要，不再仅仅局限于 200 或 500 个 token 的语境。长文本语境中容易出现误报，尤其是在带有特定场景的输入安全方面。

在讨论安全问题时，我们通常关注召回率，即模型能够识别出多少潜在的安全问题。但在实际的生产环境中，准确率问题更为常见，因为误报会在安全实施中造成困扰。例如，一个社区民警希望生成一个反诈骗提示，可能会使用一些常见的宣传词汇，如“以小博大”、“六合彩”等。如果模型没有很好地理解这些语义，就可能错误地将这些内容标记为安全问题，从而产生误报。这种误报在生产环境中是需要避免的，因为它会影响安全措施的有效性和用户体验。

开始原生安全之路

原生安全四要素

在构建大模型的原生安全体系时，我们认为需要关注四个关键要素：

这不是一次性的数据流程，而是一个周期性的循环过程。在这个循环中，通过持续评估发现的问题，不断通过安全围栏和数据清洗进行补齐，并在模型的下一轮迭代中提高安全对齐能力，从而形成一个持续提升的安全循环体系。

在进行数据清洗时，我们遵循国家相关法律法规的要求，特别是生成式人工智能管理的暂行办法及其实施条例。

数据清洗的第一步是对数据质量和安全性进行评估。在训练数据输入模型之前，训练团队需要评估数据的质量，而安全团队则负责评估数据的安全性。安全性评估包括确定数据来源，比如是否来自合法的 PGC 组织、UGC 民间数据，或是海外数据，并分析其中可能存在的风险比例。

第二步是去除数据中的脱敏隐私内容，包括个人信息和隐私信息，如身份证号、电话号码、家庭住址等，确保这些信息被彻底脱敏。

第三步是根据规范要求删除不合规、不合法的数据内容，并在删除后保持语义的通顺和语境的完整性。经过这一轮修剪和删除，可能有近 50% 的数据被清洗掉。

最后，我们需要对清洗后的数据集进行完整性评估，确保数据集仍然可用。如果评估结果显示数据集质量仍然符合要求，那么数据清洗过程就完成了，数据可以进入下一步的训练流程。

百度的解决方案

百度的内容安全解决方案是一个综合性的体系，它由几个关键部分组成：

安全围栏对抗性防御架构

百度的安全围栏对抗性防御架构是一个多步骤的流程，旨在确保大模型的安全性和可靠性。这个架构大致分为五个步骤：

我们的安全围栏的数据流是一个复杂的过程，它从文本输入开始，然后经过多个环节来确保内容的安全性。首先，系统需要识别输入文本的语言，区分它是中文、英文、中英文混杂还是其他语种，因为不同语种需要采取不同的处理策略。接下来，文本可能会经过改写，以消除歧义或潜在的安全问题，但具体细节在此不展开。文本经过改写后，会进行意图分析，以确定用户的真实意图。例如，如果分析发现文本可能涉及领土完整的负面攻击性问题，系统会将其引导至安全模型进行处理。安全模型会利用基于安全语料构建的 RAG 数据，这些数据覆盖了基本的敏感话题，以确保回复内容的安全性。RAG 数据随后被送入专门为安全训练的代答模型中，生成回复内容。如果文本在意图分析阶段被识别为具有较强攻击性，如涉及领导人的攻击性分类，可能会被标记为不上屏，即不直接显示给用户。我们越来越多地采用正面引导的方式，而不是直接拒答，这是通过检索增强和代答模型实现的，将安全风险性问题引导至代答模型中进行准确引导和回答。

在整个过程中，系统需要关注多种潜在的安全威胁，包括但不限于：

安全对齐

虽然安全对齐不是本次分享的主要议题，但我们可以简要总结百度在安全对齐方面的一些最佳实践：

持续评估

持续评估是确保大模型内容安全的关键环节，它涉及多个方面的关注点：

为了实现自动化评估，我们采用了一个更大的模型，对问答内容进行大量的监督学习训练。通过训练，我们建立了一个裁判模型或监督模型，使其能够理解对一个问题的正确回答和负向回答是什么。这个模型为被测模型的输出提供了有效的评估，成为自动化评估的基准。目前，我们能够在备测数据集上实现大约 90% 的 F1 分数，在大多数分类上，自动化评估是可行的。通过这样的持续评估，我们可以确保大模型在处理各种问题时的安全性和可靠性。

安全代答模型如何做到比大模型更安全

在讨论安全代答模型时，我们面临一个看似矛盾的问题：理论上，一个更强大的模型应该能够提供更安全的回答，但更强大的模型通常需要更多的训练数据和更大的参数量，这可能导致资源消耗增加，从而增加成本。安全措施的成本必须低于业务成本，才能被接受。那么，代答模型如何在保持较小规模的同时，实现比大模型更高的安全性呢？我们从以下几个方面进行了规范：

要点小结 ：

关注智能体安全

我们认识到智能体是大模型生态发展中极为重要的一环。今年，百度特别重视智能体的推广，因为它们不仅仅是基础模型的简单应用。

最初，我们认为只要做好基础模型就足够了，但很快发现实际情况并非如此。从开发大模型的第一天起，我们就面临了大量恶意使用技术的情况，这与仅开发基础模型时遇到的问题不同。我们需要能够及时有效地应对这些滥用行为。

必须关注场景安全

在开发特定场景的智能体时，除了关注基础模型的安全问题外，还必须关注特定场景的安全问题。例如，在开发广告领域的智能体时，我们不仅要考虑基础模型的安全，还要关注广告法、虚假宣传以及广告可能引入的各种欺诈风险。在 K12 教育领域，我们还需要关注早恋、吸烟、游戏沉迷等安全问题，这些在传统基础模型中可能不会受到太多关注。

Prompt 泄露

举一个例子，一位湾区的作者通过自己公司的数据创建了一个智能体，能够展示和推理湾区特定职业的收入情况。然而，黑客可以通过简单的指令泄露这些智能体的 prompt 内容，甚至可以将用于训练的 RAG 数据以文件形式下载。在智能体的开发和应用中，我们需要特别注意数据和模型的安全性，防止敏感信息的泄露。

RAG 投毒

在大模型的应用中，RAG 数据已成为一个标准配置，它对于提供准确的信息至关重要。然而，RAG 数据也存在被“投毒”的风险，即数据被恶意篡改或污染。如下图所示，如果 RAG 数据被投毒，当用户询问“湖南的省会是哪里”时，大模型可能会给出错误的回答。

总结

总结下今天的分享，我们首先通过数据清洗和安全对齐来确保模型的内生安全。这意味着从源头上开始构建模型的安全性，使其在处理数据和生成回答时能够内化安全标准。其次，内生安全需要与外生防护相结合，形成纵深的防御体系。通过安全围栏，我们可以快速有效地干预潜在的安全威胁。同时，安全对齐让我们的模型在面对各种挑战时变得更加强大和健壮。最后，随着智能体在各个领域的应用越来越广泛，我们开始更加关注智能体的安全问题。通过弱点分析，我们可以不断发现并解决潜在的安全问题。此外，通过指令加强和应用层面的安全防火墙，我们可以增强智能体自身的安全性。

演讲嘉宾介绍

冯景辉 ，现任职于百度安全平台，任副总经理，负责集团业务安全、业务风控和大模型安全解决方案；其负责的百度搜索内容检测系统，多年来致力于持续改善搜索生态健康度，打击各种违法违规黑产利用搜索引擎传播，尤其是在打击搜索结果中的涉诈内容方面，为保护网民，净化网络空间内容履行百度社会责任，连续七年持续投入打击力量；其负责的业务风控、流量安全、反爬虫等方向是百度所有互联网业务的核心安全能力，历年来在百度移动生态业务中发挥重要的保障作用；其主导的大模型安全解决方案是国内第一个可商用的覆盖大模型训练、部署和运营全生命周期的安全解决方案。在进入百度之前，冯景辉是国内第一家完全基于 SaaS 的云安全服务厂商安全宝的联合创始人兼研发副总裁，安全宝系统架构总设计师。

会议推荐

AI 应用开发、大模型基础设施与算力优化、出海合规与大模型安全、云原生工程、演进式架构、线上可靠性、新技术浪潮下的大前端…… 不得不说，还是太全面了。现在就可以报名，详情请联系票务经理 17310043226 咨询。

万字长文解读百度大模型原生安全构建之路 (万字长文解读百年孤独)

大模型安全的挑战

大模型训练阶段的安全挑战

大模型训练与部署阶段的安全挑战

大模型业务运营阶段的安全挑战

大模型安全的演进之路

大模型内容安全的技术选择

为什么只做安全对齐不行

关注准确率

开始原生安全之路

原生安全四要素

百度的解决方案

安全围栏对抗性防御架构

安全对齐

持续评估

安全代答模型如何做到比大模型更安全

关注智能体安全

必须关注场景安全

Prompt 泄露

RAG 投毒

总结

演讲嘉宾介绍

中关村实验室等机构联合发布 2024 大模型安全实践白皮书国内首份！清华大学 (中关村实验室主任)

没有了！

大模型安全的挑战

大模型训练阶段的安全挑战

大模型训练与部署阶段的安全挑战

大模型业务运营阶段的安全挑战

大模型安全的演进之路

大模型内容安全的技术选择

为什么只做安全对齐不行

关注准确率

开始原生安全之路

原生安全四要素

百度的解决方案

安全围栏对抗性防御架构

安全对齐

持续评估

安全代答模型如何做到比大模型更安全

关注智能体安全

必须关注场景安全

Prompt 泄露

RAG 投毒

总 结

演讲嘉宾介绍

相关文章

中关村实验室等机构联合发布 2024 大模型安全实践 白皮书 国内首份！清华大学 (中关村实验室主任)

没有了！

总结

中关村实验室等机构联合发布 2024 大模型安全实践白皮书国内首份！清华大学 (中关村实验室主任)