“模型”中科院院士何积丰：应对大模型安全问题需加“紧箍咒”

2023-09-07 21:05:27来源：《财经》杂志

今天，很高兴为大家分享来自《财经》杂志的中科院院士何积丰：应对大模型安全问题需加“紧箍咒”，如果您对中科院院士何积丰：应对大模型安全问题需加“紧箍咒”感兴趣，请往下看。

人类要和机器持续共同学习。人类指导机器学习，使其更加智能；同时，人类也要学会如何指导机器，使其更加符合人类需要的目标

文｜唐郡

编辑｜张威袁满

“如果把人工智能看作《西游记》中的孙悟空，那么对齐技术就是唐僧的‘紧箍咒’，它可以保证孙悟空不会任意使用其能力闯祸，为所欲为。”

9月7日开幕的“2023 INCLUSION·外滩大会”上，中国科学院院士何积丰介绍了以大模型为核心人工智能技术面临的安全问题，并开出他的“药方”：利用对齐技术为大模型戴上“紧箍咒”。

何积丰表示，当前与大模型技术相关的安全问题主要有两类。

一是隐私问题。大模型出现后，人们在使用社交媒体、搜索引擎、与大模型对话等场景中，将更容易面临个人隐私泄露问题。

“大家想象一个场景，当大模型收集到你足够多个人信息，如果有一个提示大模型为你个人画像，他完全可以写出一本小说来，他会收集你所有静态和动态的信息。”何积丰称。

二是对齐（Alignment）问题。据何积丰介绍，对齐是1960年《控制论》专家在一次讲话里面提到的概念，其含义是：如果你有一个重要的目标，你使用了一个你很难进行干涉的机械装置去执行这个任务，那么你必须要确定，你让它做任务和它能做任务之间必须是一致的。

在大模型时代，对齐技术的主要任务是，引导智能系统的目标与人类价值观、跟人的愿望保持一致，要符合系统设计者本身的利益和意见，千万不要做危害社会跟人类的事情。

如果将以大模型为核心的人工智能比作“孙悟空”，对齐技术就是唐僧口中的“紧箍咒”。它是控制人工智能安全的核心技术，能够防止未来的超级智能利用其强大的能力胡作非为。

不过，何积丰坦言，对齐的实现仍面临两大挑战，：一是对齐的基础——人类价值观，是多元且动态变化的；二是大模型有用性跟无害性之间目标不是完全一致，也会发生冲突。

最后，何积丰提出，“人类要和机器持续共同学习。”也就是说，人类指导机器学习，使其更加智能；同时，人类也要学会如何指导机器，使其更加符合人类需要的目标。

“在人工智能发展过程中间，我们千万不要忘记人类的核心角色，我们希望AI技术只是我们的助手，而不是AI技术代替我们人类创造新世界的未来。”何积丰强调。

以下为何积丰演讲实录：

何积丰：各位领导、各位嘉宾，非常荣幸参加第二届外滩大会。跟大家分享一下我们很关心的问题，大模型时代的安全问题。

AI的安全本身就是一个非常广泛的概念，它发展的很快。大模型为核心的AI技术快速发展以后，又在一些新的事件，这使得我们做人工智能AI的感觉到生活在早期的黑暗丛林里面，有很多的风险，但是我们又看不清楚安全的全貌，需要经过逐步的探索。

目前AI安全的工作，集中在发现问题，我们还没有一个解决问题的全部答案。为什么今天讲大模型安全问题？它到底跟我们现有已经知道的AI安全运用有什么差别？下面演讲里面主要是跟大家分析，在我们大模型技术发展中间我们遇到了哪些主要的安全风险问题。

大模型进入我们的视野不过一年不到，但是世界上有不少科学家也提出很多关于安全风险方面的警示，调子是越唱越高。大家就会问，那么好的技术，才刚刚走入我们的生活，怎么会有那么多的安全问题？到底这个安全问题跟我们已经知道的，互联网上的安全问题有什么差别？下面我们就想先分析一下为什么有这样的现象。

第一大原因，我们认为是因为以大模型为核心的AI技术真正展现出一种通用的人工智能技术。换句话说，它是我们人工智能发展中间的一个拐点，它是中间的一个核心技术。我们已经看到，随着行业里面一些专用的AI系统，从本质上它的很多具体任务、体系方面是一个很好的清算效率的表示。而大模型是带来了一个真正像人的智能。这个是会给我们带来什么呢？因为它自己有自主学习能力，进化非常快，经过多代迭代升级以后，我们将会有一个在多方面超过人类智能的超级智能。一旦这个区间到达了，我们会问自己，我们人类怎么来应对这样超过我们人类的智能，我们是不是有能力来管理这个智能。这是我们认为的第一个大问题。

第二大原因，由于大模型技术深入到社会生活、生产各个方面。开始我们用户都非常兴奋，但是我现在有很强的感觉，什么事情都让他做，他也产生了很好的效果，今天几位专家都说了应用大模型的好处。但是一旦出了问题，后果也是可以想像的。就像迈克尔·乔丹教授说的，它的不精确部分，错误部分的影响也是非常大的。下面我们看看主要跟大模型技术相关的安全问题是哪几个问题？我们说主要有两类问题。

第一类问题是关于隐私。隐私这个问题我们讲了很久，在数据分析技术发展过程中间，大家都关心隐私，所以它对应就是非常简单，没有得到同意的情况下，你收集、使用甚至泄露了个人信息，那就是隐私。这个隐私本质的构成有什么特征？有什么解决方案？我们会在下面几张PPT里面一一进行分析。

第二类问题对齐（Alignment），这个概念是在1960年《控制论》专家在一次讲话里面提到的概念。他说，如果你有一个重要的目标，你使用了一个你很难进行干涉的机械装置去执行这个任务，那么你必须要确定，你让它做任务和它能做任务之间必须是一致的。所以做对齐技术它主要的任务是什么？是引导我们的智能系统的目标跟人类价值观、跟人的愿望是一致的，要符合系统设计者本身的利益和意见，千万不要做危害社会跟人类的事情。如果我们把人工智能作为能力，看作西游记里面的孙悟空，对齐这个任务就是唐僧口中的紧箍咒。有了紧箍咒以后，他就可以保证生物孔不会任意使用它的能力闯祸、胡作非为。我们在对齐技术也是起这么一个作用，它是控制人工智能安全的核心技术。

下面，我们就从一些看到的隐私跟对齐里面分析一下它主要的表现跟我们应对的一些办法。

第一个问题，大模型时代的隐私问题跟传统的机器学习是有差别的。我们知道，我们现在很擅长于在各种社交媒体里面发帖子，我们有自己个人的网页。然而我们的大模型在你不知不觉过程中间收集了大量的数据，尽管在学习过程中间我们是做了一些匿名化，也打了标签，但是现在的提示技术是很容易让我们的大模型泄露你个人信息的。前段时间，香港科技大学跟北京大学就发布了一个文章，他们使用了一种模型，来指导你写一个提示语言。这使得我们大模型很容易泄露他掌握的个人信息。这是我们碰到的第一个问题，他这个大数据太多，但是他里面信息是很容易被泄露出去的。

第二个问题，我们现在通过跟大模型之间的交互、谈话，我们有很多用户的私密信息被泄露。我们很高兴有大模型这个技术，我们非常重视，我们的隐私安全、个人爱好、行为习惯都被大模型获取了。大模型非常有能力泄露出已经有的私密信息，这个过程就使我们感到我们私密信息没有得到应用的隐私保护，用过ChatGPT的用户大概有这样的体验，他在屏幕上有一个数据控制键，他就问你，你下面做个选择，要么跟我对话，要么允许我把你对话中间用到的数据，用在我以后训练过程中间。你两者中间只能取一个。换句话说，你要面临一个要么失去你的隐私，要么你失去服务可能的选择，这是我们非常不希望看到的。

第三个问题，大模型生成技术使得隐私泄露变得更加容易，这也是我们不愿意看到的，我们觉得隐私保护更加的困难。具体的可以做一个简单的分析比较，我们做数据处理技术的一些专家都知道，很习惯用搜索引擎。搜索引擎主要是靠什么？靠关键词匹配，找到一些数据帮你排个序。可是我们大模型它不是靠匹配来找到你要的东西，他是靠生成，是靠他的语料库，依靠上下文的联合组成一个文本。这个中间你可以想象，他这个组成材料的方式那么多，泄露方式就比过去多得多了。另外，我们还有这样的一个情况。

有了第二点、第三点以后大家想象一个场景，当大模型收集到你足够多个人信息，如果有一个提示大模型为你个人画像的话，他完全可以写出一本小说来，他为收集你所有静态和动态的信息。西方投资公司里面，他们开始采取这个技术，来评估他要投资单位人的所有信息。这个情况的发展，是比我们想象的可怕得多。这是我们碰到一些大数据、大模型里面的隐私问题。

下面讲一下对齐。对齐目标刚才已经说了，我们是希望能够引导我们智能系统的目标是跟人类价值观、跟我们的期望是一致的。这里我举了一个简单的例子，我们做机器人，有几个基本目标，不论怎么样的机器人，1、它千万不能伤害人类，这是最重要的一条。2、如果你不违背第一条基础上，要听从主人的命令，换句话说你要能够有工作、有表现。3、在执行完第一、第二以后，机器人也要保护自己。这就是他们遵守的基本规则。

大家看看，到底这些对齐的技术里面我们碰到那些挑战？主要是两大类的挑战：

第一个挑战，对齐的基础-人类价值观是多元且动态变化的。对齐的基础是人类价值观，但是人类价值观不是一个价值观，它是动员的，而且是动态变化的。对齐要做哪几个事情？它至少为了完成任务要做三个事情，第一个事情，它这个智能系统尽可能像人一样，换句话说他为人服务。要做到这一条，我们要提供高数量的数据，另外能够有方法微调它的模型，这样让它看到问题的所在，能够纠正错误。第二个事情我们希望跟它跟我们价值观对应的时候，需要我们的基本价值观，通俗语言来说，它不能危害人，与人为善，为社会做好的事情。这个中间就碰到一个变化的挑战，涉及到整个社会的多样性，甚至包括建模过程中间我们的爱好、我们的偏见，都会影响所谓对齐的工作。最后的任务，既然是多元化的价值观，我们也不可能做一个系统只能一个价值观是对应的，因此我们要构造具有个性化的系统。这个任务更加具有挑战性。

第二个挑战，大模型有用性跟无害性之间目标不是完全一致，也是会发生冲突。我们这里有一个非常极端的例子，有一个系统，你问他任何问题他都不给你任何答案，没有答案的。换句话说，他不提供服务，没有用处，但是肯定没有用处，因为他没有告诉你做什么事情。另外一个，让他做的事情，有的事情他会做错。这里面你怎么选？对他的错误怎么进行纠正？这就是我们做紧箍咒中间一个重要的挑战问题。

目前，来解决这个对齐问题主要的技术手段，是通过反馈强化学习是实现对齐的技术途径。中间有两种不同手段：第一种手段，靠人，每次对对大模型生成系统产生的答案进行打分，给它奖励。那么这个人的偏见、人的爱好就是打分主要的目标。这个做法里面有个缺点，收集人类反馈信息还是比较花费时间的。而且这种花费也不一定客观，跟每个人自己喜欢的东西有关。所以，这是一类技术，尽管用了了，效率不高。另外就是用所谓先发力量，直接给我们智能系统提供指导规则。这类工作有一个好处，它效率比较高，而且它本身过程是比较透明的，换句话说每个人都可以看到这个系统到底收到哪些指令，要它做哪些事情，这方面的技术发展是非常快的。现在还有其他一些技术，譬如说北大AI团队，他们做一个双向对齐的问题。不仅要我们的智能系统向人类所谓价值观进行对齐，包括我们人类的学习方法也要作为向价值观对齐。

我的时间已经用完了，下面我是报告的最后一部分。

我们提的口号是“人类和机器要持续共同学习……”。1951年，Alan Turing跟它的朋友有一个谈话，他说我最近在做一些简单的机器学习的事情，我发现教机器非常难，要么做错，要么做的很慢，要么什么事情都没有做。他的朋友提了很好的一个问题，他说到底谁在学习？换句话说，到底是机器在学习，还是人在学习？图灵感受到这一点，我们双方都在学习，我们人类指导机器，让机器变的更加智能。同时在指导过程中间，我们也慢慢学会什么样的指导是我们的机器能够符合我们人类需要的目标。这就是说，在人工智能发展过程中间，我们千万不要忘记人类的核心角色，我们希望AI技术只是我们的助手，而不是AI技术代替我们人类创造新世界的未来。

我的报告完了，谢谢大家。

(作者为《财经》记者)

题图来源 | Pixabay

版面编辑 | 李郝钰

好了，关于中科院院士何积丰：应对大模型安全问题需加“紧箍咒”就讲到这。

返回科技金融网首页 >>

版权及免责声明：凡本网所属版权作品，转载时须获得授权并注明来源“科技金融网”，违者本网将保留追究其相关法律责任的权力。凡转载文章，不代表本网观点和立场，如有侵权，请联系我们删除。