“领域”大语言模型综述全新出炉：51页论文带你盘点LLM领域专业化技术

2023-07-16 15:05:16来源：机器之心Pro

今天，很高兴为大家分享来自机器之心Pro的大语言模型综述全新出炉：51页论文带你盘点LLM领域专业化技术，如果您对大语言模型综述全新出炉：51页论文带你盘点LLM领域专业化技术感兴趣，请往下看。

本文提供了关于大型语言模型领域专业化技术的全面概览，这是大型语言模型应用的一个关键的新兴方向。

大语言模型（LLMs）在自然语言处理（NLP）领域取得了显著的进步，为广泛的应用提供了一种非常有用的、与任务无关的基础。然而，直接应用 LLMs 去解决特定领域的复杂问题会遇到许多障碍，这些障碍源于领域数据的异质性、领域知识的复杂性、领域目标的独特性以及约束的多样性（例如不同的社会规范、伦理标准、宗教信仰等）。领域专业化是让 LLMs 在许多应用中实际投入使用的关键甚至是前提。因此，随着 LLMs 开始应用在越来越多的领域中的，领域专业化的技术在近期获得了加速发展和关注，而一份全面且系统的回顾能更好地总结和引导这一领域的持续工作。

在这篇文章中，我们提供了关于大型语言模型领域专业化技术的全面概览，这是大型语言模型应用的一个关键的新兴方向。

首先，我们提出了一个系统的分类法，根据对 LLMs 的访问性将 LLMs 的领域专业化技术进行分类，并总结了所有子类别的框架以及它们之间的关系和差异。

其次，我们讨论了一系列可以从 LLMs 专业化中获得巨大利益的关键应用领域，并讨论了它们的实际意义和开放性挑战。

最后，我们提供了对这个领域当前研究状态和未来趋势的洞察。如更详细的内容请参考原文。

文章地址：https://arxiv.org/abs/2305.18703

大语言模型的背景及挑战

基于自注意力机制和 Transformer 框架的预训练语言模型（PLMs）在过去几年出现并迅速得到普及。PLMs 能够以无监督的方式从大规模数据中学习通用语言表征，可以在不用重新训练新模型的情况下帮助到许多下游的 NLP 任务。随着硬件能力的快速增长，研究人员发现增大 PLMs 的参数和训练数据规模可以带来更大的性能提升。这类大规模的预训练语言模型被称为大语言模型（LLMs），如 GPT-3（175 billion），LLaMA（65 billion），和 PaLM（540 billion）。LLMs 在理解和生成自然语言方面展现出极高的水平，为诸多特定领域（如法律，教育，公共医疗）提供了基础任务的处理方案。

然而，对于很多领域的特定任务和问题，直接使用预训练的 LLMs 会遇到许多难题。首先，不同领域的任务和语言风格有显著差异，像医药处方到法律法案。获取这些能力和经验甚至需要人类多年的培训，而且大部分是专业化的实践操作。此外，不同领域、机构和团队有自己的 “业务模式”，一个没有定制的通用 LLM 也不能直接替代领域专家。更重要的是，专业级别的使用也需要非常深入、实时且准确的领域知识，这些都不是预训练的 LLMs 能轻易做到的。许多领域知识资源是组织的专有资产和核心竞争力，这些是永远不可能泄露给通用 LLMs 的。最后，语言受社会规范、宗教信仰、法律要求和道德实践的约束，所有这些都是在不同的地区、人口、种族等变化的参数，使得通用 LLMs 无法成为一个一体适应所有情况的解决方案。以上难题都导致了 “将 LLMs 专业化到不同领域” 的强大需求和必然趋势。

将通用 LLMs 专业化到不同领域需要结合领域知识来理解上下文语意，通过领域特定任务目标优化，并受到领域约束的调节。更具体来说，将通用 LLMs 专业化面临着以下挑战：

保持 LLMs 与最新知识同步：LLMs 的力量主要归功于它们庞大的训练语料库。然而，这也表明 LLMs 往往存在知识断层（即，LLMs 无法获取最新的信息、事件或发现）。在许多专业领域，新的发现、规定和最佳实践结果持续出现，而通常离线的 LLMs 难以处理这些不在自身语料库的信息。

在一个 LLM 中应用不同领域的专业知识：LLMs 默认具有广泛主题的通用知识，并可能已经看到并获得了大部分领域的特定知识。然而，更受欢迎的主题可能被过度表示，而某些特定领域的主题可能被低估，这使得它们难以被有效地提取用于特定领域的任务。此外，领域特定的任务通常涉及复杂的概念、专业术语和不同实体之间的复杂关系。没有适当的指导，LLMs 可能会生成听起来合理但实际有误的回答（hallucination）。

模型复杂性与微调所需的大量计算资源：为了更好地适应特定领域的应用，微调历来是专门化语言模型的常用方法。然而，微调 LLM 需要大量的高质量、领域特定的数据以进行有效的微调。此外，微调 LLMs 的海量计算资源也是不可忽视的一大难题。

领域专业化技术

主要技术概要和关系

为了解决上文中提到的领域专业化的挑战 1、2 和 3，LLM 领域专业化的方法可以被分类为三种对应的方法：外部增强（External Augmentation）、提示语制作（Prompt Crafting）和模型微调（Model Fine-tuning），如图 1 所示。这些类别对应于对 LLM 的不同访问级别，即无访问权限（黑箱 Black-Box）、部分访问权限（灰箱 Grey-Box）和全访问权限（白箱 White-Box）。我们进一步在图 2 对每类方法进行了概述。首先，Black-Box 类方法通常只能访问 LLMs 的 API，不知道任何模型和训练信息，只知道生成的输出。这类方法不一定需要访问 LLM 的内部参数空间，使其对资源有限的用户（例如，计算资源、领域特定数据）十分友好。如图 2（b）所示，通过使用外部资源或工具，将领域特定的知识纳入 LLM 的输入，生成的输出或两者，来有效地调整 LLM 的性能，而不改变其内部结构。Grey-Box 表示我们有限的信息（例如，GPT-3 API 中生成 token 的概率），这些信息可以指导我们设计一个合适的 prompt 以更好地引出领域知识（图 2.c）；而 White-Box 表示我们可以完全访问 LLM（例如，完全开源的大语言模型 LLaMA 及其变体），包括参数设置、训练数据和完整的模型架构。这类方法要求最多的访问和资源，因为它涉及更新 LLM 的参数，将领域特定知识直接纳入模型中（图 2.d）。

不同类别方法之间的关系

不同级别的专业化：每种方法在不同级别的专业化（即，Black-Box、Grey-Box 和 White-Box）上进行操作。例如用 External Augmentation 提供了领域特定信息的集中注入，而 Prompt Crafting 在 LLM 输入级别上进行操作，塑造模型的推断过程。Model Fine-tuning 修改 LLM 的内部参数，导致模型行为产生更深刻的变化。

权衡：这些方法不同在计算成本、实施的简易性和泛化能力方面。用 External Augmentation 和 Prompt Crafting 通常比 LLMs 的 Model Fine-tuning 计算成本低，但可能无法获得相同级别的性能改进。Model Fine-tuning 可以提供更大的性能提升，但可能更难实现，如果出现过拟合，可能会降低泛化能力。

互补性：这三种方法可以独立使用，也可以组合使用，以在领域特定的任务上实现更好的性能。例如，可以将 External Augmentation 与 LLM Model Fine-tuning 集成，以利用专业知识和优化参数。同样，精心设计的 Prompt 可以与 Model Fine-tuning 一起使用，以指导模型的输出，同时利用新学到的领域特定知识。

主要技术详述

外部增强 – External Augmentation

External Augmentation 旨在通过从外部源检索或调用领域特定信息来增强 LLMs，而无需微调模型参数。主要有两个类别：（1）领域知识增强（Domain Knowledge Augmentation），其中 LLMs 从外部知识源获得领域特定的上下文，和（2）领域工具增强（Domain Tool Augmentation），将 LLMs 与外部系统或工具集成，通常通过 APIs。

Domain Knowledge Augmentation 通过外部信息补充模型的响应，而 Domain Tool Augmentation 则扩展了模型对其无法执行的任务的能力。领域知识增强了特定领域内的深度和准确性，而领域工具则使模型能够执行超出其固有能力的任务。本节讨论了这两种方法，它们的局限性和优势。

Domain Knowledge Augmentation：领域知识广义上是对特定领域或主题区域的全面理解。它包括对特定领域特有的概念、原则、事实和模式的理解。知识可以以各种形式表示，包括一组文档、特定领域的知识图或包含参数领域知识的神经网络。Domain Knowledge Augmentation 在 LLM 专业化中指的是通过结合领域知识的附加信息来丰富 LLM 在特定领域的性能的过程。如图 3 所示，在一个问答任务中，我们可以在外部数据库或知识图谱中检索与问题相关的领域知识，然后把这些知识结合到原问题中以达到让 LLMs 更清楚相关问题的目的。通常有两类外部知识可以帮助 LLMs 在其领域专业化：显式知识指的是明确定义、易于表达并以可以直接理解和利用的方式结构化的知识；而隐式知识指的是未直接陈述或不易表达的知识，但它嵌入在数据或系统中，通常以潜在、非显而易见的形式存在。

图 3: 通过检索和问题相关领域信息，LLM 可以得到领域相关知识来更好的作出回答。

Domain Tool Augmentation：领域工具指的是专门为特定领域开发的专用软件、库或框架。例如，用于基因组问题回答的 API，用于数学证明的自动形式定理证明器，用于社会行为模拟的沙盒环境等。这些工具被设计用来有效处理领域特定的任务、数据或知识，它们常常结合了针对该领域独特要求的算法、技术或数据结构。然而，使用这些领域工具常常需要严格遵守输入格式或大量训练，这使得它们对一般用户的可访问性较低。另一方面，LLMs 表现出在广泛任务和领域智能以及认知能力中的人工通用智能模型。尽管它们具有多功能性，但当前的 LLMs 在需要领域专业化的任务中受到限制。这些限制包括：(1) 根据随机种子、生成超参数和输入内容，结果格式可能不稳定；(2) 无法获取最新信息的能力，因为 LLMs 只能从其训练数据中获取信息；(3) 研究人员观察到倾向于制造事实的趋势；(4) 在某些任务（如算术）中缺乏精度。因此，研究者们提出了一种协作集成方法，以克服仅使用领域工具或 LLMs 处理复杂领域特定任务的限制。这种方法结合了两者的优势，利用工具的领域特定知识、算法和功能，同时通过 LLMs 提供用户友好的界面。这种协作优化了领域特定资源的使用，并通过允许 LLMs 直接指导外部工具（如图 4），简化了用户参与。

图 4: LLM 不直接解答用户的问题，而是把问题转化为 Python 代码调用外部程序求解。

提示语制作 – Prompt Crafting

虽然在大规模语料库上训练的 LLMs 很强大，但在 Prompt 上进行进一步的预训练可以增强它们遵循用户意图并生成更准确回应的能力。Prompt，或者是为了引出特定模型回应而设计的任务特定输入文本，有助于引导 LLMs 的内容生成过程，并设定期望的输出。

方法通常分为两类：（1）离散提示（Discrete Prompt）涉及创建任务特定的自然语言指令来提示 LLMs，从它们的参数空间中引出领域特定的知识；（2）连续提示（Continuous Prompt）使用可学习的向量来提示 LLMs，消除了手动设计文本指令的需要。本节深入讨论了这两种方法以及领域专业化的优点和限制。

Discrete Prompt：允许 LLMs 通过 Discrete Prompt 去快速适应未见过的领域，GPT-3 是首个介绍如何使用 LLM 通过 Discrete Prompt 执行未见过的任务，而不更新 LLM 的内部参数的工作。我们在下面给出了 Discrete Prompt 框架的正式定义。给定一个 LLM