知名百科  > 所属分类  >  其他科技   

大语言模型

大型语言模型(Large Language Models,LLM)也称为大型语言模型或大型语言模型,是由具有数百亿个参数的深度神经网络构建的语言模型。它通常由大量未标记的文本使用自监督学习方法进行训练,并通过大规模数据集训练来预测和生成文本和其他内容。大多数大型语言模型都是基于Transformer架构的。与传统的递归神经网络(RNN)和长期记忆网络(LSTM)相比,Transformer具有独特的注意力机制,允许模型根据序列中的其他位置调整每个位置的表示,从而提高模型理解上下文的能力。

自2018年以来,谷歌、OpenAl、Meta、百度华为等公司和研究机构相继发布了包括BERT和GPT在内的各种模型,它们在几乎所有自然语言处理任务中都表现良好。2019年,大模型呈现出爆发式增长,尤其是在2022年11月ChatGPT发布后,引起了全世界的广泛关注。2024年3月18日,马斯克的人工智能初创公司xAI正式发布了大型模型Grok-1,其参数达到了3140亿,远超open AI GPT 3.5的1750亿。这是迄今为止参数数量最多的开源语言模型,模型权重和架构都是按照Apache 2.0协议开放的。

目录

构建流程 编辑本段

预训练

预训练是大型语言模型训练的第一步,旨在使模型学习语言的统计模式和语义信息。主要的预训练步骤基本相似,最重要的是数据,需要收集大量未标记的数据,如互联网上的文本、新闻、博客、论坛等。这些数据可能使用多种语言,需要进行清理和处理,以消除噪音、无关信息和个人隐私。最后,它们将以tokenizer粒度输入到上述语言模型中。经过清洗和处理后,这些数据用于训练和优化语言模型。在预训练过程中,模型将学习词汇、句法和语义的规则,以及上下文之间的关系。

在预训练语料方面,GPT-3主要包括Common Crawl、WebText2、Books1、Books2和英文维基百科等过滤数据集。其中,CommonCrawl的原始数据为45TB,过滤后仅保留570GB数据。上述语料库按子词分段,包含约5000亿个子词。为了确保模型使用更多高质量的数据进行训练,在GPT-3训练过程中根据不同的语料来源设置了不同的采样权重。在完成3000亿子词的训练时,英文维基百科语料库的平均训练轮次为3.4次,而Common Crawl和Books 2的平均训练轮次仅为0.44次和0.43次。由于普通爬网数据集的过滤过程较为复杂,OPT采用了混合RoBERTa、Pile和Pushshift.io Redit数据的方法。由于这些数据集大多数是英语数据,OPT还从常见的爬网数据集中提取了一些非英语数据,并将其添加到训练语料库中。BLOOM使用Megatron-DeepSpeed框架进行训练,该框架主要包括两部分:Megatron-LM提供张量并行和数据加载原语;DeepSpeed提供ZeRO优化器、模型管道和传统的分布式训练组件。这样就可以实现数据、张量和流水线的三维并行。

指令微调

在完成预训练后,我们可以通过指令微调来挖掘和增强语言模型本身的能力,这也是许多企业和研究人员使用大语言模型的重要步骤。

指令微调也称为监督微调,它使用少量高质量数据集,包括用户输入提示和相应的理想输出结果。用户输入包括问题、聊天对话、任务说明以及其他形式和任务。在指令微调阶段,首先需要准备一系列NLP任务,并将每个任务转换为指令形式,其中指令包括人类应该在模型上执行的任务的描述以及预期的输出结果。然后,这些指令用于监督预训练的大型语言模型,使模型可以通过学习和适应指令来提高其在特定任务上的性能。

为了使模型训练更加高效和简单,现阶段还有一种高效的微调技术。parameter-Efficient Fine-Tuning(PEFT)旨在通过最小化微调参数的数量和计算复杂度来实现高效迁移学习的目的,提高预训练模型在新任务中的性能,进而缓解大规模预训练模型的训练成本。在训练过程中,预训练模型的参数保持不变,只需要微调一些额外的参数,就可以达到相当于完全微调的性能。许多研究探索了PEFT方法,如适配器调整和前缀调整。其中,Adapter Tuning方法在面向特定下游任务时固定预训练模型中的某些层,仅微调与下游任务接近的几个层的参数。前缀调整方法在预训练模型的基础上增加了一些额外的参数,这些参数将在训练过程中根据具体任务进行更新和调整。

低秩自适应(LoRA)是工业中常用的适配器调整技术。它通过最小化微调参数的数量和计算复杂度来实现高效的迁移学习,从而提高预训练模型在新任务中的性能。LoRA的核心思想是将预训练模型的权重矩阵分解为两个低秩矩阵的乘积。通过这种分解,可以显著减少微调参数的数量并降低计算复杂度。这种方法与机器学习中的经典降维思想非常相似。同样,LoRA使用矩阵分解技术中的奇异值分解或低秩近似方法将原始权重矩阵分解为两个低秩矩阵的乘积。在微调过程中,LoRA只更新这两个低秩矩阵的参数,而保持其他预训练参数不变。这可以显著减少微调所需的计算资源和时间,并在许多任务中实现等同于完全微调的性能。LoRA技术的引入使得大规模预训练模型的微调更加高效可行,为实际应用提供了更多可能性。

奖励建模

奖励建模阶段的目标是建立文本质量比较模型,并对SFT模型针对同一提示给出的不同输出结果的质量进行排序。奖励模型(RM模型)可以通过二元分类模型判断两个输入结果之间的优劣。RM模型不同于基本语言模型和SFT模型,并且RM模型本身不能单独提供给用户。

奖励模型的训练通常与SFT模型相同,后者使用数十个GPU并花费数天时间来完成训练。由于RM模型的准确性对强化学习的效果有着至关重要的影响,因此通常需要大规模的训练数据来训练模型。

强化学习

在强化学习阶段,根据数十万用户给出的提示,利用前一阶段训练的RM模型,给出SFT模型对用户提示完成结果的质量评估,并结合语言模型的建模目标,得到较好的结果。利用强化学习,在SFT模型的基础上调整参数,使最终生成的文本能够获得更高的奖励。与预训练阶段相比,该阶段所需的计算量要少得多,通常只需要几个+GPU即可在几天内完成训练。

通过强化学习方法训练的RL模型是一个类似ChatGPT的系统,最终提供给用户,并具有理解用户指令和上下文的能力。然而,Andrej Karpathy指出,强化学习并非没有问题,它会降低基本模型的熵从而降低模型输出的多样性。由于强化学习方法的不稳定性和众多的参数,模型很难收敛,叠加RM模型的准确性,这使得将强化学习有效应用于大型语言模型非常困难。

相关技术 编辑本段

Transformer

事实上,目前流行的大语言模型的网络架构中并没有太多新技术,NLP领域最流行、最有效的架构——Transformer结构一直在使用。与传统的递归神经网络(RNN)和长期记忆网络(LSTM)相比,Transformer具有独特的注意力机制,相当于增强了模型的理解能力,对更重要的单词给予了更多的关注。同时,该机制具有更好的并行性和可扩展性,可以处理更长的序列。它立即成为自然语言处理领域中具有基本能力的模型,并在各种文本相关的序列任务中取得了良好的结果。

根据这种网络架构的变形,主流框架可以分为Encoder-Decoder、Encoder-Only和Decoder-Only,其中:Encoder-Only仅包含编码器部分,主要适用于只需要对输入进行编码和处理的单向任务场景,如文本分类、情感分析等。这类代表是BERT相关模型。编码器-解码器包括编码器和解码器,通常用于序列到序列(Seq2Seq)任务,如机器翻译、对话生成等。这类代表是以谷歌训练的T5为代表的相关大模型。仅包含解码器部分的Decoder-Only通常用于序列生成任务,如文本生成和机器翻译。这种结构的模型适用于需要生成序列的任务,相应的序列可以从输入代码中生成。同时,可以进行无监督的预训练也是一个重要特征。在预训练阶段,模型通过大量未标记数据学习语言的统计模式和语义信息。这种方法可以使模型具有广泛的语言知识和理解能力。经过预训练后,模型可以针对特定的下游任务(如机器翻译、文本生成等)进行监督和微调。).这种结构的代表是我们平时非常熟悉的GPT模型结构。该系列的所有网络结构都是基于纯解码器逐步演进的。

许多NLP任务可以通过多种网络结果来解决,这主要是由于NLP领域任务和数据的多样性和复杂性,以及现代深度学习模型的灵活性和泛化能力。

基于人类反馈的强化学习

经过监督微调后,大语言模型具有跟随指令、进行多轮对话以及与用户进行初步对话的能力。然而,由于庞大的参数和训练语料库,大型语言模型的复杂性往往难以理解和预测。当部署这些模型时,可能会产生严重的后果,尤其是当模型变得更强大、使用范围更广,并且与用户频繁交互时。研究人员寻求使人工智能与人类价值观保持一致,大型语言模型的输出应符合3H原则:有益、诚实和无害。因为上述3H原则反映了人类的偏好,所以基于人类反馈的强化学习被自然地引入到通用对话模型的训练过程中。

基于人类反馈的强化学习主要分为两个步骤:奖励模型训练和近端策略优化。奖励模型通过人类反馈标记的偏好数据学习人类偏好,判断模型回复的有用性,确保内容的无害性。奖励模型模拟人类偏好信息,可以持续为模型的训练提供奖励信号。在获得奖励模型后,我们需要在强化学习的帮助下继续微调语言模型。OpenAl在大多数任务中使用的强化学习算法是邻近策略优化(PPO)算法。近端策略优化可以基于奖励模型获得的反馈优化模型,通过不断迭代,模型可以探索并找到更符合人类偏好的回复策略。近端策略优化涉及以下四个模型:(1)策略模型,生成模型回复。(2)奖励模型,输出奖励分数来评估回复质量。(3)Critic模型,可以预测回复质量,并可以在训练过程中实时调整和选择未来累积收益最大的行为。(4)参考模型,它提供了SFT模型的备份,因此模型不会发生过大的变化。近端策略优化算法的实现过程是:(1)环境采样:策略模型基于给定的输入生成一系列响应,奖励模型对这些响应进行评分以获得奖励。(2)优势估计:通过使用评论模型来预测生成回复的未来累积奖励并在广义优势估计(GAE)算法的帮助下估计优势函数,有助于更准确地估计每个行为的收益。(3)优化调整:利用优势函数对策略模型进行优化调整,利用参考模型保证更新后的策略不会发生太大变化,从而保持模型的稳定性。

混合专家系统

混合专家(MOE)是预训练万亿参数模型的关键技术。该模型是在不过分增加计算成本的情况下提高神经网络模型能力的有效手段。MoE的基本思想是从许多专家子网络构建一个统一的网络,其中每个输入由一个合适的专家子集处理。因此,与标准神经网络相比,MoE仅调用整个模型的一小部分,从而获得了如GLaM等语言模型应用程序所示的高效率。GLaM架构中的每个输入令牌都被动态路由到64个专家网络中的两个进行预测。与密集模型相比,在相同的计算量下,MoE中的条件计算可以大大提高模型参数。然而,在大规模集群中高效和有效地训练MoE仍然是一个挑战。混合专家系统的思想是目前较好的大型模型落地方式。在过去的十年中,人工智能特别是深度学习技术的发展积累了许多高质量的模型。将大模型与混合专家系统等高质量模型相结合,将是未来大模型从纯数字经济向数字经济赋能实体经济转型的重要途径。

提示工程

提示工程主要应用于提示词的开发和优化,帮助用户将大型语言模型应用于各种场景和研究领域。掌握与cue工程相关的技能将帮助用户更好地理解大规模语言模型的功能和局限性。研究人员可以使用线索工程来提高大型语言模型处理复杂任务场景的能力,例如问答和算术推理。开发人员可以提示工程设计并开发强大的工程技术,以实现与大型语言模型或其他生态工具的高效集成。提示工程不仅仅是设计和研发提示。它包括与大语言模型交互和发展的各种技能和技术。提示工程在实现与大型语言模型的交互和对接以及理解大型语言模型的能力方面发挥着重要作用。用户可以通过提示项目来提高大语言模型的安全性,也可以为大语言模型赋能,比如借助专业领域知识和外部工具增强大语言模型的能力。

工作原理 编辑本段

大型语言模型通过使用深度学习技术和大量文本数据来运行。该模型通常基于转换器架构,它擅长处理文本输入等顺序数据。在训练过程中,模型学习根据句子前面的单词预测下一个单词。它通过将概率得分归因于重复的标记单词(分解为更小的字符序列)来实现这一点。然后,这些标签被转换为嵌入,这是上下文的数字表示。为了确保准确性,这一过程涉及在大量文本语料库(数十亿页)上训练大型语言模型,使其可以通过零样本和自我监督学习来学习语法、语义和概念关系。经过这些训练数据的训练后,它可以根据接收到的信息自动预测下一个单词,并使用它们的知识生成文本。从而生成可用于各种内容生成任务的连贯语言。该模型还可以通过实时工程、实时调优、微调等策略来提高模型的性能,这是确保企业LLM随时可用且不会使组织承担不必要的责任或损害组织声誉的最重要方面之一。

培训费用 编辑本段

训练一个通用的大语言模型是非常“烧钱”的。根据郭盛证券的“ChatGPT需要多大的计算能力”报告,预计GPT-3一次培训的成本约为140万美元。对于一些较大的语言模型,训练成本甚至更高,从200万美元到1200万美元不等。以chat GPT 1月平均独立访客数1300万计算,其对应的芯片需求为3万多片NVIDIA A100GPU,初始投资成本约为8亿美元,每日电费约为5万美元。如果当前的ChatGPT被部署到谷歌进行的每个搜索中,则需要512,820.51个A100 HGX服务器和总共4,102,568个A100GPUs,仅这些服务器和网络的资本支出就超过1000亿美元。

主要应用 编辑本段

大语言模型在社会科学、自然科学和形式科学中的应用。到2023年,大语言模型已经开始在许多领域商业化。除了ChatGPT等产品外,主要有以下主流应用:

办公Copilot类产品:微软首次尝试在自己的Office系列软件中应用大语言模型。通过使用大语言模型,您可以总结word文档并提出修改和编辑建议,或者您可以总结给定的文章;Excel中的各种复杂操作也可以通过描述直接处理数据;Microsoft Office PowerPoint可以通过识别需求自动生成显示内容;Outlook直接使用自然语言生成邮件内容等功能,实现真正的AI秘书。

大语言模型大语言模型

Github Copilot产品:将大语言模型应用于Github Copilot产品后,我们可以通过对话直接生成各种功能代码,包括帮助编写测试用例、解释代码片段和调试程序问题。该功能在解放程序员生产力方面取得了革命性的进步,使开发人员能够更加关注业务理解、系统设计和架构设计等更高层次的需求。

教育知识产品:得益于对大语言模型的强大理解和知识储备,许多公司将模型嵌入到知识产品中进行应用。在chatPDF中嵌入大型语言模型后,它可以帮助经常阅读论文的研究人员通过问答快速提取信息、理解和总结文章的重要内容,这大大提高了阅读新论文的效率。对于语言学习者来说,一款名为Call Annie的软件嵌入到大语言模型中,基本上可以取代英语口语老师的角色,并可以随时随地练习英语口语。

搜索引擎和推荐系统:大语言模型可以应用于企业搜索引擎和推荐系统。通过深度学习算法,可以准确理解用户的搜索意图,并提供更准确的搜索结果和个性化推荐内容。这有助于改善用户体验,增加用户粘性,并提高企业的转化率和销售额。

计算相关的上下游相关产业:为了跟上大型语言模型的训练和推理速度,许多公司正在积极探索基于GPU、FPGA和ASIC等硬件的加速制造技术。此外,云计算技术的发展也为大型语言模型的训练提供了更多的计算资源。

除了上述领域,大语言模型在算法优化、隐私和数据安全、模型可解释性等方面也有应用。大语言模型的诸多应用不断涌现,国内优秀的大语言模型代表,如百度文心,也在构建全系统产业化全景图。

附件列表


0

词条内容仅供参考,如果您需要解决具体问题
(尤其在法律、医学等领域),建议您咨询相关领域专业人士。

如果您认为本词条还有待完善,请 编辑

上一篇 开放数据库互连    下一篇 Microsoft Edge

同义词

暂无同义词