书生通用大模型
“书生通用大模型”是上海人工智能实验室、商汤科技商汤科技、香港中文大学和上海交通大学于2021年11月17日联合发布的新一代通用视觉技术系统。该系统旨在系统解决人工智能视觉领域的任务通用化、场景通用化、数据高效化等一系列瓶颈问题。《书生》自2021年发布以来,经过多次升级,从国内首个覆盖各种视觉任务的通用大型模型,到包含视觉、语言和三个维度的大型模型体系。基于学者模型,上海人工智能实验室的联合团队获得了CVPR 2023年最佳论文奖,这是近40年来中国学术机构首次签署论文。
在2023世界人工智能大会全会上,“学者号”升级为“学者号通用大模型系统”,包括“学者号多模态”、“学者号普宇”和“学者号天际线”三个基础模型,以及首个面向大模型开发应用的全链条开源系统。此后,上海人工智能实验室联合中国大模型语料库数据联盟成员单位,开源发布了“学者万卷”1.0多模态预训练语料库。
发展历史 编辑本段
2021年11月17日,上海人工智能实验室携手商汤科技商汤科技、香港中文大学、上海交通大学共同发布了新一代通用视觉技术系统“书生通用大模型”,旨在系统解决人工智能视觉领域的任务通用化、场景通用化、数据高效化等一系列瓶颈问题。其技术报告《书生通用大模型:一种新的学习范式塔一般愿景》在arXiv平台上发布。
2022年9月,在世界人工智能大会(WAIC)科学前沿全体会议期间,上海人工智能实验室发布了更通用的人工智能模型“学者2.0”。“学者2.0”的通用图像模型基于动态稀疏卷积网络,可根据不同的视觉任务自适应调整卷积位置和组合方式,从而灵活、准确地适应不同的视觉任务。“学者2.0”积累了大量以中文为核心的翻译数据,提出了异步多分支训练技术,构建了以中文为核心的通用翻译模型,支持161种语言。
2023年3月14日,商汤科技发布了多模态多任务通用大型模型“书生通用大模型(INTERN)2.5”。“学者2.5”拥有30亿个参数,通用可视化开源平台OpenGVLab已开放“学者2.5”的多模态通用模型。
2023年6月7日,商汤科技、上海AI Lab联合香港中文大学、复旦大学、上海交通大学发布千亿级参数化大语言模型“学者普语”(InternLM)。“学者普宇”拥有1040亿个参数,并在包含1.6万亿token的多语言高质量数据集上进行训练。综合评价结果显示,“学者普语”不仅在知识掌握、阅读理解、数学推理、多语种翻译等多项测试任务中表现出色,而且综合能力较强,因此在综合考试中表现突出,并在多项中国考试中超过ChatGPT,包括中国高考各科目数据集(高考)。
2023年7月6日,在2023世界人工智能大会暨科学前沿全会开幕式上,上海人工智能实验室携手商汤科技、香港中文大学、复旦大学、上海交通大学、清华大学发布了全新升级的“学者通用大模型系统”,包括学者多模态、学者普宇、学者天际线三个基础模型,以及首个面向大模型开发应用的全链条开源系统。
2023年8月14日,上海人工智能实验室宣布与中国大模型语料库数据联盟成员单位合作,共同发布“学者万卷”1.0多模态预训练语料库。目前(截至2023年12月18日)分为文本数据集、图形数据集和视频数据集三部分。开源数据总量超过2TB,包括5亿多文本、2200万图文文档和1000个视频节目,涵盖科技、文学、媒体、教育和法律等领域。
基础原理 编辑本段
通用视觉技术系统INTERN由七个模块组成,包括三个基础设施模块:通用视觉数据系统、通用视觉网络结构和通用视觉评估基准,以及四个用于区分上游和下游的训练阶段模块。
在“书生通用大模型”的四个训练阶段中,前三个阶段位于技术链上游,在模型的表示普适性上下足了功夫;第四级位于下游,可用于解决各种下游任务。
第一阶段重点培养“基本能力”,即让他们广泛学习基本常识,为后续学习阶段打好基础;第二阶段是培养“专家能力”,即多个专家模型学习某一领域的专业知识,使每个专家模型都能掌握该领域的技能并成为专家;第三阶段是培养“通用能力”。随着各种能力的整合,“学者”在所有技能领域都表现出出色的水平,并具有快速学习新技能的能力。
在循序渐进的前三个培训阶段中,“学者”在循序渐进的学习过程中具有高度的通用性。当它进化到第四阶段时,系统将具有“迁移能力”。此时,“学者”所学的通用知识可以应用于特定领域的不同任务,如智慧城市、智慧医疗、自动驾驶等。,实现广泛赋能。
“学者”在图文跨模态领域的突出表现来自于视觉、语音和多任务建模能力的有效整合,即Intermage-G通用视觉模型、用于文本理解的超大规模语言预训练模型(LLM)和用于多任务的Uni-epider模型。
其中,Intermage-G通用视觉宏大模型可以基于动态稀疏卷积算子自适应地调整卷积的位置和组合,从而为多功能视觉感知提供了有力的表示。超大型语言模型通过在超大型富文本语料库上进行预训练来提供强大而可靠的文本特征。uni-epider通用任务解码建模通过将不同模式的数据编码到统一的表示空间中,将不同的任务统一到同一任务范式中,从而可以使用相同的架构和共享的模型参数同时处理各种模式和任务。
此外,《书生》创新性地引入了任务级稀疏激活机制,使其具备高效的多任务协同能力。在主流视觉图像分类数据集ImageNet上,仅基于公开数据,该模型就达到了90.1%的Top-1准确率。
“学者”模型可以全面覆盖四个视觉核心任务:分类、对象检测、语义分割和深度估计。在ImageNet等26个下游场景中,学者模型具有普适性,提高了这些长尾小样本可视化场景的性能。借助“学者”通用视觉技术系统,行业能够以极低的下游数据获取成本快速验证多个新场景,有利于解锁和实现人工智能的长尾应用。依托“学者”的特色表达能力,它还实现了多任务学习、小样本学习和脱离分布检测的能力。针对各类细分质检场景,准确率可达99.5%以上,打破了AI技术在工业质检领域大规模应用的壁垒。
功能特性 编辑本段
书生多式联运:学者多模态将语言、图像、视频等多种模态无缝融合,首次通过自然语言实现视觉任务的定义,具备多模态交互和跨模态生成能力。多模态模型拥有200亿个参数,支持350万个语义标签。学者多模态有三个核心能力:开放世界理解、跨模态生成和多模态交互。
书生2.5的多模态通用大模型具有AIGC“从文本创建图片”的能力,可以根据用户提出的文本创建需求,使用扩散模型生成算法生成高质量、自然逼真的图像。例如,在“学者2.5”的帮助下,它帮助自动驾驶技术的研发,并通过生成各种真实的道路交通场景(如繁忙的城市街道、雨天拥挤的车道、路上奔跑的狗等)来生成逼真的拐角案例训练数据。,然后训练自动驾驶系统对拐角情况场景的感知上限。
同时,它可以在自动驾驶和家用机器人等一般场景中辅助完成任务:在自动驾驶和家用机器人等一般场景中,“学者”可以辅助处理各种复杂任务。例如,在自动驾驶场景中,它可以大大提高对场景的感知和理解能力,准确辅助车辆判断红绿灯、路标等信息的状态,为车辆的决策规划提供有效的信息输入。例如,在“学者2.5”的帮助下,它帮助自动驾驶技术的研发,并通过生成各种真实的道路交通场景(如繁忙的城市街道、雨天拥挤的车道、路上奔跑的狗等)来生成逼真的拐角案例训练数据。,然后训练自动驾驶系统对拐角情况场景的感知上限。
在自动驾驶和家用机器人等一般场景中,“书生”可以辅助完成任务:在自动驾驶和家用机器人等一般场景中,“书生”可以辅助处理各种复杂任务。例如,在自动驾驶场景中,它可以大大提高对场景的感知和理解能力,准确辅助车辆判断红绿灯、路标等信息的状态,为车辆的决策规划提供有效的信息输入。例如,在“学者2.5”的帮助下,它帮助自动驾驶技术的研发,并通过生成各种真实的道路交通场景(如繁忙的城市街道、雨天拥挤的车道、路上奔跑的狗等)来生成逼真的拐角案例训练数据。,然后训练自动驾驶系统对拐角情况场景的感知上限。
书圣璞玉:学者普语是国内首个支持8K上下文长度的官方语言模型。学者Pu Yu拥有1040亿个参数,并在包含1.8万亿token的高质量语料库上进行训练。
学者普宇开发了具有70亿个参数的轻量级版本InternLM-7B,以及贯穿数据、预训练、微调、部署和评估五个环节的全链工具系统。在40个评估集的全维评估中,InternLM-7B表现出出色而均衡的性能,创造了7B级模型的新世界纪录。上海人工智能实验室教授林达华表示:“通过开源开放,我们希望助力大模型的创新和应用,让更多领域和行业在大模型变革的浪潮中受益。”
在数据链路方面,通过OpenDataLab开放了包含30多种模态的5500个公共数据集,其中以自然语言开放了超过10000亿token的高质量语料库。在预训练中,面向轻量级语言模型的训练框架InternLM-Train开源,支持从8张卡到1024张卡的并行训练,并提出了Hybrid-Zero的独特技术。在微调阶段,全流程微调工具开源,支持SFT和RLHF,还支持训练模型进行复杂符号计算和工具调用,通过代码解决复杂的数学计算问题。在部署过程中,部署推理工具链LMDeploy是开源的。它支持10亿到1000亿个参数化语言模型的高效推理,其性能超越了HuggingFace、Deepspeed和vLLM等主流推理框架。在评测阶段,开放评测平台OpenCompass上线,支持大模型一站式全方位评测,包含40多个评测集和30万个评测主题。通过全自动分布式评测,可以有效复现开源模型的性能。
蜀圣天记:“学者天空”是全球首个城市级NeRF(神经辐射场)三维大规模模型,拥有千亿级参数,并在全球首次实现100平方公里城市实景的4K高精度建模和编辑。
同时支持全范围高精度实时渲染,首次实现城市级NeRF百平方公里全范围1k分辨率、30帧实时渲染、4k分辨率离线渲染。此外,它还支持城市级编辑、风格转换等功能,并提供丰富的超越和重建功能,包括城市编辑功能,如移除、构建和旋转城市建筑,以及调整城市风格变化,如照明和季节。Scholar Sky提供了一个训练、渲染和交互的一体化系统,并实现了一个覆盖算法、算子、计算系统和用户交互的城市级NeRF系统,为训练、渲染、交互和应用提供了基础。
为满足行业实际需求,上海AI Lab开放了学者天空的核心算法和训练策略,用户可根据自身应用场景复现大模型能力。核心算法和模型训练策略是学者天空实现当前能力的关键。在本次开源中,学者Skyline首次公开了多分支GridNeRF模型的核心算法及其匹配训练策略。在特定的场景中,研究人员和从业者可以使用开源内容来重现和实现学者Skyline相关的能力。
舒万圣卷:学者万卷语料数据联盟成员的内容积累和上海ai实验室的数据处理能力,“学者万卷”为学术界和产业界提供大规模多模态预训练语料。
“学者万卷”1.0的多模态预训练语料分为文本数据集、图形数据集和视频数据集三部分,开源数据总量超过2TB。其中,文本数据是从不同来源(如网页、百科全书、书籍、专利、教科书、试题等)清洗后的预训练语料。数据总量超过5亿文档,数据规模超过1TB,涵盖科技、文学、传媒、教育、法律等多个领域。图形数据主要来自公共网页,经过处理后形成图形交错文档。文档总数超过2200万,数据大小超过140GB(不含图片),涵盖新闻事件、人物、自然景观、社会生活等多个领域。视频数据主要来自中央广播电视总台和上海文光集团,包括新闻、电影和其他类型的节目图像。视频文件总数超过1000个,数据大小超过900GB,涵盖军事、文学、体育、自然、真实世界、知识、视频艺术、媒体、食品、历史、科教等。
交互特点 编辑本段
跨模态生成:通过联合学习,学者多模态可以实现模式之间的相互转换。研究人员试图让学者多模根据张大千的《湖山清夏图》创作一首七言绝句。验证结果表明,经过联合学习,学者多模态具有良好的从图像到文本的跨模态生成能力,在中国具有深厚的文化积淀。在生成文本的同时,书生多模也给出了创作思路:根据画面,确定描绘美丽的自然风光画面;从画面中寻找能表达诗人思想感情的元素,如画中的巍峨山峰、云雾缭绕、苍松苍松;根据元素构思一首诗;最后根据诗的节奏和格律加以完善。学者多模还特别描述了第四句的灵感来源:他借用了唐代诗人韦庄的名句“春水比天亮,画船听雨眠”。
多模态交互:学者多模态继承了上一代学者在常规预定义视觉任务中的表现,但也创新了人机交互的方式。用户可以通过光标点击、聊天等方式准确传达指令。Scholar multimodal降低了人工智能任务的门槛,并使人工智能成为可供数千人使用的生产工具。多模态理解、生成和交互能力正成为大模型新一轮进化的重要方向。
书圣璞玉:上下文窗口的长度很长:上下文窗口的长度从2K增加到8K,具有理解长输入、扩展复杂推理和进行长时间多轮对话的能力。
强大的多语言和结构化表达能力:新模型支持20多种语言,还可以通过表格和图表总结和呈现复杂信息。
多维度能力全面提升:在42个主流评测集上性能均有提升。
数学逻辑能力强:提高数值计算、函数运算、方程求解等数学能力。2023年高考数学选择题中,正确率提高了70%以上。
强大的安全性和对准能力:它可以更可靠地遵循人类指令,安全性也明显提高。
蜀圣天记:从单一渲染到使用GirdNeRF的自由扩展:
NeRF是一种新的三维重建和表征技术,可以用少量数据实现三维重建,广泛应用于对象级三维建模。为实现城市级大规模实景建模,2021年12月,上海AI Lab首次提出CityNeRF,将不同高度的卫星和近景影像有效融合,率先将NeRF建模技术从物体级扩展到城市级。通过采集单个建筑物的飞行图像,可以实现一定规模的真实场景渲染和重建。在CityNeRF的基础上,上海AI实验室进一步开发了第二代CityNeRF技术,即GridNeRF。
基于网格表示和NeRF表示相结合的GridNeRF支持模型的多层次扩展,为大规模城市级建模奠定了技术基础。第二代CityNeRF从捕捉单个建筑物扩展到收集整个区域的细节。与第一代CityNeRF技术只能在单个建筑物周围进行渲染不同,最新技术可以实现在整个区域内上下飞行,平移和穿梭,建模效率更高。
真实三维建模的新范例:基于“算法+计算系统+算子”的系统化解决思路,并通过其采用的渐进渲染、并行训练和多分支策略,在实际应用中,Scholar Sky已成为集训练、渲染和交互于一体的系统,开创了城市级真实场景三维建模的新范式。
双枝模型结构,捕捉场景细节;GirdNeRF由两个分支组成,其中Grid分支将场景分解为地面特征平面和垂直特征轴,即将城市场景分解为更小的粒度,然后通过NeRF分支使用轻量级MLP网络重构训练视角,生成高质量的渲染图像。同时,通过一种化整为零的策略,采用渐进渲染的方式更好地支持大规模场景渲染,为无限城市场景的重构提供了可能。
合理化跳转空白:Scholar Sky可以在算法的光线收集阶段准确预测对实际重建无效的采样点,从而“合理化跳跃”。Scholar Sky拥有数千亿个参数,preamble的采样数量和计算效率对模型的训练和渲染性能至关重要。而且算法模型会提前终止不必要的渲染,不仅可以更好地减少渲染计算量,提高计算效率,还可以将前导的采样数量减少90%以上,降低计算复杂度和渲染成本。
平行培训和多分支战略;在训练策略方面,学者天玑通过PlaneParallel和ChannelParallel模型的并行训练,将训练任务分成多个部分,并在多台计算机上同时完成,提高了训练速度。同时设计了多分支模型和相应的BranchParallel训练策略,将模型分成多个部分,每个部分负责处理图像的一部分,以使模型适应不同的场景和尺度。这些策略有助于减少训练时间和资源需求,使模型更好地理解和编辑城市场景,并将渲染效率提高1000倍。
舒万圣卷:基于语料库数据联盟构建的语料库,上海AI Lab对部分数据进行了细粒度清洗、去重和对齐值处理,形成了多模态预训练语料库“学者万卷”1.0,具有多元融合、精细加工、值对齐、易用高效四大特点。
在多元融合方面,“学者万卷”1.0包含文本、图形、视频等多模态数据,涵盖科技、文学、传媒、教育、法律等多个领域,在训练和提升模型的知识内容、逻辑推理和泛化能力方面效果显著。
在精细化处理方面:学者万卷1.0经历了语言筛选、文本抽取、格式标准化、基于规则和模型的数据过滤和清洗、多尺度去重、数据质量评估等多个精细化数据处理步骤。,因此可以更好地满足后续模型预训练的需要。
在价值对齐方面:在“学者万卷”1.0的建设过程中,研究人员重点关注内容与中国主流价值观之间的对齐,并通过算法和人工评估相结合的方式提高语料库的纯度。
在易用性和效率方面,研究人员在“学者万卷”1.0中采用了统一的格式,并提供了详细的领域描述和工具指导,使其既易用又高效,可以快速应用于语言和多模态模型等大型模型的预训练。
附件列表
词条内容仅供参考,如果您需要解决具体问题
(尤其在法律、医学等领域),建议您咨询相关领域专业人士。