紫东太初
“紫东太初大模型1.0”是由中科院自动化所和武汉人工智能研究所联合推出的业界首个千亿参数三模大模型,也是全球首个图文并茂的三模大模型,于2021年7月9日正式发布。该模型具有强大的自然语言处理能力,可以执行文本生成、情感分析、问答系统等多种任务。
“紫东太初”具有跨模态理解和生成的能力。与单一模式和图形模式相比,它可以使用大模型灵活支持图文声的全场景AI应用,具有无监督多任务联合学习和快速迁移到不同领域数据的强大能力。此外,它还具有跨语言、跨领域的特点,可以应用于许多语言和领域。
2023年6月16日,“紫东太初2.0”正式发布。“紫东太初2.0”是在全球首款三模大型模型“紫东太初”的基础上,由盛思AI框架升级推出的新一代大型模型。此外,它还实现了从三种模式到全模式的形式。
发展历史
名称含义
中科院自动化所研究员、武汉人工智能研究院院长王金桥表示,“紫东太初”的名字寓意紫气东来,混沌初开,代表人工智能从专用走向通用,从感知智能走向认知智能;第二,“紫东”与自动化所谐音,代表自动化所本身的意义和使命。
成立初期
2021年7月9日,“紫东太初大模型1.0”正式发布。同月29日至31日,紫东太初模型在首届中国计算大会上被授予“DC科技创新先锋”优秀成就奖。
2022年9月1日,“紫东太初”多模态大模型项目获得世界人工智能大会最高奖——赛尔奖。在获得这个奖项之前,“紫东太初”还在人工智能领域的国际比赛中获得了第一名,比如2021年举办的国际多媒体大会和国际计算机视觉大会。
2022年11月19日-21日,以“融合万物智造未来”为主题的2022中国5G+工业互联网大会在武汉召开。本次发布会展示了基于“紫东泰初”的织物疵点检测设备。该项目首次实现了织物疵点识别从纯手工升级到自动的新路径,不仅可以识别70多种不同的疵点,还支持一键微调,达到了与熟练的验布师一样的精度要求,疵点识别的检出率从70%左右提高到90%以上,精度达到4倍,进一步提升了传统工业行业。
2023年2月20日,首届“行知杯”全国人工智能创新与应用大赛暨全球(深圳)人工智能创新生态高峰论坛在深圳落下帷幕。本次活动中,武汉人工智能研究院“紫东泰初”大型模型开放服务平台入选,成为国内首个通过工信部信通院大规模预训练模型系统测试的大型模型项目,在多模态技术能力测评中获得2 S+和2 S级评价,在平台能力测评中获得7项高级评价。
2023年3月2日,在光谷青桐汇活动现场,武汉人工智能研究院正式发布了全球首个由三模大模型以千亿参数“紫东太初”打造的AI内容创作平台——“江城洛神”AI内容创作平台,该平台以“紫东太初”为基础,将正在崛起的AI融入多模态扩散生成模型,以语义引导实现图像编辑和生成,辅助用户制作各类内容。
探究阶段
2023年5月8-9日,基于紫东太初2.0全模态大模型升级、可与用户互动的虚拟人初晓,在华为中国合作伙伴大会上首次呈现在公众面前。升级后的虚拟人“小开端”功能有所提升,如文字创建、多轮问答到图像生成、视频生成、3D理解、信号分析等,可实现文字、图片、音频、视频、3D等不同模式的统一表示和学习。
2023年6月16日,中国科学院自动化研究所所长徐波在“人工智能框架生态峰会2023”上正式发布了“紫东太初”全模态大模型。全模态大模型是基于千亿参数多模态大模型“紫东太初”的升级版2.0,包含音乐理解与生成、三维场景导航、信号理解、多模态对话等诸多强大功能。同时在语音、图像、文本的基础上增加了视频、信号、3D点云等模态数据,突破了认知增强多模态关联等关键技术,还具备了全模态理解、生成和关联的能力。
“紫东太初”2.0依托武汉人工智能计算中心的计算能力支持孵化,以中科院自动化所自研算法为核心,基于盛思AI硬件和盛思MindSpore AI框架,着力打造全栈国内通用人工智能基地。此外,“紫东太初”大模型开放服务平台2.0具有四大特点:一是开箱即用,内置紫东太初2.0前期训练基础大模型;第二,快速定制,为大模型提供完整的微调工具链,可以在各种场景下自动适配;第三,一键部署实现云、边、端全场景部署;第四,支持多种交付方案,如公有云、SaaS、API服务、云上专属资源池、私有集群部署、超集成培训和推送机等。,并且可以不断升级优化。
2023年8月19日,由工业和信息化部、宁夏回族自治区政府共同主办的中国计算力大会暨第二届计算力产业大会在宁夏回族自治区首府银川正式召开。“紫东太初”成为大会“计算中国年度突破成就奖”中唯一的大模型获得者。
2023年8月31日,紫东太初通过备案,正式对外开放服务,成为首批“正式上线”的人之一。
2023年9月,紫东太初大模型功能全面升级,对外开放。用户不仅可以体验图像、语音、文本等多模态能力,还可以基于紫东太初的多模态交互能力,以多种方式与AI进行交互,享受AI服务。
2023年9月6日,武汉人工智能研究院院长王金桥在中国国际服务贸易交易会计算服务高质量发展论坛上指出,“紫东太初”模式有助于处理复杂问题和大规模数据,提升政府决策水平和服务效率。这个大模型通过对海量数据的学习和分析,实现了更高层次的认知和理解能力,在数字政府领域也取得了一定程度的应用。此外,“紫东太初”在智能文本创作、智能政务、交通违法认知判断等多个方面都有落地。,并能赋能数字政务。
2023年10月21日-23日,以“聚焦科普新领域,创新服务部门赛道”为主题的第十一届中国(芜湖)科普用品博览会在安徽芜湖成功举办。“紫东太初”向参与者展示了文字创作、绘画和诗歌,以及与虚拟数字人的互动。同时,《紫东太初》为观众提供了一个全模态的对话平台,观众可以通过模拟不同场景下的不同角色、话题、对话方式,与《紫东太初》大模型进行对话互动。
创新阶段
2023年10月17日,由长江计算和武汉人工智能研究所联合举办的以“融合创新计算未来”为主题的武汉计算技术应用创新交流会正式落幕。大会正式发布了以“紫东太初”为基础,由武汉人工智能研究所和长江计算联合研发的“长江计算——紫东太初训练推送一体机”。
2023年11月,武汉人工智能研究院宣布“紫东泰初”大模型正式入驻浪潮信息元脑生态AIStore,双方共同推动大模型产业落地,并提供以下服务:紫东泰初大模型开放服务平台、紫东泰初大模型对话平台、紫东泰初数字生活生产平台、江城洛神AI内容创作平台、紫东泰初大模型。
2023年11月10日至13日,中国电信与广东省人民政府在广州联合举办“2023数字科技生态大会”。作为中国电信战略合作伙伴,武汉人工智能研究院构建了全栈国产化、自主可控的紫东太初大模型开放服务平台,并基于紫东太初全模态大模型,在智能制造、智能医疗等领域建设了典型示范应用。
2023年12月9日,以“创未来,享非凡”为主题的盛腾AI开发者创造日广州站成功举办。本次活动由广州市工业和信息化局指导,广州无线电集团、华为技术有限公司主办,广州人工智能公共计算中心承办,广东省人工智能行业协会、广州市信息协会、天河人才港、广州市天河区软件和信息行业协会协办。作为国内第一批通用和垂直模型,紫东泰初模型、广安联邦模型、从容模型、灵脑模型、肝癌模型将作为首批合作伙伴,通过联合各方攻关大模型关键技术难题、打造垂直领域场景、推动商业化,推动大模型在各垂直领域的落地和应用,打造开放、包容、合作、共享的大模型创新生态。
功能服务
核心功能
形象能力:图像能力包括图像描述、目标检测、图像检索、图像生成和字符识别。
语言能力:语言能力涵盖文本、翻译、代码、数学、逻辑等多个方面,包括中文问答、文本摘要、文本延续、文本创作、标题生成、语法分析、机器翻译、古诗词创作、代码理解、代码写作、数学计算、逻辑推理。
视频功能:视频能力包括视频描述、检索和问答。视频描述和问答是指大模型可以理解和回答用户上传的视频素材,如视频识别和视频描述问题,同时支持上下文信息理解和多轮问答,如果用户缺乏自己的素材或者想使用大模型中的素材,可以使用检索功能,因为大模型本身也有丰富的视频素材库,可以满足用户搜索高度相关视频素材的需求。
音乐能力:音乐能力包括音乐生成和音乐多模态问答。
音频能力:音频能力包括四个功能:音频认证、音频事件分类、语音识别和语音生成。
3D功能:3D能力是指“紫东太初2.0”具备基于点云数据的3D场景理解和物体感知能力。
信号类能力:信号类能力是指“紫东太初2.0”支持雷达信号识别和知识交互,用户可以借助模型快速掌握信号的基本来源和参数。
特色功能
角色扮演:大模型可以在任何形式的角色扮演中进行相应的场景对话,如游戏娱乐、戏剧表演、真人演练、心理指导、自我思考等。
信息提取:大模型可以从给定的文本中提取名称、地点、关键词等核心信息,帮助用户以结构化的方式提取非结构化数据。
视频脚本:用户根据自己的需求输入内容,大模型可以生成视频拍摄脚本和相关创意。
游戏NPC:大模型可以在游戏中作为非玩家角色(NPC)与玩家进行对话和互动。
图片百科全书:大模型可以根据输入的图片生成相关的说明信息,帮助用户更好地理解和利用图片的内容。
穿搭博主:大模型可以分析用户的个性偏好和需求,定制推荐。
行为描述:用户输入人类行为的任何图片,大模型都能生成相应的描述、解释和介绍。
图像制作:当用户输入文本时,大模型可以根据描述自动生成图像。
景观欣赏:大模型通过对大量文献和影像资料的研究分析,了解不同类型和区域的景观特征和文化内涵。用户可以随意输入一张景观图片,大模型可以对景观进行描述和评价。
训练模式
紫东太初基于业界领先的中文预训练模型、语音预训练模型和视觉预训练模型,采用多层次多任务自我监控预训练学习模式,其中视觉预训练模型首次超越监督学习的性能,速度比其他方法高8倍,在语义切分结果上也超越了监督学习的水平;在中文预训练模型方面,提出的任务意识和推理增强模型的性能较GPT-3有明显提高;在语音预训练模型中,有效突破了多语言、多任务、低资源等语音预训练的关键技术,解决了语音领域语言多样、标注成本高的问题,使人们能够用很少的标注数据大幅提升语音识别的性能。然而,与这些训练和学习方法相关的论文已经发表,论文中提出的三种模式数据的统一语义表达可以同时支持三种或任意两种模式下的多个数据预训练。紫东太初模型可以在跨模态理解的基础上实现跨模态生成,可以平衡理解和生成这两种最重要的认知能力,从而实现以图传声和以图传声。
行业应用
“紫东太初”大模型已应用于神经外科导航、法律咨询、医学多模态鉴别诊断、交通违章图像研究等领域。
在医疗领域,依托紫东泰初大模型开放服务平台,满足了智能的数据标注、高效的模型训练、灵活的模型部署,实现了骨科器械/耗材的自动识别、库存等功能,实现了智能化、精细化管理。与传统方法相比,效率提高了6倍,准确率达到97%以上。在医疗应用场景中,神经外科“紫东太初”模型部署的机器人MicroNeuro,通过融合医疗手术中的视觉、触觉等多模态信息,帮助医生对手术场景进行实时推理和判断,已完成国内首例颅内深部活检。同时,“紫东太初”模式研究团队与北京协和医院合作,试图利用“紫东太初”强大的逻辑推理能力,突破人类罕见疾病诊疗的医学领域。
在智慧物流领域,“紫东泰初”与湖北港着力打造多模态数据融合、泛化能力强、业务协同高效的全省供应链通用人工智能基地。
在法律咨询行业,“紫东太初”模式的应用显著提升了办公效率。例如,法律案件拆解提取仅需0.546秒,实现了案件分析速度的百倍提升,有利于解决律师整体资源匮乏、服务成本高等问题。
在智能交通领域,基于“紫东泰初”大模型的高速公路网双生模拟、调度、维护、节能、服务的全周期、全天候、安全可靠的数字智能平台,有效提升道路通行率30%。
在汽车领域,中科院自动化所研究员、武汉人工智能研究院院长王金桥在接受科技创新板日报采访时指出,“紫东泰初”大车型与东风蓝兔、长安欧尚汽车等一系列智能车企有一系列合作,包括软件的自动代码编写和测试,为智能驾驶舱打造了成千上万的数字人。例如,长安汽车基于“紫东太初”的多模态模型引入了元宇宙的概念,并创建了YYDS虚拟数字人。“YYDS”允许用户重现自己或亲人的形象和声音,可以捏出自己的语音助手,满足各种定制需求。