知名百科 >> 商量SenseChat >> 历史版本
编辑时间历史版本内容长度图片数目录数修改原因
2024-05-07 11:35 最新历史版本 7966 1 4
  返回词条

商量SenseChat

商量SenseChat是商汤科技开发的千亿参数大语言模型应用平台。该产品具备语义理解、多轮对话、知识掌握、逻辑推理等综合能力,可为医疗、金融、移动终端、代码开发、企业服务、城市管理、汽车出行、教育等垂直领域用户提供服务。

2023年4月10日,商汤发布了大型模型系统SenseNova和该系统下的大型语言模型讨论商量。2023年8月31日,商量正式向用户开放,作为第一批开发大规模模型的科技公司,商汤通过咨询商量实现了生成式人工智能相关收入的增长。截至2023年10月,商量主要服务于B端,与金融、手机、医疗、汽车、房地产、能源、媒体、工业制造等多个垂直行业的500多家客户建立了深度合作。

目录

发展历史

投资机遇

2014年,商汤科技成立。作为一家人工智能软件公司,商汤科技以“坚持原创,让AI引领人类进步”为使命,长期投入AI研究。2015年,商汤开始开发深度学习训练框架SenseParrots,这是商汤智能计算基础设施SenseCore的核心。2018年前后,商汤开始着手准备大模型初始阶段所需的算力、算法和数据。2018年4月,商汤启动人工智能计算原型开发项目。同年10月,OpenMMLab人工智能算法开源系统上线,涉及10多个研究方向,开放了130多个算法和1000个预训练模型。2021年7月,商汤开始打造SenseCore AI。2022年1月,商汤的上海临港人工智能智能计算中心(AIDC)正式投入运营。AIDC是尚汤艾设备的重要计算基地,其设计峰值计算能力高达每秒374亿次浮点运算,使其成为亚洲最大的超级计算中心之一。

2022年11月30日,OpenAI推出了ChatGPT聊天机器人。ChatGPT被视为通向通用人工智能的道路(AGI)。此后,大语言模型迅速引起了世界各国的广泛关注。商汤科技开展了新的业务探索,并于2023年2月25日推出了SenseCore尚汤艾云,基于该云构建了AGI基础设施并开发了大型模型系统。

发布开发

2023年4月10日,商汤发布了大规模模型系统“SenseNova”,该系统包括自然语言处理、内容生成、自动数据标注、用户自定义模型训练等众多大规模模型和能力,其中包括大规模语言模型“咨询商量”。讨论的意思是“如果你讨论,你就可以解决它。”SenseChat1.0基于海量数据和深度计算能力开发,具备多轮对话和超长文本理解能力,支持编程助手、健康咨询助手、PDF文件阅读助手等应用。

商量SenseChat商量SenseChat

2023年6月,商汤发布了第一款基础型号InternLM,其综合能力超过了GPT-3.5-turbo。该模型的参数达到1040亿个,并使用1.6万亿token多语言语料库进行训练,支持20多种语言。在此基础上,讨论SenseChat2.0将于7月初发布。讨论了商量2.0在MMLU、AGIEval和C-Eval的评估中领先于ChatGPT,其中一些非常接近GPT-4的水平。2023年8月,新型号InternLM-123B完成了训练,其测试成绩在全球51个知名评估集中的30万个问题中排名世界第二,超过了GPT-3.5-turbo和LLaMA2-70B。在此基础上,讨论将商量升级到3.0版。2023年8月31日,商量正式向用户开放。讨论商量3.0在2023年9月SuperCLUE中国大型车型总榜单中排名第一。商量3.0在人工智能代理(由SuperCLUE添加的人工智能子列表)中排名第一,领先于所有中国中国大型模型、GPT 3.5和克劳德2。

2023年上半年,借助大设备的计算能力、“逐日增长”大模型系统的大语言模型和文生图模型的研发,商汤与生成式人工智能相关的收入增长670.4%,收入贡献占比超过20%。截至2023年10月,商量已与金融、手机、医疗、汽车、房地产、能源、媒体和工业制造等多个垂直行业的500多家客户建立了深度合作。

版本信息

2023年4月10日

1.0:它包含1800亿个参数,支持长文本知识理解、交互式多轮对话、自动及时的知识更新,并具有通过模型理解问题后生成和总结答案的能力;支持的应用包括:编程助手,可以帮助开发人员更高效地编写和调试代码;健康咨询助手,为用户提供个性化医疗建议;PDF文件阅读助手,可以轻松地从复杂的文档中提取和总结信息

2023年7月7日

2.0:它突破了大语言模型输入长度的限制,支持阿拉伯语和粤语,并推出不同参数顺序的模型版本,可适应移动终端、云等不同终端和场景的应用需求,降低部署成本;知识和信息的准确性、逻辑判断能力、语境理解能力和创造力都有了很大的提高。

2023年8月31日

3.0:基础模型为“学者普宇InternLM-123B”,拥有1230亿个参数,生成的内容更加准确可靠,可用于复杂场景下的多步推理和计算。具有独立反思和纠错的能力;代码解释器和插件调用能力已经升级。python解释器、API调用和搜索可用于解决复杂任务和构建AI代理应用程序。

支持技术

计算能力和数据:商汤的SenseCore基于商汤人工智能计算中心的AIDC,拥有3万个在线GPU,可输出6000 Petaflops,可有效支持大型语言模型的训练、升级迭代和服务。到2023年8月,尚汤灿每月产生约2万亿个高质量数据令牌,以支持基础模型训练。此外,该公司还投入了数百台配备千卡GPU计算资源的服务器,并使用算法结合人工方法对原始语料数据进行分类和精细清洗,以确保数据的质量、安全性和价值符合要求。

基础模型:学者Puyu InternLM是由上海人工智能实验室(上海ai实验室)、商汤科技、香港中文大学、复旦大学和上海交通大学发布的多语言、数十亿参数的基座模型,并在万亿代币数据上进行训练。

数据集:InternetLM的训练数据集来源包括网页、书籍、学术论文、代码等。语料库包含多种语言的文档,其中英文文本涵盖了广泛的领域,而中文文本则增强了模型对中国和中国文化的了解。虽然其他语言的文本只占很小的比例,但也提高了模型的多语言能力。为了保证语言模型预处理的鲁棒性和准确性,进行了一些数据处理,分为四个阶段:语言分类,将所有文档按照主要语言(如英语、汉语或其他语言)进行分类,实现语言感知的数据处理;基于规则过滤,通过各种规则和启发式方法去除无关或低质量的内容;基于模型过滤,在黄金标准语料库上训练的小语言模型用于识别那些高质量的文档,以确保所有训练数据都符合高质量标准。重复数据删除意味着消除相似的文档或完全重复的段落,以减少数据冗余并避免破坏模型性能。

模型设计:interlm-104 b的模型架构采用基于变压器的解码器架构,类似于GPT系列。该模型包括82个变压器层,每层有80个头,头维度设置为128。因此,模型大小为10240。

培训过程:训练过程分为几个阶段,每个阶段通过控制不同比例的数据来定义其优化目标。并选择适当的数据集来评估进度。如果某个特定阶段未能达到预期,我们将从该阶段结束时重新开始训练,以避免重新开始,从而提高训练效率。为了确保数据利用率,不会对相同的数据进行重新采样。此外,为了进一步提高训练效率,不同长度的句子将被打包成固定长度的序列,并使用特殊符号来描述不同的句子。训练过程中使用的优化参数包括:学习速率、批量大小和总学习步骤。通过余弦学习速率调度将最大学习速率设置在2e-4和4e-5之间。在每个训练阶段结束时,最终学习率下降到峰值学习率的10%。训练中使用的优化算法是AdamW,其特征是β1值为0.9,β2值为0.95。权重衰减的范围保持在0.01-0.1之间,所有阶段的梯度削波值和学习率预热比分别保持在1.0和0.025。

监督微调:SFT(监督微调):收集了一个包含问答对和多轮对话的教学数据集。基于指令数据集,以监督的方式对模型进行微调。奖励模型的训练:根据3H标准,即帮助、无害和诚实,训练了一个奖励模型。我们在互联网上收集用户提示,构建一组有毒提示,然后使用人类注释器、语言模型和注释偏好来生成不同的响应。奖励模型从SFT模型初始化,最后一个投影层由新的全连接层替换。人工反馈强化学习(RLHF):基于奖励模型,使用近似策略优化(PPO)进一步微调SFT模型。此阶段的目的是使模型响应与人类偏好一致。

产品功能

基本功能

咨询商量具有语义理解、多轮对话、知识掌握和逻辑推理的综合能力。它使用大量数据进行训练并充分考虑中文上下文,因此可以理解和处理中文文本,并具有理解多轮对话和长文本的能力;凭借合理性判断和逻辑推理能力,我们可以判断用户给出的陈述是否合理,也可以根据前提和事实进行推导,以处理复杂的逻辑问题。它还可以通过与用户的多轮互动解决复杂问题,提供定制化建议,协助文本创作,并自带知识自动及时更新模块,从而生成更可信、准确、更安全的信息;并且具有一定的共情能力,可以成为用户倾诉社交压力、情感困惑等个人问题的对象。此外,咨询还可以通过字符识别技术阅读和理解PDF文件,并根据用户关于文件输入的问题给出相应的答案。

扩展功能

AI代码助手:AI代码助手是基于大型语言模型的人工智能辅助开发工具,应用于编程领域。AI代码助手支持中英文和多种编程语言,并能适应开发人员的个性化编码风格,提高开发效率并减少开发错误。它具有代码补全、代码扩展、代码翻译、代码重构、代码修正、注释代码生成、复杂性分析和测试用例生成等功能。

大医:基于问诊模式的医疗健康大语言模型。基于万亿代币的预训练语料库,以超200亿代币的高质量医学知识数据进行训练,涵盖医学教科书、医学指南、临床路径、药物库、疾病库、体检报告,以及4000万真实病历、医患问答等。大医生的嵌入式医疗“场景集市”包括智慧健康、智慧患者服务、智慧门诊和数字智能建设四大领域,包含智能自诊、用药咨询、诊后随访管理、智慧病历和结构化视频报告等13个预设场景。支持提示项目定制、长期记忆访问、医学知识库查询汇总等个性化功能。

获得荣誉

2023年11月18日,新华社中国企业发展研究中心发布《人工智能大模型体验报告3.0》,对国内主流大模型进行了全面评估。根据该报告,在量化衡量情商的维度上,商汤的商量在10个被评估的大型模型中排名第一。分析表明,就智商指数而言,商量能够根据指令回答问题;在情商指标方面,它可以给出详细的计划,多种角度切入问题,并能引发用户深入思考。商量凭借其技术实力和发展潜力被新华研究院评为中国大型模型市场的“未来领导者”。