商量SenseChat
商量SenseChat是商汤科技开发的千亿参数大语言模型应用平台。该产品具备语义理解、多轮对话、知识掌握、逻辑推理等综合能力,可为医疗、金融、移动终端、代码开发、企业服务、城市管理、汽车出行、教育等垂直领域用户提供服务。 www.qwbaike.cn
2023年4月10日,商汤发布了大型模型系统SenseNova和该系统下的大型语言模型讨论商量。2023年8月31日,商量正式向用户开放,作为第一批开发大规模模型的科技公司,商汤通过咨询商量实现了生成式人工智能相关收入的增长。截至2023年10月,商量主要服务于B端,与金融、手机、医疗、汽车、房地产、能源、媒体、工业制造等多个垂直行业的500多家客户建立了深度合作。
发展历史 编辑本段
投资机遇
2014年,商汤科技成立。作为一家人工智能软件公司,商汤科技以“坚持原创,让AI引领人类进步”为使命,长期投入AI研究。2015年,商汤开始开发深度学习训练框架SenseParrots,这是商汤智能计算基础设施SenseCore的核心。2018年前后,商汤开始着手准备大模型初始阶段所需的算力、算法和数据。2018年4月,商汤启动人工智能计算原型开发项目。同年10月,OpenMMLab人工智能算法开源系统上线,涉及10多个研究方向,开放了130多个算法和1000个预训练模型。2021年7月,商汤开始打造SenseCore AI。2022年1月,商汤的上海临港人工智能智能计算中心(AIDC)正式投入运营。AIDC是尚汤艾设备的重要计算基地,其设计峰值计算能力高达每秒374亿次浮点运算,使其成为亚洲最大的超级计算中心之一。
www.qwbaike.cn
2022年11月30日,OpenAI推出了ChatGPT聊天机器人。ChatGPT被视为通向通用人工智能的道路(AGI)。此后,大语言模型迅速引起了世界各国的广泛关注。商汤科技开展了新的业务探索,并于2023年2月25日推出了SenseCore尚汤艾云,基于该云构建了AGI基础设施并开发了大型模型系统。
www.qwbaike.cn
www.qwbaike.cn
发布开发
2023年4月10日,商汤发布了大规模模型系统“SenseNova”,该系统包括自然语言处理、内容生成、自动数据标注、用户自定义模型训练等众多大规模模型和能力,其中包括大规模语言模型“咨询商量”。讨论的意思是“如果你讨论,你就可以解决它。”SenseChat1.0基于海量数据和深度计算能力开发,具备多轮对话和超长文本理解能力,支持编程助手、健康咨询助手、PDF文件阅读助手等应用。
www.qwbaike.cn2023年6月,商汤发布了第一款基础型号InternLM,其综合能力超过了GPT-3.5-turbo。该模型的参数达到1040亿个,并使用1.6万亿token多语言语料库进行训练,支持20多种语言。在此基础上,讨论SenseChat2.0将于7月初发布。讨论了商量2.0在MMLU、AGIEval和C-Eval的评估中领先于ChatGPT,其中一些非常接近GPT-4的水平。2023年8月,新型号InternLM-123B完成了训练,其测试成绩在全球51个知名评估集中的30万个问题中排名世界第二,超过了GPT-3.5-turbo和LLaMA2-70B。在此基础上,讨论将商量升级到3.0版。2023年8月31日,商量正式向用户开放。讨论商量3.0在2023年9月SuperCLUE中国大型车型总榜单中排名第一。商量3.0在人工智能代理(由SuperCLUE添加的人工智能子列表)中排名第一,领先于所有中国中国大型模型、GPT 3.5和克劳德2。 www.qwbaike.cn
www.qwbaike.cn
2023年上半年,借助大设备的计算能力、“逐日增长”大模型系统的大语言模型和文生图模型的研发,商汤与生成式人工智能相关的收入增长670.4%,收入贡献占比超过20%。截至2023年10月,商量已与金融、手机、医疗、汽车、房地产、能源、媒体和工业制造等多个垂直行业的500多家客户建立了深度合作。 www.qwbaike.cn
www.qwbaike.cn
版本信息
2023年4月10日 www.qwbaike.cn
1.0:它包含1800亿个参数,支持长文本知识理解、交互式多轮对话、自动及时的知识更新,并具有通过模型理解问题后生成和总结答案的能力;支持的应用包括:编程助手,可以帮助开发人员更高效地编写和调试代码;健康咨询助手,为用户提供个性化医疗建议;PDF文件阅读助手,可以轻松地从复杂的文档中提取和总结信息
www.qwbaike.cn
2023年7月7日
www.qwbaike.cn
2.0:它突破了大语言模型输入长度的限制,支持阿拉伯语和粤语,并推出不同参数顺序的模型版本,可适应移动终端、云等不同终端和场景的应用需求,降低部署成本;知识和信息的准确性、逻辑判断能力、语境理解能力和创造力都有了很大的提高。
www.qwbaike.cn
2023年8月31日
3.0:基础模型为“学者普宇InternLM-123B”,拥有1230亿个参数,生成的内容更加准确可靠,可用于复杂场景下的多步推理和计算。具有独立反思和纠错的能力;代码解释器和插件调用能力已经升级。python解释器、API调用和搜索可用于解决复杂任务和构建AI代理应用程序。
www.qwbaike.cn
支持技术 编辑本段
计算能力和数据:商汤的SenseCore基于商汤人工智能计算中心的AIDC,拥有3万个在线GPU,可输出6000 Petaflops,可有效支持大型语言模型的训练、升级迭代和服务。到2023年8月,尚汤灿每月产生约2万亿个高质量数据令牌,以支持基础模型训练。此外,该公司还投入了数百台配备千卡GPU计算资源的服务器,并使用算法结合人工方法对原始语料数据进行分类和精细清洗,以确保数据的质量、安全性和价值符合要求。 www.qwbaike.cn
基础模型:学者Puyu InternLM是由上海人工智能实验室(上海ai实验室)、商汤科技、香港中文大学、复旦大学和上海交通大学发布的多语言、数十亿参数的基座模型,并在万亿代币数据上进行训练。
www.qwbaike.cn
数据集:InternetLM的训练数据集来源包括网页、书籍、学术论文、代码等。语料库包含多种语言的文档,其中英文文本涵盖了广泛的领域,而中文文本则增强了模型对中国和中国文化的了解。虽然其他语言的文本只占很小的比例,但也提高了模型的多语言能力。为了保证语言模型预处理的鲁棒性和准确性,进行了一些数据处理,分为四个阶段:语言分类,将所有文档按照主要语言(如英语、汉语或其他语言)进行分类,实现语言感知的数据处理;基于规则过滤,通过各种规则和启发式方法去除无关或低质量的内容;基于模型过滤,在黄金标准语料库上训练的小语言模型用于识别那些高质量的文档,以确保所有训练数据都符合高质量标准。重复数据删除意味着消除相似的文档或完全重复的段落,以减少数据冗余并避免破坏模型性能。
模型设计:interlm-104 b的模型架构采用基于变压器的解码器架构,类似于GPT系列。该模型包括82个变压器层,每层有80个头,头维度设置为128。因此,模型大小为10240。
培训过程:训练过程分为几个阶段,每个阶段通过控制不同比例的数据来定义其优化目标。并选择适当的数据集来评估进度。如果某个特定阶段未能达到预期,我们将从该阶段结束时重新开始训练,以避免重新开始,从而提高训练效率。为了确保数据利用率,不会对相同的数据进行重新采样。此外,为了进一步提高训练效率,不同长度的句子将被打包成固定长度的序列,并使用特殊符号来描述不同的句子。训练过程中使用的优化参数包括:学习速率、批量大小和总学习步骤。通过余弦学习速率调度将最大学习速率设置在2e-4和4e-5之间。在每个训练阶段结束时,最终学习率下降到峰值学习率的10%。训练中使用的优化算法是AdamW,其特征是β1值为0.9,β2值为0.95。权重衰减的范围保持在0.01-0.1之间,所有阶段的梯度削波值和学习率预热比分别保持在1.0和0.025。 www.qwbaike.cn
监督微调:SFT(监督微调):收集了一个包含问答对和多轮对话的教学数据集。基于指令数据集,以监督的方式对模型进行微调。奖励模型的训练:根据3H标准,即帮助、无害和诚实,训练了一个奖励模型。我们在互联网上收集用户提示,构建一组有毒提示,然后使用人类注释器、语言模型和注释偏好来生成不同的响应。奖励模型从SFT模型初始化,最后一个投影层由新的全连接层替换。人工反馈强化学习(RLHF):基于奖励模型,使用近似策略优化(PPO)进一步微调SFT模型。此阶段的目的是使模型响应与人类偏好一致。
www.qwbaike.cn
产品功能 编辑本段
基本功能
咨询商量具有语义理解、多轮对话、知识掌握和逻辑推理的综合能力。它使用大量数据进行训练并充分考虑中文上下文,因此可以理解和处理中文文本,并具有理解多轮对话和长文本的能力;凭借合理性判断和逻辑推理能力,我们可以判断用户给出的陈述是否合理,也可以根据前提和事实进行推导,以处理复杂的逻辑问题。它还可以通过与用户的多轮互动解决复杂问题,提供定制化建议,协助文本创作,并自带知识自动及时更新模块,从而生成更可信、准确、更安全的信息;并且具有一定的共情能力,可以成为用户倾诉社交压力、情感困惑等个人问题的对象。此外,咨询还可以通过字符识别技术阅读和理解PDF文件,并根据用户关于文件输入的问题给出相应的答案。
扩展功能
AI代码助手:AI代码助手是基于大型语言模型的人工智能辅助开发工具,应用于编程领域。AI代码助手支持中英文和多种编程语言,并能适应开发人员的个性化编码风格,提高开发效率并减少开发错误。它具有代码补全、代码扩展、代码翻译、代码重构、代码修正、注释代码生成、复杂性分析和测试用例生成等功能。 www.qwbaike.cn
大医:基于问诊模式的医疗健康大语言模型。基于万亿代币的预训练语料库,以超200亿代币的高质量医学知识数据进行训练,涵盖医学教科书、医学指南、临床路径、药物库、疾病库、体检报告,以及4000万真实病历、医患问答等。大医生的嵌入式医疗“场景集市”包括智慧健康、智慧患者服务、智慧门诊和数字智能建设四大领域,包含智能自诊、用药咨询、诊后随访管理、智慧病历和结构化视频报告等13个预设场景。支持提示项目定制、长期记忆访问、医学知识库查询汇总等个性化功能。 www.qwbaike.cn
获得荣誉 编辑本段
附件列表
词条内容仅供参考,如果您需要解决具体问题
(尤其在法律、医学等领域),建议您咨询相关领域专业人士。