百川大模型
百川大模型是百川智能推出的一款大模型产品。它结合了意图理解、信息检索和强化学习技术,将监督微调与人类意图对齐相结合,支持多轮对话、内容生成、文章摘要、知识问答、代码生成、指令跟随、数学和逻辑推理等多种场景。百川智能是中国拥有大型模型的独角兽公司。截至2023年12月,其已发布7款大型机型,包括4款开源机型百川-7B/13B和两款闭源机型百川-53b、百川-53B和百川2-192K-192k。
百川系列是世界上下载量最多的开源模型之一。截至2023年12月,百川模型的下载量已超过500万次。自百川-53B模型发布以来,已有200多家企业申请部署和试用百川开源模型。
发展历史 编辑本段
2023年4月10日,搜狗创始人兼前CEO王小川在社交媒体上发布消息称,大型语言模型公司百川智能成立,主要业务方向是开发和提供通用人工智能服务。
2023年6月15日,百川智能发布了一款名为百川-7B的大型开源车型。基于Transformer结构,该模型已在约1.2万亿个代币上进行训练,其中包含70亿个参数。它还支持中文和英文,上下文窗口长度为4096。
2023年7月11日,百川智能正式发布了两个量化版本,分别是通用大语言模型百川-13B-Base、对话模型百川-13B-Chat及其参数为130亿的INT4/INT8。
2023年8月31日凌晨,百川智能宣布其大模型已通过《生成式人工智能服务管理暂行办法》备案,并向公众开放。9月20日,百川智能大模型API上线。
2023年9月6日,百川智能举办了以“百川会海,开源共赢”为主题的大模型发布会。会上,百川智能宣布百川2-7B、百川2-13B、百川2-13B-Chat及其4-4bit量化版本正式开源并进行微调,它们均可免费商用。
2023年9月25日,百川智能发布了百川2-53B闭源大模型,该模型显著提升了数学和逻辑推理能力,并通过建立高质量数据系统和增强搜索功能成功减少了模型错觉的发生。此外,百川智能还开放了百川2-53B的API接口。通过开放API,百川智能将为各界合作伙伴提供大规模模型能力,推动企业智能化发展。
2023年10月17日,百川智能宣布完成3亿美元A1轮战略融资。阿里巴巴、腾讯、小米等知名科技公司和多家顶级投资机构均参与了本轮融资。加上此前的5000万美元天使轮投资,百川智能累计融资金额已达3.5亿美元(约25.43亿元人民币)。目前,百川智能的团队规模超过170人,其中R&D人员占80%以上。
2023年10月30日,百川智能宣布推出百川2-192K大机型。该模型具有很长的上下文窗口,长度为192K,可以处理大约350,000个汉字。百川2-192K的发布不仅在大模型技术领域取得了重要突破,还验证了长上下文窗口的可行性,为提升大模型性能开辟了新的研究路径。
基础设施 编辑本段
百川2系列是一个大规模多语言模型,其模型架构基于主流的Transformer。百川2有两个独立的模型:百川2-7B有70亿个参数,百川2-13B有130亿个参数。
分词器单词分隔符:在分词设计中,需要平衡两个关键因素:一是高效推理所需的高压缩率,二是大小合适的词汇量。为了充分训练每个单词的嵌入,百川团队采用了来自SentencePiece的字节对编码,并且没有对输入文本进行归一化处理。为了更好地对数字数据进行编码,并对包含额外空格的数据进行编码,百川团队还在单词分隔符中添加了仅包含空格的标记,并将数字分成单个数字。此外,为了考虑到中文中存在一些长短语,百川团队将最大token长度设置为32。在位置编码上,百川2-7B采用绳索,而百川2-13B采用不在场证明。
激活功能和标准化:百川2在激活功能和标准化方面采用了SwiGLU+xFormers(注意力和偏离能力结合ALiBi以减少内存开销)+RMSNorm(层归一化变压器块的输入)。
激活功能:百川2使用SwiGLU激活功能。SwiGLU具有“双线性”层并包含三个参数矩阵,这与包含两个矩阵的传统变压器前馈层不同。因此,百川团队将隐藏大小从4倍减少到了8倍,并进行了适当调整。
注意层:百川2采用xFormers2实现记忆高效注意。通过利用xFormers优化注意力和偏差的能力,我们可以将ALiBi基于偏差的位置编码集成到模型中,并减少内存开销。这为百川2的大规模训练提供了性能和效率优势。
归一化:百川2将层归一化应用于Transformer block的输入,这对于预热更加鲁棒。此外,该模型由RMSNorm实现,该模型仅计算输入特征的方差以提高效率。
功能服务 编辑本段
百川模型目前处于开发阶段,部分功能尚未完善。普通用户可以通过百城2-53b机型体验知识问答、文字创作等功能。百川智能表示,百川-53B在文本创作的创意、风格模仿和实用性方面都可以做到足够出色,并且可以对大多数任务给出良好的响应。但大模型似乎不认为它有能力获得实时消息。
数据概述
培训数据源:百川2模型训练是在通用、法律、医疗、数学、代码和多语种翻译六个领域的权威中英和多语种数据集上对模型进行全面测试。百川智能团队通过各种渠道收集数据,包括互联网页面、书籍、研究论文、代码库等。,以建立全面的世界知识体系。
数据规模:百川2的数据是基于数万亿的互联网数据,它也是从健康和法律等垂直行业中选择和采用的。此外,该模型建立在世界知识体系之上。在数据处理阶段,《百川2》利用超大规模内容聚类系统对千亿级数据进行清洗和过滤,并对章节、段落和句子进行多粒度的质量评估。《百川2》使用2.6TB的超大规模语料库进行训练,支持中文、英语、西班牙语和法语等数十种语言。这些技术手段和数据资源的采用,为“百川2号”的训练提供了有力支撑。
数据处理:百川团队在数据处理中注重数据的频率和质量。为了确保数据频率的高效率和准确性,他们设计了一个大规模重复数据删除和聚类系统,该系统支持类LSH特征和密集嵌入特征。该系统可以在短时间内对数万亿数据进行群集和重复数据消除。基于聚类结果,系统还可以复制文档、段落和句子,并计算用于采样预训练数据的分数。
应用领域 编辑本段
截至2023年9月,已有超过200家企业申请部署百川模式,覆盖云厂商、科技行业、制造、消费等多个行业的企业。
相关合作 编辑本段
AI黑客马拉松:2023年8月28日,百川智能、亚马逊云科技、上海ai客厅联合举办AI黑客马拉松。本次大赛以“AGI更美好”为主题,开辟了医疗健康和游戏娱乐的双轨赛道,为所有技术精英提供了一个同场竞技的平台,共同探索大模型在医疗健康和游戏娱乐领域的前沿应用。
百川英博基金:2023年9月,百川智能携手中国计算机联合会、北京英博数学科技有限公司共同成立CCF-百川英博榜样基金,旨在支持高校和科研院所的青年学者,为他们提供产学研合作和学术交流的优质平台。基金拟设置大规模模型基础能力和创新应用两大专题:大规模模型基础能力专题涵盖大规模模型预训练、对齐、安全、架构、Agent等;创新应用主题涵盖垂直和跨学科应用(如医疗和游戏等垂直领域)。
与鹏城实验室合作:2023年11月16日,百川智能与鹏城实验室宣布将共同探索大规模模型的训练与应用,并基于国内算力联合开发128K大规模模型“鹏城-百川心智33B”。百川智能表示,希望通过与合作伙伴的开源共创,助力中国大模型创新,繁荣本土大模型生态。
附件列表
词条内容仅供参考,如果您需要解决具体问题
(尤其在法律、医学等领域),建议您咨询相关领域专业人士。