知名百科  > 所属分类  >  其他科技   

Gemini

Gemini是谷歌开发的人工智能AI模型。2023年12月6日,该机型推出Gemini1.0版本,包括GeminiUltra、GeminiPro、GeminiNano三种不同规格。谷歌在2023年4月启动了OpenAI的研究计划,并合并了两个大型人工智能团队。2023年8月,谷歌将生成式人工智能引入其面向印度和日本用户的搜索工具,并于同年9月向少数公司开放了其交互式人工智能软件Gemini的早期版本。2023年12月6日,谷歌正式推出Gemini1.0,包括GeminiUltar、GeminiPro、GeminiNano三种不同规格。

Gemini内置了Google自主研发的AI超级计算机芯片Cloud TPU V5P,这是首款在MMLU基准测试上优于人类专家的模型。基于从无到有构建的多模型,可同时识别文本、图像、音频、视频、代码等五类信息,理解并生成流行编程语言(如Python、Java、C++)的高质量代码,具有全面的安全评估。

2023年12月13日开始,开发者和企业用户可以通过Google AI Studio或Google Cloud Vertex AI中的Gemini API获取Gemini Pro。Gemini还会应用到谷歌更多产品和服务中,如搜索、广告、Chrome和Duet AI。

2024年2月15日,谷歌发布Gemini1.5版本。

目录

发展历史 编辑本段

2023年4月,Alphabet(谷歌母公司)首席执行官桑达尔·皮查(Sandahl Pichat)合并了两个大型人工智能团队,启动了OpenAI项目。2023年5月,谷歌在开发者大会上透露,正在开发大AI模型Gemini。2023年8月,谷歌将生成式人工智能引入其面向印度和日本用户的搜索工具,该工具将以暗示性语言和摘要的形式显示文本或视觉结果。同时,它还以每个用户每月30美元的价格向企业客户提供其人工智能工具。2023年9月15日,The Information报道称,谷歌已经向少数公司开放了其交互式人工智能软件Gemini的早期版本。2023年11月16日,谷歌表示将推迟发布AI模型Gemini。

2023年12月6日,Gemini的初始版本在谷歌的聊天机器人Bard推出。同时优化推出了Gemini1.0版本,包含Gemini Ultar、Gemini Pro、Gemini Nano三个不同规格的套件。Gemini是一种新的AI模型,可以处理文本、图像和视频,它内置了谷歌自研的AI超级计算机芯片CloudTPU V5 P. Demis Hassabls说:“Gemini是谷歌团队大规模协作的结果。它是从零开始构建的多模型,这意味着它可以总结并无缝理解、操纵和组合不同类型的信息,包括文本、代码、音频、图像和视频。”此外,Pixel引入了Gemini,搭载了Gemini Nano的Pixel 8 Pro,在“记录器”应用中支持“摘要”等新功能,在Gboard中引入了“智能回复”功能。Gemini是第一个在MMLU(大规模多任务语言理解)方面优于人类专家的模型。

2024年2月15日,谷歌发布Gemini1.5。Gemini 1.5中的第一个多模态通用模型Gemini 1.5 Pro,可以将稳定处理上下文的上限扩展到100万个tokens,在Kalamang到英语的翻译测试中是最好的模型。

功能服务 编辑本段

复杂推理能力:Gemini1.0具有复杂多模态推理能力,可以帮助理解复杂的书面和视觉信息,可以在海量数据中发现难以分辨的知识。在学习上,它能更好地理解微妙的信息,回答与复杂话题相关的内容,从而能够对数学、物理等复杂学科进行推理。Gemini1.0具备通过阅读、过滤、理解信息,从数十万文档中提取知识的能力,有助于在科学、金融等诸多领域取得新突破。

认识和理解:Gemini1.0采用Transformer架构和高效的注意力机制,可以识别和理解文本、图像、音频等。同时。它能充分理解输入中的信息细节并生成任务。在图像参考方面,Gemini Ultra可以在不借助对象字符识别(OCR)系统的情况下从图像中提取文本。在视频理解方面,Gemini模型是通过将视频编码成大上下文窗口中的一系列帧来完成的。视频帧或图形可以自然地与文本或音频交织在一起,并且可以处理可变的输入分辨率。作为Gemini中最强大的规范,Gemini Ultra在MMLU(大规模多任务语言理解数据集)中的评分高达90.0%,首次超过人类专家。MMLU数据集包含数学、物理、历史、法律、医学、伦理学等57个学科。Gemini Ultra结合考虑模型不确定性的思维链提示方法,生成包含k个样本的思维链。如果有高于预设阈值的共识,则选择这个答案,否则将返回到基于无思维链的最大似然选择的样本。

高级编码能力:Gemini可以理解、解释和生成流行编程语言(如Python、Java、C++和Go)的高质量代码,可以跨语言工作和推理复杂信息,也可以作为高级编码系统的引擎。比如AlphaCode团队打造的AlphaCode2,将Gemini座的推理能力与搜索、工具使用相结合,解决竞争性编程问题。在Codeforces的竞技编程平台上,AlphaCode 2排名进入者前15%。

安全功能:Gemini有全面的安全评估,包括偏差和病毒。Google应用Google Research的对抗性测试技术,根据Google AI原理和严格的产品安全政策添加新的保护措施,综合考虑潜在风险,在开发的每个阶段都进行测试和风险降低。此外,谷歌还与外部专家合作进行压力测试,以确保内容的安全性,并建立了专门的安全分类器来识别和过滤有害内容,以确保Gemini更加安全和包容。此外,Gemini Nano可以在使用特殊芯片的终端设备上运行,这种模式也可以在没有网络连接的情况下使用,不会造成个人数据的丢失。例如,Pixel 8 Pro在录音机应用中使用Gemini Nano来总结会议音频,即使没有网络连接。

关键技术 编辑本段

Gemini最大的亮点之一是独创的多模态大模型,从一开始就对不同的模态进行预训练,并使用额外的多模态数据进行微调,以提高其有效性。Gemini1.0系列内置自研AI超级计算机芯片云TPU v5p,这是谷歌为神经网络设计的专用芯片。优化后可以加快机器学习模型的训练和推理。与TPU v4相比,TPU v5p的浮点运算性能提高了2倍,高带宽内存提高了3倍。TPU v5p可提供459万亿次浮点运算(每秒执行459万亿次浮点运算)的bfloat16(16位浮点数格式)性能或918万亿次浮点运算(每秒执行918万亿次整数运算)的Int8(执行8位整数运算)性能,支持95GB高带宽内存,可以2.76 TB/s的速度传输数据

模特培训:Gemini模型建立在Transfomer解码器上,这些解码器通过架构的改进和模型优化得到增强,从而在Google的张量处理单元上实现大规模稳定训练和优化推理。它们被训练成支持32k的上下文长度并采用有效的注意机制。R&D团队使用TPUv5e和TPUv4来训练Gemini模型。TPU是谷歌为神经网络设计的专用芯片,经过优化后可以加快机器学习模型的训练和推理速度。TPUv4加速器部署在4096芯片“SuperPods”中,每个芯片都连接到一个专用的光开关,4×4×4芯片立方体可以在大约10秒内动态重新配置为任何3D环形拓扑。

Gemini接受了多模态和多语言数据集的训练。预训练数据集使用来自网络文档、书籍和代码的数据,包括图像、音频和视频数据。使用句子标记来提高推理词汇。R&D团队使用启发式规则和基于模型的分类器对所有数据集应用质量过滤器,并执行安全过滤以消除有害内容。为了实现高效的模型训练,Gemini使用了冗余内存复制和快速故障恢复机制。这提高了总吞吐量并缩短了训练时间。在开发过程中遵循负责任的部署原则,通过影响评估、模型策略制定、评估和风险缓解来降低潜在的负面影响。

模型评估

文本:在文本方面,R&D团队将Gemini Pro和Gemini Ultra与一组外部大规模语言模型和谷歌推出的多模态模型PaLM2在一系列基于文本的学术基准上进行比较,涵盖推理、阅读理解、Stem和编码,并做出了报告。报告分别展示了Gemini Pro和Gemini Ultra在MMLU、编码和数学运算方面的数据。得出结论,GeminiPro的性能优于GPT-3.5等推理优化模型,而GeminiUltra优于目前所有模型。

多路模式:在图像理解方面,研究小组在四个不同的功能中评估了Gemini模型:使用字幕或问答任务的高级对象识别(如vqa v2);使用TextVQA和DocVQA等任务进行细粒度转录;图表理解需要使用ChartQA和InfographicVQA任务在空间上理解输入布局;并使用Ai2D、MathVista、MMMU等任务进行多模态推理。在视频理解中,研究团队从每个视频片段中采样了16个等距帧,用于理解和推理。在音频理解方面,研究小组在各种基准上评估了Gemini Nano-1和Gemini Pro模型,并与通用语言模型(USM)、Whisper和large-v3进行了比较,并将不同的语言翻译成英语。评测结果显示,在所有ASR(自动语言识别)和AST(自动语音翻译)任务中,Gemini Pro模型明显优于USM和Whisper模型。

相关影响 编辑本段

作为谷歌和全球发布的第一款多模态模型,Gemini模型是第一款在MMLU上性能超越人类专家的模型。与此同时,谷歌同步发布了最新版本的计算芯片TPU v5p,其性价比是上一代TPU v4的2.3倍。多模态Gemini模型的正式发布,不仅可以拓宽应用场景,还可以带来计算能力需求的不断升级。皮查伊表示,人工智能将增强创造力,扩展知识,促进科学发展,改变全球数十亿人的生活和工作方式。

随着AI创作工具相关技术迭代的不断升级,生产力将迎来更新迭代,AI技术与内容创作的结合将进入实质性阶段,因此内容市场将进入长期繁荣趋势,产业链可能全面受益。同时,Gemini的推出也对人工智能领域产生了影响。a股市场,人工智能板块早盘明显获得主力资金流入,净流入超过11亿元。

Gemini的发布也对芯片厂商造成了一定的影响。2023年12月7日凌晨,AMD CEO宣布推出Instinct MI300X AI加速芯片,并量产MI300A芯片。到12月6日美股收盘时,AMD的股价已经下跌了1.32%,英伟达的股价也下跌了2.28%。

相关争议 编辑本段

滥用风险:2023年7月,Anthropic首席执行官阿莫迪和人工智能先驱Yoshua Bengio等人工智能专家表示,不受控制的人工智能发展将带来严重的社会风险。阿迪莫说:“我特别担心人工智能系统可能在网络安全、核技术、化学尤其是生物领域被大规模滥用。”专家对Gemini功能的评价并不全面和稳定。新墨西哥圣达菲研究所的人工智能研究员梅拉妮·米切尔(Melanie Mitchell)说:Gemini是一个复杂的人工智能系统,但它的能力实际上并没有明显高于GPT-4,它在不同基准上的表现也没有那么稳定。在语言和代码上的表现远好于图像和视频,不符合多模态基本模型在很多任务中发挥普遍而强大作用的标准。斯坦福大学基本模型研究中心主任珀西·梁(Percy Liang)和华盛顿大学计算语言学教授艾米丽·本德(Emily Bender)表示:谷歌用来评估其预计用于这些不同目的的模型的基准无法得到彻底评估。

造假纠纷:2023年12月8日,有外媒公开质疑Gemini“业绩”造假。谷歌在线展示的Gemini可以像人一样快速判断图片中的实物并进行语音反馈,突出了令人惊叹的多模态功能,但从实际情况来看,很难达到这样的效果。Gemini负责人对此回应,否认故意造假,称只是为了简洁而缩短反应时间,并承认这段视频并非实时,而是使用了原镜头中的静止图像帧,然后写了文字提示。

2023年12月18日,微博大V@兰和艾研究局自媒体爆发。在测试Google Gemini的时候,如果你用中文问它的身份,它会坚持说是“百度”。如果输入“小杜”或“萧艾同学”等提示词,可以直接唤醒Gemini,不仅承认自己是小杜或萧艾,还可以询问用户需要什么帮助。12月20日,科技媒体Quantum Bit对Gemini进行了测试。它在Google Vertex AI平台上使用Gemini进行中文对话,发现Gemini-Pro完全带入了百度文心一言模型的身份,Gemini直接表明是百度语言模型。12月18日下午,界面新闻也对Gemini-Pro进行类似身份测试时,发现其已经优化了型号,不再承认与百度有关。

人工智能图像生成器引发争议:AI模型Gemini有根据人物生成图像的功能,但是有用户发现这个功能生成的人物大部分不是白人,而是有色人种。这一功能被批评淡化了白人的代表性,并产生了历史上不准确的形象。2024年2月23日,谷歌高级副总裁普拉巴卡尔·拉加万(Prabhakar Raghavan)就用户反馈在Gemini生成人物图像时出现的问题道歉。Raghavan说,“显然,这个功能没能达到预期的效果。一些生成的图像不准确,甚至令人不愉快。我们感谢用户的反馈,并对该功能未能很好地发挥作用感到抱歉。”对此,谷歌表示,正在采取让Gemini暂时停止运行生成人物形象功能的做法。

附件列表


0

词条内容仅供参考,如果您需要解决具体问题
(尤其在法律、医学等领域),建议您咨询相关领域专业人士。

如果您认为本词条还有待完善,请 编辑

上一篇 uc浏览器    下一篇 紫东太初

标签

同义词

暂无同义词
×