谷歌发布Gemini 1.0：全新多模态模型引领AI技术风潮-资讯-沃资讯

【沃资讯】12月7日消息，谷歌公司于北京时间7日凌晨发布了其最新的多模态模型——Gemini。这一模型被宣称是谷歌迄今为止最强大、最通用的模型，具备归纳和流畅理解、操作和组合文本、代码、音频、图像和视频等不同类型信息的能力。

Gemini 1.0推出了三个不同尺寸的模型，分别为Ultra、Pro和Nano。其中，Ultra是规模最大、功能最强大的模型，适用于高度复杂的任务;Pro则是适用于各种任务的最佳模型;而Nano则是端侧设备上最高效的模型。

据沃资讯了解，Gemini目前已经应用于多个谷歌产品和平台，包括聊天机器人Bard和智能手机Pixel 8 Pro。未来几个月，Gemini将进一步应用于Google旗下更多产品和服务，例如Search、Ads、Chrome和Duet AI。

Gemini在性能上展现出了令人瞩目的特点。Gemini Ultra在大规模多任务语言理解(MMLU)测试中的得分率为90.0%，超过了人类专家，而GPT-4的得分率为86.4%。在图像理解方面，Gemini Ultra在新的MMM基准测试中的得分率为59.4%，明显优于GPT-4V的得分率56.8%。

Gemini不仅仅在语言理解方面表现优异，还在复杂推理能力上展现出强大的实力。例如，在阅读、过滤和理解信息的过程中，Gemini可以从数十万份文件中提取见解，为科学家处理大量研究论文提供了便利。在一次演示中，Gemini在短短的午餐时间内帮助科学家阅读了20万篇论文，并呈现了更新数据后的新图表。

Gemini 1.0的应用还不仅限于文本理解，它还能理解、解释和生成Python、Java、C++、Go等编程语言的高质量代码。谷歌表示，Gemini的多模态能力有助于更好地理解具有微妙差异的信息，为回答与复杂主题相关的问题提供了更多可能性。

谷歌同时发布了Cloud TPU v5p，这是一款功能最强大、效率最高、可扩展性最强的TPU系统，旨在支持训练前沿AI模型。这将加速Gemini的开发，帮助开发者和企业客户更快地训练大规模生成式AI模型，从而更迅速地推出新产品和新功能。Gemini 1.0的API将于12月13日起通过Google AI Studio或Google Cloud Vertex AI提供给开发者和企业客户。