沃资讯
科技 财经 汽车 游戏 数码 资讯 商业

谷歌Gemini Omni模型发布:跨模态编辑新突破,自然语言指令轻松改大片

2026-05-20来源:快讯编辑:瑞雪

在最新一届Google I/O开发者大会上,谷歌推出了具有突破性意义的Gemini Omni多模态人工智能模型。这款模型不仅能够处理文本、图像、音频和视频等多种输入形式,还具备跨模态内容生成与编辑能力,标志着人工智能技术在多媒体处理领域迈出了重要一步。

据谷歌介绍,Gemini Omni在音频处理方面已实现初步突破。虽然目前仅支持语音输入功能,但公司计划在短期内扩展更多类型的音频输入能力,进一步丰富用户交互方式。这一特性使其在语音助手、智能客服等场景中具有广泛应用潜力。

该模型的核心优势体现在其深度视频编辑功能上。用户只需通过自然语言指令,即可对视频内容进行精细修改,包括添加或删除特定对象、调整摄像机视角、改变场景环境与艺术风格等操作。这种交互方式显著降低了视频创作的专业门槛,使普通用户也能轻松完成高质量视频制作。

在内容生成质量方面,Gemini Omni展现出强大的逻辑推理能力。通过对物理规律的理解和跨学科知识的整合,模型生成的视频在角色行为、场景转换和视觉叙事上保持高度连贯性,甚至能够根据上下文自动推演后续情节发展。更引人注目的是,用户可以创建个性化数字分身,并将其自然融入视频场景中。

针对生成内容的安全性问题,谷歌同步推出了技术保障措施。所有通过Gemini Omni生成的视频都会自动嵌入SynthID数字水印,这种隐形标记可通过Google搜索和Chrome浏览器进行验证,有效防止虚假信息的传播。这一举措体现了谷歌在推动AI技术创新的同时,对内容真实性的高度重视。

在产品落地方面,首发版本Gemini Omni Flash已通过Gemini应用向个人用户开放。拥有Google AI Plus/Pro/Ultra订阅服务的用户,以及YouTube Shorts混剪创作者和YouTube Create应用用户,均可免费体验这项新技术。企业客户稍后将获得API接口权限,以便将模型能力集成到自有产品中。

Google DeepMind负责人哈萨比斯在发布会上强调,Gemini Omni代表了人工智能发展的重要方向。通过整合多模态处理能力和复杂场景理解,该模型正在推动AI系统从执行特定任务向具备通用认知能力演进,为构建更智能的人机协作模式奠定了基础。

跨境直播互动卡顿?三招教你轻松化解,让粉丝畅聊无延迟!
普通网络走的是公共通道,高峰期一堵,数据就排队,延迟自然飙升。 一个小建议跨境直播的互动质量,很大程度取决于网络路径的选择。开播前检查网络、设置低延迟模式、选对传输工具——做好这三件事,你就能跟粉丝“面对面”…

2026-05-20

无线麦克风出口日本必看:TELEC认证全流程解析与核心要点汇总
无线麦克风(发射器)属于主动发射无线电信号的设备,出口日本 必须办理 TELEC 认证(技适认证),这是日本《电波法》的强制性要求。 证书一般长期有效,但若无线模块、天线、硬件或影响射频的软件发生实质变更…

2026-05-20

军工通讯毫米波电缆组件怎么选?上海淇玥以技术定制与严控质量成优选
选择毫米波电缆组件厂家时,需重点考虑:1)产品适配性:组件频段、损耗、相位稳定性是否匹配项目需求(如雷达需低相位噪声,卫星需抗辐射设计);2)实力稳定性:厂家是否具备持续供货能力与质量追溯体系(可通过合作…

2026-05-20

九章云极缪旭:AI行业迎拐点,企业AI核心转向“组织智能基础设施”新赛道
在回答企业部署Agent系统的最大技术门槛时,缪旭给出了一个清晰的判断:模型能力决定智能上限,但企业真正关心的是一套综合的系统工程能力。 企业Agent的核心问题不是模型会不会回答,而是系统能不能长期、低成…

2026-05-20