沃资讯
科技 财经 汽车 游戏 数码 资讯 商业

蚂蚁集团开源全模态大模型Ming-Flash-Omni 2.0,多领域能力领先且支持在线体验

2026-02-12来源:快讯编辑:瑞雪

蚂蚁集团近日宣布开源其最新研发的全模态大模型——Ming-Flash-Omni 2.0,这一成果标志着全场景音频统一生成技术迈入新阶段。该模型在视觉语言理解、语音可控生成、图像编辑等多个领域展现出卓越性能,多项公开基准测试结果显示其关键能力已达到行业领先水平。

作为业界首个实现全场景音频统一生成的模型,Ming-Flash-Omni 2.0突破性地在单条音轨中同步生成语音、环境音效与音乐元素。用户通过自然语言指令即可精准调控音色、语速、语调、音量及情绪参数,甚至支持方言定制。该模型在推理效率上实现重大突破,3.1Hz的极低帧率配合分钟级长音频的实时高保真生成能力,在成本控制与处理速度方面均处于行业前沿。

技术团队通过系统性训练优化,将模型能力推向新高度。基于Ling-2.0架构(MoE,100B-A6B)构建的模型,在视觉识别领域融合亿级细粒度数据与难例训练策略,显著提升对近缘物种、工艺细节等复杂对象的识别精度;音频生成模块支持零样本音色克隆技术,实现语音、音效、音乐的同轨无缝合成;图像编辑功能则强化了复杂场景的稳定性,新增光影调整、场景替换等实用功能,即使在动态画面中仍能保持细节真实度。

全模态技术的核心挑战在于平衡通用性与专业性。蚂蚁集团通过持续迭代Ming-Omni系列模型,逐步构建起统一的多模态能力底座。早期版本聚焦基础能力整合,中期版本验证规模效应,最新2.0版本则通过大规模数据训练与架构优化,在保持开源模型开放性的同时,部分领域性能已超越专用模型。

此次开源将模型权重与推理代码同步发布至Hugging Face等社区,开发者可通过蚂蚁百灵官方平台Ling Studio在线体验。百灵模型负责人周俊指出,统一架构设计使视觉、语音、生成能力可高效复用,大幅降低多模型串联的开发成本。技术团队正持续优化视频时序理解、长音频实时生成等关键模块,并完善配套工具链与评测体系。

该模型的开放策略引发行业广泛关注。通过提供可复用的技术底座,蚂蚁集团为端到端多模态应用开发开辟了新路径。目前已有开发者基于该框架构建智能教育、内容创作等领域的创新应用,验证了其在降低技术门槛、提升开发效率方面的显著价值。

马斯克最新访谈:直面“急性痛苦”,解锁未来科技与生存新图景
在这场信息密度极高的谈话中,马斯克不仅揭示了“无限金钱漏洞”的实现路径,更以前所未有的坦诚剖析了中美制造业的鸿沟,以及在硅基智能崛起的终局中,人类该如何自处。 他不仅在造火箭,他是在为人类这种“碳基生物”,在…

2026-02-12

光伏支架的“隐形卫士”:神龙拜耳拉杆守护电站安全与收益
在光伏电站的庞大阵列中,每一块光伏板都需要被稳固、精准地支撑起来,以应对数十年的风雨考验。这其中,连接和固定这些支撑结构的关键“骨骼”部件,就是光伏支架拉杆。 光伏支架拉杆,顾名思义,是用于强化光伏支架结构…

2026-02-12

2026年单片机与物联网定制开发优质供应商榜单,这些厂家值得关注!
具体测评依据及每个评分项占比为:技术实力占比 30%,主要考察厂家拥有的核心技术、研发能力以及技术创新成果等;合作案例占比25%,查看其过往合作项目的规模、难度以及涉及的行业领域;服务质量占比 20%,包…

2026-02-12

6G浪潮奔涌向前 中国电信以创新驱动拓展产业新生态
从社会应用价值来看,6G技术实现偏远地区、海洋、极地、空中等地面网络难以覆盖区域的通信保障,同时,6G与AI、大数据、云计算、物联网等技术的深度融合,将推动各领域的智能化升级,提升社会治理效能。在北京,中…

2026-02-12

花旗看好百度前景:萝卜快跑迪拜落地,全球布局加速释放AI价值
来源:滚动播报花旗表示,百度通过优步(Uber)将萝卜快跑(ApolloGo)引入迪拜的最新进展是又一重要里程碑,公司有望通过展示其人工智能能力进一步释放价值。包括AliciaYap在内的分析师在报告中写道,…

2026-02-11