沃资讯
科技 财经 汽车 游戏 数码 资讯 商业

雷军宣布小米AI创新成果闪耀ICASSP 2026 涵盖多领域技术突破

2026-01-23来源:快讯编辑:瑞雪

近日,小米在人工智能领域取得重大突破,其多项AI创新成果成功入选全球音频领域极具权威性与影响力的国际顶级学术会议ICASSP 2026。ICASSP自1976年在美国费城首次举办以来,已有近50年历史,此次会议将于今年5月在西班牙巴塞罗那举行。小米入选的成果涵盖音频理解、音乐生成评估、通用音频 - 文本预训练、视频到音频合成等多个AI领域。

在音频理解领域,小米团队推出了ACAVCaps数据集。当前主流音频数据集存在“规模大但描述简略”或“描述详尽但规模受限”的局限,ACAVCaps通过创新自动化管线,从多维度、多视角对音频内容进行精细化刻画。它构建了多级自动化标注框架,利用多个专家模型并行提取原始音频中的声音事件、音乐特征等关键元数据,再引入大语言模型并采用思维链推理策略整合信息。该数据集包含约470万条音频 - 文本对,推动音频AI从“特征识别”向“语义理解”发展,且近期将全面开源。

音乐生成评估方面,小米提出了FUSEMOS双编码器架构。现有自动音乐感知评估方法依赖单一音频编码器,捕捉音乐复杂结构与细粒度特征能力有限。FUSEMOS融合CLAP与MERT两大预训练模型,CLAP强化音频与文本语义对齐,MERT有效建模音乐内在结构特征。采用晚期融合策略,引入排名感知复合损失函数,在Musiceval基准上的实验表明,其在关键指标上显著优于现有方法。

通用音频 - 文本预训练领域,小米的GLAP模型实现了跨音频领域(语音/音乐/环境音)与跨语言的音频 - 文本对齐,支持RAG形式的音频搜索。它首次通过单一框架同时优化语音、音乐及声音事件的检索与分类性能,解决了传统CLAP模型领域割裂的问题。在语音检索上成绩优异,还具备多语言泛化能力,无需目标语种微调,在50种语言的关键词识别中展现Zero - shot能力。该模型可直接赋能小米“人车家全生态”中需跨模态理解的场景,降低下游产品线音频AI研发门槛。

在视频到音频合成方面,MeanFlow模型为多模态音频生成任务构建高效基座模型,实现视频同步音效生成场景中推理效率与生成质量的双重突破,还具备跨任务稳定泛化能力。它首次在V2A任务中通过平均速度场建模替代传统流匹配模型的瞬时速度建模,解决推理速度瓶颈,实现一步生成。引入标量重缩放机制缓解失真问题,实验验证其在推理速度大幅提升的同时保障音效生成质量。该模型可直接赋能影视后期、短视频平台等实际场景,推动实时音效生成技术规模化落地。

在检索领域,小米提出统一多任务学习框架,解决传统检索中“找图、找文、意图理解”三个独立训练模型的问题。该框架将三个任务整合到两个模型、一个架构中,文本编码器同时对齐图像和文本语义空间,通过跨注意力机制与NLU模型进行语义交互。此设计节省模型数量、降低系统内存占用,增强模型间语义能力,支持多语言输入,实现跨模态、跨语言高效语义对齐,为小米手机场景下的多模态检索提供轻量化、高性能解决方案,在多个数据集上表现优异。

纯通话需求必看!无流量电话卡怎么选?避坑指南+高性价比套餐推荐
电话卡是传统的11位号码卡,具备通话、短信和上网功能,但用户可选择关闭上网服务或订购无流量套餐;而流量卡则以数据服务为核心,部分卡甚至无法接打电话。需要警惕的是,部分运营商可能将低价流量卡包装成“高性价比套餐…

2026-01-23

平头哥或拆分独立上市:阿里AI战略“算力自持”关键一步启航
与上述公司相比,平头哥的“实战基础”具备更强现实支撑:其产品体系已覆盖AI推理芯片、通用CPU、GPU、SSD主控与IoT端芯片,部署落地于阿里云、大模型平台与终端设备等关键场景。更重要的是,平头哥并非典型…

2026-01-23

农业AI大模型“深耕细作”:垂直领域技术融合与创新实践之路
其大模型系统在国家级园区与大型农场的应用表明,当AI能够综合历史数据、实时感知与领域知识,对作物生长状态做出诊断性认知,并进一步生成可执行的农艺处方(如变量施肥网格图、精准灌溉时间表)时,才能真正实现从“辅…

2026-01-23

宇树科技官宣2025年成绩单:人形机器人出货超5500台,量产突破6500台
1月22日,宇树科技在官方微信公众号发布《关于宇树2025年销量数据的澄清》,披露了2025年实际出货量数据。 宇树指出,过去一个月,网上流传着很多关于宇树科技2025年出货数量的不实信息,宇树此前从未对外告…

2026-01-23

复旦团队研发“纤维芯片”登上《自然》 柔性电子产业迎变革新机遇
复旦大学纤维电子材料与器件研究院彭慧胜/陈培宁团队突破传统芯片集成电路硅基研究范式,率先通过设计多层旋叠架构,在弹性高分子纤维内实现了大规模集成电路。团队通过5年攻关,探索出系统解决方案,发展出可在弹性高分子…

2026-01-23

AutoGluon助手:大语言模型驱动多智能体破解零代码AutoML难题
多智能体协作模式在各种模态中都被证明是有效的,因为该架构分离了在单智能体系统中传统上交织的关注点——理解数据、了解能力、跟踪历史和生成代码。用户可以通过命令行界面调用系统进行快速自动化任务,通过PythonA…

2026-01-23