沃资讯
科技 财经 汽车 游戏 数码 资讯 商业

雷军宣布小米多项AI成果入选ICASSP 2026 涵盖音频视频多领域创新突破

2026-01-22来源:快讯编辑:瑞雪

近日,小米在人工智能领域取得重大突破,其多项AI创新成果成功入选国际顶级学术会议ICASSP 2026。ICASSP作为全球音频领域最具权威性与影响力的学术会议之一,自1976年在美国费城首次举办以来,已有近50年历史。此次会议将于今年5月在西班牙巴塞罗那举行,小米的入选成果涵盖了音频理解、音乐生成评估、通用音频-文本预训练、视频到音频合成等多个AI领域。

在音频理解领域,小米推出了ACAVCaps数据集,旨在突破现有数据集在规模与描述粒度上难以兼得的瓶颈。当前主流数据集普遍存在“规模大但描述简略”或“描述详尽但规模受限”的问题。ACAVCaps通过创新的自动化管线,从多维度、多视角对音频内容进行精细化刻画。该数据集构建了一套多级自动化标注框架,利用多个专家模型并行提取原始音频中的声音事件、音乐特征、说话人属性及语音内容等关键元数据,并引入大语言模型(LLM)和思维链推理策略,将碎片化的结构化信息进行逻辑整合。ACAVCaps包含约470万条音频-文本对,推动了音频AI从简单的“特征识别”向深度的“语义理解”发展,该数据集近期将全面开源。

在联邦学习领域,小米提出了FedDCG方法,以解决视觉语言模型在高效微调中面临的域泛化和类别泛化问题。传统方法通常单独处理未见的类别或未见的域,导致在测试数据同时包含未见类别和未见域的复杂场景下性能受限。FedDCG通过域分组策略和类特定协作训练机制,首次在联邦学习设置下联合解决类别和域泛化问题。该方法在Office-Home和MiniDomainNet等数据集上的实验表明,在ImageNet-R和ImageNet-A等零样本评估基准上均优于当前最先进的基线方法,证明了其在数据稀缺场景下的有效性,适用于移动端智能处理等资源受限场景。

在音乐生成评估领域,小米提出了FUSEMOS双编码器架构,以提升文本到音乐(TTM)生成系统的感知评估能力。现有自动音乐感知评估方法主要依赖单一音频编码器提取音频特征,难以捕捉音乐中复杂结构与细粒度特征。FUSEMOS融合了CLAP与MERT两大预训练模型,通过晚期融合策略和排名感知复合损失函数,实现了更精准、更贴近人类听觉感知的评估。在Musiceval基准上的实验结果表明,FUSEMOS在均方误差和排序相关性等关键指标上均显著优于现有方法。

在通用音频-文本预训练领域,小米开发的GLAP模型实现了跨音频领域(语音/音乐/环境音)与跨语言的音频-文本对齐,支持RAG形式的音频搜索。GLAP首次通过单一框架同时优化语音、音乐及声音事件的检索与分类性能,解决了传统CLAP模型领域割裂的问题。该模型在LibriSpeech和AISHELL-2语音检索上达到约94%与99%的recall@1,同时在AudioCaps等声音检索基准保持SOTA竞争力。GLAP具备多语言泛化能力,无需目标语种微调,即可在50种语言的关键词识别中展现Zero-shot能力,可直接赋能小米“人车家全生态”中的跨模态理解场景。

在视频到音频合成领域,小米提出的MeanFlow模型实现了视频同步音效生成场景中推理效率与生成质量的双重突破。MeanFlow首次在V2A任务中通过平均速度场建模替代传统流匹配模型的瞬时速度建模,解决了多步迭代采样导致的推理速度瓶颈,实现推理阶段的一步生成。针对无分类器引导应用时易出现的一步生成失真问题,创新引入标量重缩放机制,有效缓解失真现象。实验验证表明,该模型在实现推理速度大幅提升的同时,可稳定保持优质的音效输出,确保音视频语义对齐与时间同步性,综合性能处于领域领先水平。

在多模态检索领域,小米提出了一种统一的多任务学习框架,将“找图、找文、意图理解”这三个任务整合到两个模型中。传统检索中,这三个任务通常是独立训练的模型,导致同一查询被重复编码检索,且语义空间未对齐。该框架通过文本编码器同时对齐图像和文本的语义空间,并通过跨注意力机制与NLU模型进行语义交互,实现意图感知和语义增强。该框架在找图与找文任务上均达到或超过现有最优方法,在多语言测试中也表现出色,为小米手机场景下的多模态检索提供了轻量化、高性能的解决方案。

苹果拟升级Siri:推出系统级AI聊天机器人Campos,或于WWDC亮相
【环球网科技综合报道】1月22日消息,彭博社记者马克·古尔曼称,苹果公司为应对由OpenAI和谷歌主导的生成式AI竞争,计划在今年晚些时候对旗下语音助手Siri进行重大升级,将其改造为公司首个系统级AI聊天…

2026-01-22

数学云:数字孪生工厂建设,从单点场景到企业级孪生体系构建之路
数字孪生是否有价值,不取决于模型多精致,而取决于是否真正嵌入企业的业务系统与管理逻辑。 我们通过融合BIM、GIS与工业建模技术,构建与真实工厂结构高度一致的空间数字底座,使设备、产线、能源、人员、物流等对…

2026-01-22

院士力挺智能体崛起:从问答到执行,开启科技智慧涌现新篇章
在近日举办的顶级科技峰会上,多位院士共同点赞了一个关键词——智能体(AI Agent)。 02 院士视角:为什么它是“未来科技新范式”?院士在点赞的同时也指出,未来的编程将从“手动敲代码”转向“Prompt…

2026-01-22

华为浏览器升级新功能:一键隐藏干扰元素,实时拦截恶意网址更安心
近日,华为浏览器带来更新,推出“隐藏网页干扰元素”功能,安全防护能力升级,为用户在浏览第三方网页时带来更纯净、更安全的上网体验。目前,该功能已全面上线,华为浏览器用户只需将软件升级至最新版本,即可体验“隐藏网…

2026-01-22

中国6G研发迈入新阶段:首阶段试验收官,第二阶段试验已启动
1月21日,国新办举行新闻发布会,介绍2025年工业和信息化发展成效。 图源:科技日报 工业和信息化部新闻发言人、信息通信发展司司长谢存在会上介绍,目前,我国6G研发已完成第一阶段技术试验,形成了超300项关…

2026-01-22

苹果悄然推进AI胸针研发:或配双摄三麦 预计2027年面世存变数
目前,该胸针尚未确定内置连接方式,不过后续开发中可能会做出改变。 如果这款AI胸针最终发布,它很可能将运行苹果计划在iOS 27中推出的全新Siri聊天机器人。目前尚不清楚苹果是否计划单独出售这款别针,还是将…

2026-01-22