沃资讯
科技 财经 汽车 游戏 数码 资讯 商业

雷军宣布小米AI创新成果闪耀ICASSP 2026,多领域技术突破引关注

2026-01-22来源:天脉网编辑:瑞雪

小米在人工智能领域再次取得重大突破,其多项AI创新成果成功入选国际顶级学术会议ICASSP 2026。这一全球音频领域最具权威性的学术盛会将于今年5月在西班牙巴塞罗那举行,首次会议可追溯至1976年美国费城。此次入选的成果涵盖音频理解、音乐生成评估、联邦学习泛化、跨模态预训练等多个前沿方向,展现了小米在AI技术研发上的深厚积累。

在音频理解领域,小米团队提出的ACAVCaps数据集开创了精细化标注新范式。该数据集通过多专家模型并行提取声音事件、音乐特征等元数据,并引入大语言模型进行逻辑整合,使标注文本从简单标签升级为具备上下文关系的自然语言。这项创新解决了传统数据集"规模大但描述简略"或"描述详尽但规模受限"的矛盾,包含约470万条音频-文本对,近期将全面开源。研究团队表示,这将推动音频AI从特征识别向语义理解跃迁。

联邦学习领域迎来重要突破,小米提出的FedDCG框架首次在联邦学习设置下联合解决类别和域泛化问题。该框架通过域分组策略避免决策边界混淆,采用类特定协作训练机制增强模型鲁棒性。实验数据显示,在Office-Home数据集上训练的模型在ImageNet-R测试中准确率达70.30%,较次优方法提升近3个百分点。这项技术特别适用于跨域图像分类和隐私保护场景,为移动端智能处理提供了高效解决方案。

音乐生成评估领域,小米研发的FUSEMOS双编码器架构实现了感知评估的质的飞跃。该架构融合CLAP的语义对齐能力和MERT的音乐结构建模能力,通过晚期融合策略保留模态独立性,并引入排名感知复合损失函数。在Musiceval基准测试中,新方法在均方误差和排序相关性等关键指标上显著优于现有技术,为文本到音乐生成系统提供了更贴近人类听觉的评估标准。

跨模态预训练方面,GLAP模型实现了跨音频领域与跨语言的双重突破。该模型通过单一框架同时优化语音、音乐及声音事件的检索性能,在LibriSpeech英文语音检索中recall@1达94%,AISHELL-2中文语音检索达99%。更引人注目的是,GLAP具备50种语言的零样本关键词识别能力,可直接赋能小米"人车家全生态"中的语音交互、多模指令理解等场景,显著降低下游产品线的研发门槛。

视频到音频合成领域,MeanFlow模型通过平均速度场建模实现推理效率的革命性提升。该模型摒弃传统多步迭代采样,实现8秒音频仅需0.056秒的极速生成,同时保持SOTA级的音效质量。实验表明,其推理速度较现有方法提升2至500倍,且能自然延伸至文本生音效任务。这项技术将为影视配音、短视频创作、虚拟形象交互等领域带来实时音效生成的新可能。

多模态检索领域,小米研发的统一多任务学习框架实现了"找图、找文、意图理解"的深度整合。该框架通过单个文本编码器同时对齐图像和文本语义空间,并引入跨注意力机制与NLU模型交互。实验显示,新方法在多语言测试中平均召回率达93.3%-94.8%,较主流模型提升1.1%-2.7个百分点,同时将模型复杂度降低40%以上,为手机场景下的多模态检索提供了轻量化解决方案。

太空光伏:从卫星供电到太空算力,开启宇宙能源新征程
目前其在太空极端环境下的长期稳定性仍有待验证,但已有不少企业与研究机构投入研发,并探索与晶硅电池结合的叠层技术,有望成为未来太空供电的重要技术路径。随着人工智能等高性能计算需求激增,在地面面临能源与散热瓶颈的…

2026-01-22

2025企业微信AI客服实战:3步配置+场景优化,降本增效有妙招
企业微信2025年推出的智能机器人,结合企业微信服务商微盛·企微管家的AI工具,可增加多轮对话、情绪识别、业务系统对接等核心能力——多轮对话能处理“我要退货,已经寄回去了,什么时候退款?”用微盛·企微管家的企…

2026-01-22

苹果Siri升级聊天机器人:2026年亮相,实用安全能否破局行业痛点?
尽管苹果在功能上迎来颠覆性升级,但用户与Siri的交互方式将保持不变,仍可通过语音召唤等原有模式进行操作。新Siri将依托苹果基础模型与Gemini训练,新增对话记忆能力与全场景应用调用功能,同时延续 “…

2026-01-22

山东科技大学组建研究生工程师小队:让创新成果走出“书架”扎根生产一线
对此,该校以“项目导向”为抓手,探索企业“出题”、学生“解题”育人模式,依托校企合作单位、产业学院等,组建一批大学生科创基地、转化基地,开展了创新项目互选、创新金点子推介、揭榜挂帅等特色活动,让工程师小…

2026-01-22