沃资讯
科技 财经 汽车 游戏 数码 资讯 商业

昇腾携手TransMLA架桥梁:零重训实现架构迁移,赋能大模型高效适配

2026-01-13来源:快讯编辑:瑞雪

在人工智能大模型领域,长上下文推理能力一直是研究的关键方向。MLA(Multi-head Latent Attention多头潜在注意力架构)凭借低秩压缩KV缓存的创新设计,在长上下文推理的显存占用和带宽利用方面实现了双重优化,其有效性已在DeepSeek - V2等模型中得到充分验证。然而,当前主流的预训练模型,如LLaMA、Qwen千问等,大多基于GQA架构构建,企业已围绕这些模型投入大量工程优化资源。若要复用MLA架构,需要对模型进行重新训练,成本高昂,这成为MLA大规模应用的一大阻碍。

为解决这一难题,在北京大学鲲鹏昇腾科教创新卓越中心提供的强大算力支持下,北京大学人工智能研究院助理教授张牧涵团队提出了TransMLA转化框架。该框架无需对主流模型进行重新训练,就能实现向MLA架构的迁移,为解决上述问题提供了创新方案。

TransMLA针对GQA向MLA迁移过程中的核心痛点,精准发力,实现了四大技术模块的突破。在结构映射方面,针对分组KV头与MLA单头潜在表示不兼容的问题,通过特定的线性变换,将GQA分组后的K、V向量投影或融合为单一的低秩潜在表示,并配备投影矩阵,确保KV信息能够精准恢复,为迁移工作筑牢基础。在位置编码融合上,提出了RoRoPE技术方案,通过创新适配,让位置编码能够顺畅融入低秩压缩流程,避免了直接对RoPE应用PCA等通用降维方法可能导致的位置信息损失或模型性能下降问题。对于位置信息处理,通过将RoPE中相邻频率的旋转维度进行折叠与融合,在降低参数量的同时,更高效地集中和保留关键位置信息,维持模型在长序列下的语义理解能力。在数值稳定性提升方面,通过均衡Key和Value矩阵在压缩前的范数分布,增强了联合压缩(如PCA)的数值稳定性,减少了信息损失。

在技术落地过程中,昇腾发挥了不可或缺的支撑作用。其高效并行计算架构能够满足结构映射模块多任务协同处理的需求,保障了架构迁移的效率。同时,昇腾优化的存储与缓存体系,为FreqFold的频率信息处理、BKV - PCA的范数均衡提供了稳定的硬件基础,有效提升了KV压缩的稳定性与资源利用效率,助力TransMLA的核心技术得以平稳落地。

实验结果表明,TransMLA在转换过程中展现出显著的性能优势。以裁剪LLaMA - 2 - 7B模型68.75%的KV缓存为例,无需训练的情况下,模型核心性能仅有轻微损失。在32K序列长度、FP16精度下,基于昇腾平台的推理速度相较于业界主流GPU平台有大幅提升。依托开放的生态资源,昇腾积极推动TransMLA稳定支持主流模型部署,并将其集成至vLLM/SGLang等高性能推理框架生态中,方便用户部署,大幅降低了企业落地适配成本。

TransMLA与昇腾的协同创新,成功打通了主流模型与MLA架构之间的鸿沟,充分发挥了昇腾的生态优势。昇腾全链路支持助力TransMLA实现了“零重训、低损失”的目标,保留了模型参数优势,降低了企业基于昇腾进行升级的门槛。这一软硬件协同的典范,为长上下文推理提供了基于昇腾生态的解决方案,推动了自主计算与前沿AI的深度融合,彰显了昇腾在大模型产业中的核心引领作用,为大模型产业依托自主硬件实现降本增效提供了切实可行的路径。

菏泽企业如何选谷歌优化服务商?从这六大维度锁定靠谱合作伙伴
值得注意的是,数据跟踪不能止步于网站访问量,更要关注用户在站内的行为轨迹,这才是优化策略调整的真正依据。山东共赢传媒在菏泽设立分公司,正是为了更贴近本地企业,其简介中提到"本着诚信赢得市场,服务铸造品牌企业理…

2026-01-13

中国移动“入局”卫星互联网:2664颗卫星中低轨协同,构建天地一体化网络
最近几年CAPEX稳中有降,但依然保持在1500亿左右,这为包括卫星互联网在内的新基础设施建设提供了切实保障。 手机直连卫星,特别是 NTN 技术体制,将成为打破这个藩篱的关键,也将成为包括中国移动等在内的电…

2026-01-13

水质五参数监测设备FT-GSZ05:24小时守护供水安全的“智慧卫士”
水质五参数监测设备FT-GSZ05是一款基于物联网技术的智能化、微型化在线水质分析系统。用户可通过电脑或移动终端进行远程实时数据查看、历史曲线分析、超限报警设置与数据报表导出,实现了供水水质的透明化、可追溯化…

2026-01-13

阿里云控股ZStack强强联合,打造“云边一体”生态赋能全球企业数智化
针对这一痛点,新方案构建了分层架构:在地市级节点部署ZStack边缘平台,实现图片实时回传时延小于15ms,并支持数据在本地存储3至6个月,承担初步分析任务;而在网省侧部署阿里云中心云,汇聚关键数据进行AI…

2026-01-13

Shiftall Mutalk 2“鸭嘴兽”麦克风亮相,深夜语音防扰民还能防唇语窃密
IT之家 1 月 13 日消息,据科技媒体 CNET 昨天报道,初创公司 Shiftall 在 CES 2026 期间展示了 Mutalk 2 麦克风,采用“鸭嘴兽”风格设计,戴上之后即使大声说话也不会向外传…

2026-01-13