沃资讯
科技 财经 汽车 游戏 数码 资讯 商业

阿里智能引擎团队突破AI生图速度极限:2步生成2K高清图 5秒极速出片

2026-01-30来源:快讯编辑:瑞雪

在AI图像生成领域,主流扩散模型常因生成速度缓慢而让用户感到不便。如今,阿里智能引擎团队带来了一项突破性进展——他们成功将图像生成时间大幅缩短,仅需5秒即可产出4张2K高清大图,彻底颠覆了传统等待体验。

该团队针对Qwen最新开源模型,将原本需要80-100步前向计算的SOTA压缩技术,直接优化至仅需2步完成。这一改进使图像生成效率提升40倍,过去需要近一分钟才能生成的图片,如今眨眼间即可呈现。这一成果不仅解决了传统模型"磨叽"的痛点,更为实时创作场景提供了技术支撑。

技术突破的背后,是团队对蒸馏方案的深度革新。早期轨迹蒸馏方法存在显著缺陷:当迭代步数降低时,生成的图像会出现模糊、细节扭曲等问题,尤其在文字、人物五官等精细区域表现不佳。研究发现,这类方法对所有图像区域"一视同仁"的约束方式,导致细节部分因占比低而学习不足。

为突破这一瓶颈,团队引入基于概率空间的DMD2算法。该方案将约束从样本空间转移至概率空间,通过Reverse-KL损失函数设计,让模型自主生成图片后接受教师模型指导。这种"学生生成-教师指导"的模式,显著提升了生成图像的细节合理性,成为当前扩散步数蒸馏的主流策略。

面对2步蒸馏场景下的分布退化问题,团队采用PCM蒸馏进行模型热启动。实验数据显示,经过热启动的模型在形体扭曲问题上改善明显。通过对比可见,直接使用DMD2训练的模型存在构图不合理现象,而热启动后的模型则能生成更自然的图像结构。

为进一步提升细节表现力,团队创新性地将对抗学习(GAN)引入训练流程。通过混合高质量真实数据与教师生成图、引入DINO特征提取器、调整损失函数权重等优化措施,使模型在苔藓、动物毛发等复杂纹理上的生成效果显著提升。对比实验表明,增加GAN监督后的模型,其画面质感和细节层次均达到新高度。

目前,该团队的优化成果已通过Checkpoint形式在HuggingFace和ModelScope平台开放下载,同时集成至呜哩AI平台供开发者调用。这项突破不仅展现了团队在工程优化领域的深厚积累,更体现了其"技术开放共享"的理念——此前他们已贡献Havenask、RTP-LLM等多个优秀开源项目。

尽管当前模型在多数场景已能媲美原始版本,但在处理复杂场景时仍存在提升空间。团队表示将持续迭代技术,未来计划推出更多扩散加速方案,并将持续开源模型权重。这项突破正在重新定义AI图像生成的效率标准,为创意工作者提供更高效的创作工具。

国家电网无人机巡检:破解偏远地区难题,赋能电力线路智能运维新突破
多模态大模型的应用进一步强化风险智能研判,有效解决了小模型识别易受干扰、空间感知不足等问题,结合《配网无人机工程验收样本多模态标注规程》,实现对复杂场景下各类缺陷和隐患的精准识别与风险评估。“输电小卫”系统…

2026-01-30

名创优品布局未来:开发“YOYO”人形机器人,AI与IP融合开启新战略
IT之家 1 月 30 日消息,今日,名创优品“MINISO 2026全球合作伙伴大会”在广州举行。《每日经济新闻》记者在现场获悉,名创优品创始人叶国富在发表演讲时表示,公司孵化的自有 IP“YOYO”增长…

2026-01-30

商汤开源多模态模型SenseNova-MARS,搜索推理能力超越Gemini 3 Pro等专有模型
该模型还能处理超长步骤的多模态推理,和超过三种工具调用,自动裁剪分析细节、搜索相关研究数据,快速验证假设,得出关键判断。 商汤提出了新型的多模态智能推理与搜索模型,该模型能够在多轮推理过程中主动运用图像搜索…

2026-01-30

2026年第4周国内手机市场格局生变 华为凭新品生态优势重夺榜首
根据市场数据,自2025年11月底上市的Mate 80系列开售18天内销量即突破百万台,带动华为在2025年末连续登顶中国市场。产品力方面,华为Mate 80系列全系首发搭载鸿蒙6操作系统,并搭载了新一代自…

2026-01-30