沃资讯
科技 财经 汽车 游戏 数码 资讯 商业

Hugging Face开源SmolVLM模型:20亿参数助力端侧推理新突破

2024-11-27来源:ITBEAR编辑:瑞雪

Hugging Face,这一在人工智能领域备受瞩目的平台,近期宣布了一项重大进展:他们成功研发并开源了一款名为SmolVLM的创新视觉语言模型。此举意味着,广大研究者与技术开发者将能够自由访问该模型的全部资源,包括模型检查点、数据集、训练方法及配套工具,所有内容均遵循Apache 2.0许可协议。

在架构设计上,SmolVLM巧妙融合了Idefics3的先进理念,并选用了性能卓越的SmolLM2 1.7B作为其语言处理的核心。该模型通过引入一项创新的像素混洗技术,实现了视觉信息的高效压缩,压缩率惊人地提升了9倍,从而大幅提高了处理速度。

为了训练这一强大的模型,Hugging Face精心挑选了Cauldron和Docmatix两个大型数据集。他们还对SmolLM2进行了上下文扩展,使其能够轻松应对更长的文本输入以及多张图像的处理需求。这些优化措施不仅显著降低了内存占用,还有效解决了大型模型在普通设备上运行时的性能瓶颈问题。

在内存管理方面,SmolVLM展现出了令人惊叹的能力。它能够将384x384像素的图像块高效编码为81个tokens,这一表现在同类模型中堪称佼佼者。在与知名模型Qwen2-VL的对比测试中,SmolVLM在相同测试图片下的内存占用大幅降低。在多项基准测试中,SmolVLM更是展现出了卓越的性能优势:其预填充吞吐量比Qwen2-VL快了3.3至4.5倍,而生成吞吐量更是达到了惊人的7.5至16倍提升。

2025年我国人形机器人发展迅猛:企业超140家,加速迈向生活与生产新场景
IT之家从新闻发布会获悉,张云明表示:“我们狠抓‘硬实力’,筑牢技术根基。 张云明介绍说,未来将持续推动人形机器人技术创新和迭代升级,以人形机器人为小切口带动具身智能大产业发展。加速“壮生态”,强化国家人工…

2026-01-22

清华团队受鸽眼启发研发SuperTac传感器,助力机器人触觉感知迈向新高度
目前触觉传感系统在空间分辨率、多维感知和信号解读能力等方面仍与人类触觉存在显著差距。 为了充分挖掘传感器的多模态感知潜力,团队还自主构建了拥有8.5 亿参数的触觉语言模型 DOVE,能够理解丰富的触觉信息,…

2026-01-22

埃斯顿2025年业绩预喜:工业机器人发力 净利润有望扭亏为盈
1月21日,埃斯顿(002747.SZ)发布2025年度业绩预告,公司预计2025年度归属于上市公司股东的净利润为3,500万元至5,000万元,上年同期为亏损81,044.45万元。同时,扣除非经常性损益…

2026-01-22