沃资讯
科技 财经 汽车 游戏 数码 资讯 商业

Meta Llama 4口碑翻车:开源大模型竞争加剧下的失速之痛?

2025-04-08来源:ITBEAR编辑:瑞雪

在人工智能领域,开源大模型Llama 4的发布风波持续发酵,引发广泛关注和讨论。4月8日,备受瞩目的大模型评测平台Chatbot Arena发表了一份措辞严厉的声明,针对社群对meta新模型Llama 4排名的质疑,承诺将公开2000多场真人对比测试的完整数据,并罕见地点名meta。

Chatbot Arena指出,meta应该更清楚地表明“Llama-4-Maverick-03-26-Experimental”是一个针对人类偏好优化的定制化模型。平台正在更新排行榜的策略,以避免此类混淆再次发生。这一声明不仅是对当前事件的澄清,更是对整个大模型行业的一次警示。

Chatbot Arena由加州大学伯克利分校发起,通过真人盲测机制,让开发者和AI爱好者在平台上用相同问题向两款模型提问,对比回答内容并投票打分。这种独特的评测方式使其成为外界最为信赖的大模型排行榜之一。模型在Chatbot Arena排行榜的排名,直接影响其在媒体和开发者群体中的口碑与采纳率。

因此,当meta在4月5日发布最新一代开源大模型Llama 4,并迅速冲上Chatbot Arena排行榜第二,仅次于Google前脚发布的Gemini 2.5 Pro时,引起了所有人的好奇和期待。然而,很快社区发现,这一版本是未公开、定制化调优的实验模型,而非meta开源的正式版。争议由此爆发:这是否构成“刷榜”?Chatbot Arena是否被利用为营销工具?meta为何要如此操作?

不仅如此,在部分官方未展示的专业基准测试中,Llama 4的表现也不尽如人意,几乎垫底。许多首批尝试的用户在Reddit等社交平台上表达了失望,指出Llama 4在编程能力上的不足。有用户提到:“考虑到Llama-4-Maverick有402B的参数量,我为什么不直接使用DeepSeek-V3-0324呢?或者Qwen-QwQ-32B可能更合适——虽然性能相似,但它的参数量只有32B。”

回溯至4月5日,meta在官方博客上宣布Llama 4系列模型面向社区开源,包括Llama 4 Scout、Llama 4 Maverick以及仍在训练中的“教师模型”Llama 4 Behemoth,均首次采用混合专家(MoE)架构。其中,最受关注的Maverick版本拥有128个“专家”,170亿活跃参数(总参数为4000亿),meta将其描述为“同类最佳的多模态模型”。

然而,Llama 4发布后不久,情况便急转直下。首批用户对Llama 4的表现并不满意,尤其是在需要代码能力和严谨逻辑推理的场景中,Llama 4的表现并未兑现超越GPT、DeepSeek的承诺。在Aider Chat提供的Polyglot编程测试中,Maverick版本的正确率仅为16%,处于排行榜末尾,与其庞大的参数体量完全不符,甚至落后于规模更小的开源模型,如Google Gamma。

面对风评下滑和严厉质疑,meta团队迅速出面澄清。经手“后训练”的meta GenAI成员虞立成(Licheng Yu)表示,虚心聆听各方反馈,并希望能在下一版有所提升。他强调,meta从未为了刷点而针对测试集进行过度拟合。同时,meta GenAI的副总裁Ahmad Al-Dahle也在社交媒体上明确表示,meta没有在测试集上训练Llama 4。

尽管这些回应试图平息争议,但Llama 4的真实能力仍备受质疑。作为开源阵营中曾经“最有希望挑战OpenAI”的旗手,Llama 4原本承载着开发者与产业界的高度期待。然而,它在发布一周内便从“高光”跌入“信任危机”,成为大模型竞赛中一次罕见的口碑“滑铁卢”。

追根究底,Llama 4的问题不在于造假,而在于开源大模型竞争加剧下的失速。过去两年,meta凭借Llama 2和Llama 3逐步在开源模型市场上建立起“领先、可靠”的认知。然而,随着DeepSeek V3/R1的发布,开源与闭源模型的差距被扭转,且开源模型的发展速度大大加快。这让原本作为“开源领导者”的Llama面临更大的压力。

meta也未能控制住动作的变形。Llama-4-Maverick-03-26-Experimental针对对话模式的优化本身无可厚非,但“首发”Chatbot Arena的目的却路人皆知。在参数规模膨胀、架构复杂化(MoE)的同时,Llama 4很可能没有留出足够的测试和改进时间,才导致发布后不稳定的性能表现。

光联携手利元亨,共话新能源制造AI时代网络新路径与新机遇
聚焦企业在全球范围内的多分支互联与云IDC接入问题,方案基于光联自建全球光纤骨干网络及华为SD-WAN设备,支持MPLS、Internet与4G/5G等多种链路融合,并可弹性部署多种拓扑模型,实现总部、分支…

2025-11-15

TLKS-PMG-TP装置:全天候精准监测,守护输电线路“体温”安全
TLKS-PMG-TP输电线路线夹及导线温度在线监测装置应运而生,以其高精度测温与全时段监测能力,为输电线路装上了一双“精准温控眼”。 TLKS-PMG-TP装置不仅提供实时监测,更实现了输电线路运维的智能…

2025-11-15

Gartner发布2026十大技术趋势:AI主导变革,从“大而全”迈向“精而实”
近日,商业与技术洞察公司Gartner发布了2026年十大战略技术趋势:AI超级计算平台、多智能体系统、特定领域语言模型、AI安全平台、AI原生开发平台、机密计算、物理AI、前置式主动网络安全、数字溯源,以及…

2025-11-14

广电卡适配指南:哪些手机能用?这些旗舰机型可能不兼容!
华为P50系列是个特例,即便是4G版,也能通过软件方案支持广电5G。中国广电表示,近六年主流手机型号均已升级适配广电网络,98%以上的新入网5G手机支持700MHz频段。 判断你的手机是否适配广电卡,不仅…

2025-11-13

Kernelcom“智能键盘”来袭:12.5英寸超宽屏,AMD/Intel双版本可选
快科技11月12日消息,近日一款名为Kernelcom的设备正在Kickstarter上众筹,虽然其本质上是一款功能完备的笔记本电脑,但制造商还是将其宣传为“智能键盘”。 这款设备最大的特点是其12.5英寸超…

2025-11-13

山海星耀攻克超低轨难题,以硬核技术逐梦空天新蓝海
天虎科技了解到,虽然当前市场上有一些针对超低轨的吸气式推进器,但从气体收集率、推进效率、测试工作环境等维度上,山海星耀的电推进器均具备一定优势。 蔡东升表示,目前该产品是商业航天公司首次实现了“高真空运行环…

2025-11-12

Viwoods发布AiPaper Reader电纸书:6.13英寸墨水屏搭载AI阅读互动功能
IT之家 11 月 11 日消息,据科技媒体 NoteBook Check 今天报道,Viwoods 现已推出 AiPaper Reader电纸书,运行 Android 16 操作系统,机身配备专用 AI …

2025-11-12

海外游语言障碍终结者:时空壶新T1离线翻译,精准适配复杂场景
时空壶新T1翻译机凭借端侧AI翻译技术与全面的离线功能配置,成为假期中解决无网沟通难题的关键设备,其技术设计精准匹配了海外旅行中的复杂网络环境。这种“离线核心+在线补充”的双模式设计,精准命中了国庆海外游中“…

2025-11-11

苹果换新机数据迁移难?5种实用方法,简单操作轻松搞定数据转移!
方法一、“快速开始”直接传输这是苹果官方自带的工具,专门针对新手机未激活时迁移旧机数据设计,能直接把旧 iPhone的几乎所有数据完整搬到新手机,包括照片、联系人、短信、视频、APP等,不用手动筛选,适合换…

2025-11-11

星闪E2.0亮相!华为FreeBuds Pro 5开启无线音频新篇,重塑TWS标准
于是,我们得到了星闪1.0,而在此基础上,华为今年又推出了星闪E2.0,将此前星闪1.0在音频传输上存在的一些问题彻底解决,并且做了全链路的升级。聊完星闪E2.0,接下来我们再聊聊FreeBuds Pro …

2025-11-11