Meta Llama 4口碑翻车：开源大模型竞争加剧下的失速之痛？-科技-沃资讯

在人工智能领域，开源大模型Llama 4的发布风波持续发酵，引发广泛关注和讨论。4月8日，备受瞩目的大模型评测平台Chatbot Arena发表了一份措辞严厉的声明，针对社群对meta新模型Llama 4排名的质疑，承诺将公开2000多场真人对比测试的完整数据，并罕见地点名meta。

Chatbot Arena指出，meta应该更清楚地表明“Llama-4-Maverick-03-26-Experimental”是一个针对人类偏好优化的定制化模型。平台正在更新排行榜的策略，以避免此类混淆再次发生。这一声明不仅是对当前事件的澄清，更是对整个大模型行业的一次警示。

Chatbot Arena由加州大学伯克利分校发起，通过真人盲测机制，让开发者和AI爱好者在平台上用相同问题向两款模型提问，对比回答内容并投票打分。这种独特的评测方式使其成为外界最为信赖的大模型排行榜之一。模型在Chatbot Arena排行榜的排名，直接影响其在媒体和开发者群体中的口碑与采纳率。

因此，当meta在4月5日发布最新一代开源大模型Llama 4，并迅速冲上Chatbot Arena排行榜第二，仅次于Google前脚发布的Gemini 2.5 Pro时，引起了所有人的好奇和期待。然而，很快社区发现，这一版本是未公开、定制化调优的实验模型，而非meta开源的正式版。争议由此爆发：这是否构成“刷榜”？Chatbot Arena是否被利用为营销工具？meta为何要如此操作？

不仅如此，在部分官方未展示的专业基准测试中，Llama 4的表现也不尽如人意，几乎垫底。许多首批尝试的用户在Reddit等社交平台上表达了失望，指出Llama 4在编程能力上的不足。有用户提到：“考虑到Llama-4-Maverick有402B的参数量，我为什么不直接使用DeepSeek-V3-0324呢？或者Qwen-QwQ-32B可能更合适——虽然性能相似，但它的参数量只有32B。”

回溯至4月5日，meta在官方博客上宣布Llama 4系列模型面向社区开源，包括Llama 4 Scout、Llama 4 Maverick以及仍在训练中的“教师模型”Llama 4 Behemoth，均首次采用混合专家（MoE）架构。其中，最受关注的Maverick版本拥有128个“专家”，170亿活跃参数（总参数为4000亿），meta将其描述为“同类最佳的多模态模型”。

然而，Llama 4发布后不久，情况便急转直下。首批用户对Llama 4的表现并不满意，尤其是在需要代码能力和严谨逻辑推理的场景中，Llama 4的表现并未兑现超越GPT、DeepSeek的承诺。在Aider Chat提供的Polyglot编程测试中，Maverick版本的正确率仅为16%，处于排行榜末尾，与其庞大的参数体量完全不符，甚至落后于规模更小的开源模型，如Google Gamma。

面对风评下滑和严厉质疑，meta团队迅速出面澄清。经手“后训练”的meta GenAI成员虞立成（Licheng Yu）表示，虚心聆听各方反馈，并希望能在下一版有所提升。他强调，meta从未为了刷点而针对测试集进行过度拟合。同时，meta GenAI的副总裁Ahmad Al-Dahle也在社交媒体上明确表示，meta没有在测试集上训练Llama 4。

尽管这些回应试图平息争议，但Llama 4的真实能力仍备受质疑。作为开源阵营中曾经“最有希望挑战OpenAI”的旗手，Llama 4原本承载着开发者与产业界的高度期待。然而，它在发布一周内便从“高光”跌入“信任危机”，成为大模型竞赛中一次罕见的口碑“滑铁卢”。

追根究底，Llama 4的问题不在于造假，而在于开源大模型竞争加剧下的失速。过去两年，meta凭借Llama 2和Llama 3逐步在开源模型市场上建立起“领先、可靠”的认知。然而，随着DeepSeek V3/R1的发布，开源与闭源模型的差距被扭转，且开源模型的发展速度大大加快。这让原本作为“开源领导者”的Llama面临更大的压力。

meta也未能控制住动作的变形。Llama-4-Maverick-03-26-Experimental针对对话模式的优化本身无可厚非，但“首发”Chatbot Arena的目的却路人皆知。在参数规模膨胀、架构复杂化（MoE）的同时，Llama 4很可能没有留出足够的测试和改进时间，才导致发布后不稳定的性能表现。

光联携手利元亨，共话新能源制造AI时代网络新路径与新机遇

聚焦企业在全球范围内的多分支互联与云IDC接入问题，方案基于光联自建全球光纤骨干网络及华为SD-WAN设备，支持MPLS、Internet与4G/5G等多种链路融合，并可弹性部署多种拓扑模型，实现总部、分支…

2025-11-15

TLKS-PMG-TP装置：全天候精准监测，守护输电线路“体温”安全

TLKS-PMG-TP输电线路线夹及导线温度在线监测装置应运而生，以其高精度测温与全时段监测能力，为输电线路装上了一双“精准温控眼”。 TLKS-PMG-TP装置不仅提供实时监测，更实现了输电线路运维的智能…

2025-11-15

Gartner发布2026十大技术趋势：AI主导变革，从“大而全”迈向“精而实”

近日，商业与技术洞察公司Gartner发布了2026年十大战略技术趋势：AI超级计算平台、多智能体系统、特定领域语言模型、AI安全平台、AI原生开发平台、机密计算、物理AI、前置式主动网络安全、数字溯源，以及…

2025-11-14

广电卡适配指南：哪些手机能用？这些旗舰机型可能不兼容！

华为P50系列是个特例，即便是4G版，也能通过软件方案支持广电5G。中国广电表示，近六年主流手机型号均已升级适配广电网络，98%以上的新入网5G手机支持700MHz频段。判断你的手机是否适配广电卡，不仅…

2025-11-13

Kernelcom“智能键盘”来袭：12.5英寸超宽屏，AMD/Intel双版本可选

快科技11月12日消息，近日一款名为Kernelcom的设备正在Kickstarter上众筹，虽然其本质上是一款功能完备的笔记本电脑，但制造商还是将其宣传为“智能键盘”。这款设备最大的特点是其12.5英寸超…

2025-11-13

山海星耀攻克超低轨难题，以硬核技术逐梦空天新蓝海

天虎科技了解到，虽然当前市场上有一些针对超低轨的吸气式推进器，但从气体收集率、推进效率、测试工作环境等维度上，山海星耀的电推进器均具备一定优势。蔡东升表示，目前该产品是商业航天公司首次实现了“高真空运行环…

2025-11-12

Viwoods发布AiPaper Reader电纸书：6.13英寸墨水屏搭载AI阅读互动功能

IT之家 11 月 11 日消息，据科技媒体 NoteBook Check 今天报道，Viwoods 现已推出 AiPaper Reader电纸书，运行 Android 16 操作系统，机身配备专用 AI …

2025-11-12

海外游语言障碍终结者：时空壶新T1离线翻译，精准适配复杂场景

时空壶新T1翻译机凭借端侧AI翻译技术与全面的离线功能配置，成为假期中解决无网沟通难题的关键设备，其技术设计精准匹配了海外旅行中的复杂网络环境。这种“离线核心+在线补充”的双模式设计，精准命中了国庆海外游中“…

2025-11-11

苹果换新机数据迁移难？5种实用方法，简单操作轻松搞定数据转移！

方法一、“快速开始”直接传输这是苹果官方自带的工具，专门针对新手机未激活时迁移旧机数据设计，能直接把旧 iPhone的几乎所有数据完整搬到新手机，包括照片、联系人、短信、视频、APP等，不用手动筛选，适合换…

2025-11-11

星闪E2.0亮相！华为FreeBuds Pro 5开启无线音频新篇，重塑TWS标准

于是，我们得到了星闪1.0，而在此基础上，华为今年又推出了星闪E2.0，将此前星闪1.0在音频传输上存在的一些问题彻底解决，并且做了全链路的升级。聊完星闪E2.0，接下来我们再聊聊FreeBuds Pro …

2025-11-11