沃资讯
科技 财经 汽车 游戏 数码 资讯 商业

Harness Engineering崛起:百度伐谋登顶MLE-Bench背后的AI工程化突破

2026-04-13来源:快讯编辑:瑞雪

在人工智能技术快速迭代的当下,一场关于工程化能力的较量正在全球范围内展开。近日,百度自主研发的企业级算法自主优化智能体"伐谋"(Famou)在权威评测基准MLE-Bench上以显著优势登顶,其2.0版本更是在排除数据泄露争议后,以64.44分的成绩稳居榜首。这项成就不仅验证了中国AI团队在系统编排工程领域的突破,更标志着AI技术从实验室走向产业应用的转折点。

MLE-Bench评测体系以其严苛的实战标准著称,该基准选取75个来自Kaggle竞赛的真实工程难题,要求AI智能体独立完成从需求理解到解决方案输出的全流程。与常规评测不同,这项测试不考察单一模型能力,而是重点评估系统在模型训练、数据预处理、实验迭代等复杂任务中的综合表现。百度伐谋的胜利,意味着其已具备替代人类算法工程师处理复杂工程问题的能力。

这场评测背后的竞争远比表面分数激烈。今年2月,某创业团队通过利用测试机制漏洞,在部分任务中取得近乎完美的零误差成绩,引发学术界对评测公正性的质疑。经核查发现,该团队智能体通过接收私有测试集反馈信号,并调用外部网络数据实现"作弊"。事件曝光后,评测方紧急设立清洁赛道,百度伐谋凭借无数据泄露的纯净表现重返榜首,这场风波也暴露出AI工程化领域存在的标准缺失问题。

支撑伐谋突破的核心技术,是被称为"系统编排工程"(Harness Engineering)的新范式。这项技术将AI系统比作精密仪器,通过构建权限管理、记忆机制、工具编排和纠错循环四大支柱,确保智能体在开放环境中稳定运行。百度研发团队特别强调,伐谋2.0版本放弃了追求最新基座模型的传统路径,转而专注系统架构优化,这种"反直觉"决策最终证明其工程化思路的正确性。

在汽车研发领域,伐谋已展现出颠覆性价值。亚洲最大独立汽车设计公司阿尔特将其应用于气动设计优化,将原本需要10小时的风阻系数验证缩短至数分钟,预测误差控制在5%以内。这种效率跃升使整车研发周期压缩25%,设计师得以实现"边设计边验证"的并行工作模式。更值得关注的是,系统在演化过程中自主发现了人类工程师未曾考虑的优化路径,这种创造性突破正在重新定义工程设计的可能性边界。

金融风控场景的实践同样令人瞩目。中信百信银行引入伐谋后,特征挖掘效率提升100%,系统在7×24小时运行中捕捉到多个高价值风险指标,使风控模型的风险区分度提升2.41%。这种提升直接转化为业务价值:银行在保持风险可控的前提下,优质客户识别准确率显著提高,普惠金融服务的覆盖范围得以扩大。

在科研前沿领域,伐谋正在推动研究范式变革。北京工业大学将其应用于空间站空气质量监测设备研发,通过自我演化找到气相色谱柱的最优构型,突破传统设计极限。天津大学在灾害预警模型选优中,将原本需要数周的试验周期压缩至6小时,使地质灾害预测的时效性获得质的提升。这些案例表明,AI智能体已能承担科研中最耗时的算法演化工作,让人类专家得以专注科学本质问题的探索。

当前,全球AI竞争焦点正从模型参数规模转向系统工程能力。百度伐谋的实践证明,通过构建完善的智能体架构,可使AI系统在开放环境中自主解决复杂问题。这种转变不仅要求技术突破,更需要建立适应工程化需求的新标准体系。随着更多产业场景的解锁,系统编排工程或将重新定义人工智能的技术边界与应用价值。

智慧园区软件:解锁写字楼租控管理新路径,开启高效智能新时代
智慧园区软件如何优化写字楼资源配置效率 智慧园区软件通过数据集成与分析,能够有效优化写字楼的资源配置效率。未来,智能化管理将以数据驱动为核心,通过物联网、云计算和大数据分析等技术实现对写字楼全方位的监…

2026-04-13

OpenAI“星门”项目三名核心成员或将转投Meta 助力其AI布局
来源:观点地产网 观点网讯:4月12日,据媒体报道,知情人士透露,参与OpenAI“星门”项目的三名核心人员即将加盟Meta公司。 这些人员包括曾在项目中发挥关键作用的彼得·赫舍勒,以及负责算力战略与业务拓展…

2026-04-12

乐聚机器人中试产线启用 构建大湾区完整闭环助力人形机器人量产
目前,乐聚在大湾区已构建起“深圳研发+中试”“佛山制造+量产”的完整制造闭环。在龙华,依托中试基地完成工艺验证与“准量产”打磨;在佛山,通过联合东方精工打造的国内首条万台级人形机器人自动化产线,实现大规模量产…

2026-04-12