沃资讯
科技 财经 汽车 游戏 数码 资讯 商业

Meta新AI“左右互搏”:不依赖人类数据,代码自我进化时代或将来临

2025-12-30来源:快讯编辑:瑞雪

程序员们常调侃,最痛苦的时刻不是熬夜写新代码,而是凌晨被叫醒修复自己几个月前埋下的“神级Bug”。但如今,meta公司的一项新研究让AI不仅能自己制造问题,还能在无人指导的情况下通过“自我对弈”的方式解决问题,这一突破引发了科技界的广泛关注。

12月下旬,meta与伊利诺伊大学厄巴纳-香槟分校联合发表的论文,详细介绍了一种名为SSR(Self-play SWE-RL)的全新系统。该系统的核心思路看似简单却充满颠覆性:让同一个大语言模型同时扮演“破坏者”和“修复者”的角色。传统AI编程工具,如GitHub Copilot,依赖人类编写的代码、修复过的Bug以及设计的测试用例进行学习,相当于“做老师布置的题目”。而SSR则完全反其道而行之,让AI自己出题、自己解答。

具体实现上,SSR将一个模型拆分为两个智能体:一个负责向开源项目中注入隐蔽的Bug,另一个则需根据有限线索找出并修复这些错误。两个角色共享参数,本质上是同一个“大脑”,却执行着完全相反的任务。这种设计类似于一个人用左手制造问题,再用右手解决问题,且全程不能参考答案。

为了确保生成的Bug质量,SSR引入了三重验证机制:首先,Bug必须能被弱化测试检测到;其次,不能直接暴露修复路径;最后,需通过“逆向变异测试”确认改动确实改变了程序行为。无效的Bug会被直接丢弃,绝不掺杂水分。这种机制生成的训练数据,质量远超人工标注,因为所有Bug均源自真实的Git历史记录,例如故意撤销某次修复提交或删除看似冗余实则关键的逻辑。这些案例并非教科书中的典型问题,而是工程实践中常见的“暗坑”。

在实战测试中,SSR的表现令人瞩目。研究团队在SWE-bench Verified和SWE-bench Pro两个基准平台上进行了评估。这两个平台由普林斯顿、斯坦福等机构共同构建,收录了来自Django、PyTorch等知名项目的真实Bug修复任务,被视为衡量AI编程能力的“试金石”。实验结果显示,即使完全屏蔽人类提供的任务描述和测试用例,SSR训练的智能体性能仍持续提升,最终超越了采用传统强化学习加人类数据训练的基线模型。而后者在训练几十轮后便陷入停滞,难以进一步突破。

进一步的分析揭示了SSR成功的关键:消融实验表明,若仅训练Bug注入智能体,模型会陷入“只会搞破坏”的困境;若仅提供固定Bug集让AI修复,模型则会迅速过拟合。只有让两个智能体形成闭环联动,动态调整任务难度,才能持续产生新挑战,促使模型不断进步。这种机制类似于健身时自动增加重量,始终保持“跳一跳够得着”的状态。

尽管SSR展现了强大的潜力,但其局限性同样明显。研究团队在论文中坦承,首先,系统严重依赖单元测试作为评判标准,但现实开发中许多问题(如性能瓶颈、安全漏洞、用户体验)无法通过测试脚本量化;其次,目前两个智能体使用同一模型架构,尚未探索“强弱对抗”(如用更大模型充当出题者)是否更有效;最后,训练过程极不稳定,尝试加入自然语言描述或聚焦单一代码仓库时,性能反而下降。这些限制表明,SSR距离“全自动程序员”仍有很大差距。

不过,SSR的意义远不止于技术突破。它标志着AI正在从“模仿人类”转向“自我创造学习信号”。就像AlphaGo走出人类从未想过的棋路,SSR也可能发现工程师忽略的缺陷模式或修复策略。事实上,12月下旬,智谱AI发布了“伐谋”智能体框架,支持多智能体协同演化;阿里通义实验室也宣布Qwen Code Agent进入企业内测阶段。全球顶尖团队纷纷押注“自主进化型AI”,而SSR的独特之处在于,它几乎不需要人类监督。

字节跳动联手南洋理工开源StoryMem,AI长视频叙事难题迎突破性解法
这不仅仅是技术的修补,更像是赋予了算法一种类似人类的长期记忆能力,让AI从此拥有了掌控长镜头电影级叙事的能力。在与现有主流方法的对比中,StoryMem在跨镜头一致性这一核心指标上实现了高达29%的跃升。为了…

2025-12-30

华为云周跃峰:AI不能止于情绪价值 深耕行业方能释放生产力潜能
我们也希望用我们的能力来打开中国各个行业AI的一扇扇大门,包括农业、育种、科研等等”,周跃峰表示,“我们会真正把华为云建设成为行业AI的‘梦工厂’,使能千行万业实现他们的AI梦想。” 但他坚信打造“黑土地”以…

2025-12-30

孟晚舟2026新年致辞:2025奋斗足迹闪耀,2026智能化征程再启新篇
在致辞中,孟晚舟表示,人工智能技术正加速与行业知识融合,从单点效率提升转向对企业核心业务的系统性价值重构。 在2026年华为将聚焦的主战场中,孟晚舟提到了强化行业垂直作战、构建开源开放的鲲鹏昇腾生态、繁荣鸿蒙…

2025-12-30

2025年起100克及以上无人机新规落地 持证飞行规范使用更安心
自2025年1月1日起,凡计划在户外操控重量达到或超过100克的无人机或模型飞机的人员,须通过民航管理部门的线上理论考核,取得飞行资格编号后方可操作。针对未成年人的使用行为,规则设有特别条款:未满13周岁的…

2025-12-30

直线导轨:以低摩擦高刚性特性,为工业机器人高速精准运行赋能
在机器人实现高速、稳定、精准运动的过程中,直线导轨(Linear Guideway)作为关键的直线运动支撑部件,起着至关重要的作用。 同时,直线导轨通常采用预压与间隙调节设计,能有效提升系统刚性和抗振能力,确…

2025-12-30

长安大学携手百度深化合作 共探人工智能与自动驾驶创新发展新路径
三秦都市报-三秦网讯(记者王媚)12月28日,长安大学与百度达成战略合作,双方将围绕人工智能和自动驾驶等关键技术攻关、产教融合与高层次人才培养,构建长期协同的合作机制,共同推动科技创新与产业升级。 中国科学…

2025-12-30

濮阳企业选网络服务商,河南智韬信息科技地址背后藏着哪些关键考量?
在数字化转型加速推进的今天,濮阳企业寻求与本地网络服务商建立合作关系时,濮阳知名网络公司地址成为重要的参考信息。了解服务商的实际办公地点,不仅是核实企业真实性的基础环节,更是评估其服务稳定性、响应效率与本…

2025-12-30