沃资讯
科技 财经 汽车 游戏 数码 资讯 商业

AlphaGo之父团队新突破:AI自主发现强化学习规则,性能超越人工设计

2025-10-29来源:快讯编辑:瑞雪

强化学习作为人工智能领域的核心方向之一,近年来持续受到全球科研机构的关注。谷歌DeepMind团队在《自然》杂志发表的研究成果,为该领域开辟了全新路径——通过元学习机制,机器首次实现了自主设计强化学习算法,并在多个基准测试中超越人类专家设计的顶尖算法。

研究团队构建的元学习框架包含双重优化机制:智能体优化层负责调整策略网络参数,元优化层则通过元网络动态生成学习目标。这种设计突破了传统强化学习算法需要人工设计损失函数的局限,转而通过智能体在复杂环境中的交互经验,自动推导出最优学习规则。实验数据显示,在包含57个Atari游戏的基准测试中,新算法Disco57的归一化分数中位数达到13.86,显著优于MuZero等现有SOTA算法,同时计算效率提升40%以上。

研究的核心创新在于构建了可扩展的预测空间。智能体网络不仅输出传统策略π,还同时生成基于观测的向量预测y(s)和基于动作的向量预测z(s,a)。这种设计灵感源自强化学习中"预测"与"控制"的二元性——价值函数分为状态价值v(s)和动作价值q(s,a),奖励预测和后继特征等概念也存在类似的观测-动作二分结构。通过元网络处理智能体轨迹数据,系统能够自动发现传统算法中未定义的预测维度。

实验验证环节展现了算法的强大泛化能力。在未经训练的ProcGen程序生成游戏测试中,Disco57在16个不同风格的游戏中均取得最优表现,证明其能够适应全新的观测空间和奖励结构。更引人注目的是,在Crafter生存挑战中,算法展现出类似人类的学习能力,通过自主探索掌握了资源采集、工具制造等复杂技能。这些环境与训练阶段使用的Atari游戏在视觉风格、操作机制和奖励设计上存在显著差异,充分验证了算法的跨领域适应性。

技术实现层面,元网络采用LSTM架构处理智能体轨迹,输入包含连续n步的预测值、策略分布、即时奖励和终止信号。这种设计确保算法能够处理任意大小的离散动作空间,并通过权重共享机制实现动作维度的通用处理。实验表明,元网络定义的搜索空间完整保留了引导更新(bootstrapping)等核心算法思想,同时通过神经网络的表达能力,实现了比标量损失函数更精细的上下文感知更新。

进一步分析揭示了算法的独特机制。定性观察显示,新发现的预测维度在奖励获取和策略熵变化等关键事件前会出现显著波动,表明系统能够自主识别任务中的重要状态。信息论分析证实,这些预测包含传统价值函数未捕捉的未来奖励和策略不确定性信息。当人为阻断元网络的未来预测输入时,算法性能出现断崖式下降,验证了引导机制对当前目标计算的关键作用。

研究团队通过扩大训练环境规模持续优化算法性能。使用包含Atari、ProcGen和DMLab-30的103个环境训练的Disco103算法,在所有测试基准上均取得提升,特别是在Crafter环境中达到人类水平表现。这种随着环境复杂度增加而提升的性能特征,表明算法具备持续进化的潜力。效率分析显示,每个Atari游戏约6亿步的训练量即可产生最优规则,远低于传统算法开发所需的人工调试时间。

《网络安全运营体系解决方案:构建自适应闭环防护,赋能企业数字化转型》
这份《网络安全运营体系解决方案》是一份全面、系统且极具操作性的指导文件,其核心目标是构建一个技术、管理和流程有机融合的,具备实战化、体系化、常态化特点的网络安全运营体系,以有效支撑企业的数字化转型战略并应对日…

2025-10-29

联想极光外设三件套:灯光协同打造电竞氛围,多模连接解锁沉浸体验
这个体验不是单个设备能够带给你的,但是这里要注意,这个灯光设置只有在USB有线模式下才可以设置,并且不但可以设置同步的灯效,还可以单个设置,同时鼠标以及键盘的按键设置也可以在这个驱动里面进行更改,用起来非常…

2025-10-29

河南移动与华为共筑“豫智爱家示范区” 开启宽带业务智能体验新篇章
面对超2000万用户的多样化需求,近期,,依托AI WAN确定性网络方案及爱家大模型等技术,在质差优化、价值业务挖掘、体验保障及异常流量管控等方面取得显著突破,推动宽带业务向智能化、体验化运营迈进。集团近几年…

2025-10-29

双十一耳夹式耳机怎么选?从十好几款中摸清门道,帮你轻松挑到高性价比好物
市面上做耳夹耳机的品牌不少,但我更推荐大家选有经验的牌子,耳机这东西,音质调校、品控都得靠积累,像漫步者、声阔、虹觅这几个牌子,我都试过它们的产品,的确挺不错的。加上石墨烯振膜和虹觅声学实验室的调音,整体声…

2025-10-29

打造全自动AI后期链路,豆包语音团队提出“AI多人有声剧”方案
近日,豆包语音团队发布了“AI多人有声剧”自动化方案。方案支持多角色、高表现力的TTS(语音合成)演播,同时实现了全自动AI后期的链路,从小说文本到高质量的多人有声剧成品,全部由AI端到端完成。据了解,“AI多人

2025-10-28

华为Mate 70 Air或10月29日预热!轻薄设计+鸿蒙系统,11月有望开售
此前,这款新机已现身中国电信终端产品库,型号为SUP-AL90,标志着华为首次在Mate系列中推出“Air”后缀机型,主打轻薄设计。价格方面,另有数码博透露,华为Mate 70 Air的起售价预计在3000…

2025-10-28

紫光同芯TMC-E9系列eSIM芯片通过GSMA eSA认证 创国内最快纪录
标志着该产品在硬件架构、操作系统及加密机制等核心层面全面满足国际高等级安全要求。作为全球首款实现海外商用的手机eSIM中国芯,TMC-E9系列此前已陆续获得CC EAL6+、国密二级、银联芯片安全认证及A…

2025-10-28

华为四度入选Gartner SIEM魔力象限,HiSec Insight彰显卓越安全实力
为提升企业安全能力,华为SIEM提供自动化、可定制仪表盘及丰富原生威胁信息等企业级功能,通过构建自动化响应编排能力,支持对多种业务场景的威胁事件进行自动调查取证和联动响应,通过自动告警降噪、关联分析聚合,降低…

2025-10-27

数字技术织就智慧网:智慧城市管理革新,引领未来美好生活新篇章
这一伟大的变革,核心在于智慧城市管理平台的搭建,它深度融合了物联网(IoT)、大数据、云计算以及人工智能(AI)等数字技术,实现了对城市核心运行系统的全方位监控、深度剖析与高效整合,有力推动城市迈向智慧化管理…

2025-10-27

开放式耳机崛起:上半年中国耳夹式出货量飙升,华为倍思竞相发力
2025年9月5日,倍思正式推出与全球声学标杆品牌Sound by Bose联合研发的全球首款圈铁双单元耳夹耳机InspireXC1,将一套由楼氏动铁和三磁路动圈组合的双单元驱动“塞”进Inspire X…

2025-10-26