沃资讯
科技 财经 汽车 游戏 数码 资讯 商业

百度开源Unlimited OCR新模型:创新机制助力长文档解析,作者身份引猜测

2026-06-26来源:快讯编辑:瑞雪

国产开源OCR领域迎来重大突破,百度最新发布的Unlimited OCR模型在长文档处理能力上实现质的飞跃。该模型采用革命性的参考滑动窗口注意力机制(R-SWA),在OmniDocBench基准测试中以93.92%的成绩刷新行业纪录,较前代DeepSeek OCR提升6.22个百分点。

传统OCR系统处理长文档时普遍采用"分页处理+结果拼接"的折中方案,这种模式如同机械抄写员般逐页重置上下文,导致显存占用随文档长度指数级增长。Unlimited OCR突破性地将人类抄写行为数字化:模型不再强制记忆全部历史内容,而是像专业抄写员那样仅保留当前工作所需的局部信息,配合完整的视觉参考实现连续解析。

技术团队创新性设计的R-SWA机制包含双重注意力路径:在视觉维度,模型始终保持对完整图像的全局感知;在文本维度,仅保留最近128个生成Token参与注意力计算。这种"全局视觉+局部文本"的混合架构,使模型在处理40页以上文档时仍能保持稳定性能,Distinct-35指标高达96.90%,编辑距离控制在0.1069以下。

实验数据显示,该模型在生成6000个Token时,推理速度较传统方案提升35%,且延迟波动幅度显著降低。其核心突破在于将KV Cache设计为固定长度队列,通过动态更新机制确保显存占用恒定,从根本上解决了长序列处理中的内存爆炸问题。这种设计使得模型在处理超长文档时,推理效率几乎不受输入长度影响。

该成果的技术辐射效应远超OCR领域。研究团队指出,R-SWA机制本质上是对注意力机制的重新定义,其"选择性遗忘"设计为长上下文处理提供了全新范式。相比传统扩容方案,这种生物仿生设计更符合人类认知规律,有望在语音识别、机器翻译等序列处理任务中引发连锁创新。

项目GitHub页面披露的技术路线图显示,团队正开发128K上下文版本,并探索构建"预填池"机制实现历史状态的按需调用。这种技术演进方向与DeepSeek OCR2形成战略呼应,前者聚焦视觉信息的高效理解,后者深耕长序列的记忆管理,共同构建起从感知到认知的完整技术链条。

值得关注的是,技术报告中出现的一位匿名作者"YY"引发行业热议。通过分析技术脉络和代码贡献,多位研究者推测该神秘人物可能是OCR领域资深专家魏浩然。这位曾主导GOT-OCR2.0开发的科学家,其研究轨迹与Unlimited OCR展现的技术特征存在显著关联,但截至目前尚未获得官方确认。

孙正义股东大会火力全开:力挺AI无泡沫,硬刚马斯克太空数据中心计划
在软银年度股东大会上,68岁的孙正义火力全开,驳斥AI泡沫论,宣布软银已启动机器人量产,公开叫板马斯克的“太空数据中心”计划。在日本国内,孙正义确认软银仍是东京电力公司引入外部资本、建设AI数据中心的重要候…

2026-06-26

广东检测机器人企业崛起:藦卡领衔,技术革新引领智能制造新未来
广东省在检测机器人领域具有巨大的发展潜力,众多企业在技术研发和市场应用中取得了显著成绩。藦卡机器人等企业在高精度、多场景工业机器人研发方面的优势,为广东乃至全国的智能制造和自动化发展提供了强有力的支持。 总…

2026-06-26

达沃斯论坛国产人形机器人秀绝技 咖啡制作递送自主完成显实力
这台名为MATRIX-3的人形机器人由国内具身智能企业矩阵超智自主研发,也是本届达沃斯论坛全场唯一投入实景服务的人形机器人。有嘉宾在接过机器人递来的咖啡后表示,这是第一次近距离观察人形机器人在真实环境中完成…

2026-06-26

分布式光伏并网新路径:电力自动化技术体系如何精准搭建与适配?
为保障电力系统的安全稳定运行与电能质量,电网对分布式电站接入调度系统提出了明确的标准化要求,相关技术规范与国家标准陆续出台,对接入设备的功能覆盖、技术指标、安全性能等均作出了详细规定,也对电力自动化领域的研发…

2026-06-26

ARD2F智能电动机保护器:全方位守护电机安全,让工厂泵站运维更高效
传统保护装置功能单一、控制死板,运维时还得频繁跑现场——ARD2F智能电动机保护器,集保护、控制、通讯、运维于一体,就像给电机配了位“专职安全员”,让电机运行更稳定,运维更轻松。 从工厂生产线的电机保护,到泵…

2026-06-26