沃资讯
科技 财经 汽车 游戏 数码 资讯 商业

微软开源OmniParser,GPT-4V秒解析屏幕截图,智能新突破!

2024-10-29来源:ITBEAR编辑:瑞雪

微软近日宣布了一项重大开源项目——OmniParser,这是一款专为解析和识别屏幕上可交互图标设计的AI工具。传统自动化方法受限于HTML或视图层次结构,而现有的视觉语言模型在处理复杂GUI元素时又显得力不从心。为此,微软推出了这款纯视觉基础的工具,旨在解决当前屏幕解析技术的局限性。

OmniParser结合了可交互区域检测模型、图标描述模型和OCR模块,无需依赖HTML标签或视图层次结构等显式基础数据。这一特性使得它能够在桌面、移动设备和网页等多种平台上跨平台工作,显著提高了用户界面的解析准确性。OmniParser还能将识别出的屏幕元素转换成结构化的数据。

在实际测试中,OmniParser展现出了卓越的性能。在ScreenSpot数据集中,它的准确率提高了73%,远超依赖HTML解析的模型。同时,当GPT-4V使用OmniParser的输出后,图标的正确标记率从70.5%提升至93.8%。这些改进充分证明了OmniParser在解决当前GUI交互模型根本缺陷方面的有效性。

微软已在Hugging Face上发布了OmniParser,这一举措将有助于普及这一前沿技术,进一步推动多模态AI的发展,特别是在无障碍、自动化和智能用户辅助等领域。

全球第二大NAND闪存芯片供应商铠侠拟于明年中前在日上市,目标市值破万亿日元
11 月 8 日消息,铠侠(前身为东芝存储)目前是全球第二大 NAND 闪存芯片供应商,仅次于三星电子。铠侠控股今日向金融厅提交了一份证券登记声明,称其目标是在 2024 年 12 月至 6 月期…

2024-11-08

川崎摩托携手Cerence推出AI语音助手:智能导航、车辆控制一应俱全
11月8日消息,汽车AI供应链公司赛轮思(Cerence)今日宣布与川崎摩托(KawasakiMotors)达成新合作,通过集成专为两轮车打造的CerenceRide,川崎将使骑手能够通过AI语音助手…

2024-11-08

奥迪携手上汽,新豪华电动品牌AUDI及首款概念车AUDI E惊艳亮相!
快科技11月8日消息,昨晚,奥迪与上汽合作项目终于有了最新进展,奥迪正式发布新豪华电动品牌AUDI,首款概念车AUDIE也同步首发。据悉,AUDIE概念车将于2025年量产交付,未来三年内,该项目将推出三款纯…

2024-11-08