H公司Holo2:UI本地化基准测试第一名

235B 参数模型,彻底颠覆 UI 自动化

  • ScreenSpot-Pro 基准测试中以 78.5% 的成绩达到 SOTA
  • Agent localization 使性能提高 10-20%
  • 即使在 4K 高分辨率界面中也能准确找到小的 UI 元素

发生了什么?

H Company 发布了用于 UI Localization(用户界面元素位置识别)的专家模型 Holo2-235B-A22B。 [Hugging Face] 这个 235B 参数规模的模型可以从屏幕截图中找到按钮、文本字段、链接等 UI 元素的准确位置。

核心是 Agentic Localization 技术。它不是一次性提供正确答案,而是分多个步骤改进预测。因此,即使是 4K 高分辨率屏幕上的小 UI 元素也能准确捕捉。 [Hugging Face]

为什么重要?

GUI agent 领域非常火热。像 Claude Computer Use、OpenAI Operator 这样的大型科技公司都在竞争推出 UI automation 功能。但小型初创公司 H Company 在该领域的基准测试中排名第一。

我个人关注的是 agentic 方式。以前的模型试图一次性调整位置时经常失败,但多次尝试改进模型的方法非常有效。10-20% 的性能提升数据证明了这一点。

老实说,235B 参数相当庞大。需要在实际生产环境中观察它的运行速度。

未来会怎样?

随着 GUI agent 竞争的加剧,UI Localization 准确性预计将成为关键的差异化因素。由于 H Company 模型已开源,因此很可能集成到其他 agent framework 中。

它也可能影响 RPA(robotic process automation)市场。以前的 RPA 工具是基于规则的,但现在基于视觉的 UI 理解可能成为标准。

常见问题 (FAQ)

Q: UI Localization 到底是什么?

A: 这是一种通过查看屏幕截图来查找特定 UI 元素(按钮、输入窗口等)的准确坐标的技术。简单来说,就是 AI 看到屏幕并知道应该点击哪里。它是 GUI automation agent 的核心技术。

Q: 与现有模型有什么不同?

A: Agentic localization 是关键。它不是试图一次性匹配,而是分多个步骤进行精细调整。这类似于人扫描屏幕以寻找目标的方式。通过这种方法,性能提高了 10-20%。

Q: 可以直接使用该模型吗?

A: 它已在 Hugging Face 上发布用于研究目的。但是,由于它是 235B 参数模型,因此需要大量的 GPU 资源。它更适合用于研究或基准测试,而不是实际的生产应用程序。


如果这篇文章对您有帮助,请订阅 AI Digester。

参考资料

发表评论