H Company Holo2:UI Localization基准测试夺冠

235B参数模型颠覆UI自动化

  • 在ScreenSpot-Pro基准测试中以78.5%达成SOTA
  • Agent localization使性能提升10-20%
  • 在4K高分辨率界面中也能精准定位小型UI元素

发生了什么?

H Company发布了专门用于UI Localization(用户界面元素位置识别)的模型Holo2-235B-A22B。[Hugging Face] 这个235B参数规模的模型能够在截图中找到按钮、文本框、链接等UI元素的精确位置。

核心是Agentic Localization技术。它不是一次性提供所有答案,而是通过多个步骤来改进预测。因此,即使是4K高分辨率屏幕上的小型UI元素也能精准识别。[Hugging Face]

为什么重要?

GUI agent领域正在升温。Claude Computer Use、OpenAI Operator等大型科技公司正在竞相推出UI自动化功能。然而,作为小型初创公司的H Company却在这个基准测试中获得了第一名。

个人关注的重点是agentic方式。传统模型在一次性调整位置时经常失败,但通过多次尝试来改进模型的方法被证明是有效的。10-20%的性能提升证明了这一点。

坦率地说,235B参数相当庞大。在实际production环境中能跑多快还有待观察。

未来会怎样?

随着GUI agent竞争加剧,UI Localization Accuracy预计将成为关键差异化因素。由于H Company的模型已开源发布,很可能会被整合到其他agent框架中。

这也可能影响RPA(robotic process automation)市场。传统RPA工具是基于规则的,但现在基于视觉的UI理解可能成为标准。

常见问题(FAQ)

Q:UI Localization究竟是什么?

A:这是一种通过查看截图来找到特定UI元素(按钮、输入框等)精确坐标的技术。简单来说,就是AI看着屏幕知道该点击哪里。这是GUI automation agent的核心技术。

Q:与现有模型有何不同?

A:Agentic localization是关键。它不是试图一次到位,而是通过多个步骤进行精细调整。类似于人类扫描屏幕寻找目标的方式。这种方法实现了10-20%的性能提升。

Q:可以直接使用该模型吗?

A:该模型已在Hugging Face上公开用于研究。但作为235B参数模型,需要大量GPU资源。与实际production应用相比,更适合研究或基准测试用途。


如果这篇文章对你有帮助,请订阅AI Digester。

参考资料

发表评论