H Company Holo2：UI Localization基准测试夺冠

235B参数模型颠覆UI自动化

H Company发布了专门用于UI Localization（用户界面元素位置识别）的模型Holo2-235B-A22B。^{[Hugging Face]} 这个235B参数规模的模型能够在截图中找到按钮、文本框、链接等UI元素的精确位置。

核心是Agentic Localization技术。它不是一次性提供所有答案，而是通过多个步骤来改进预测。因此，即使是4K高分辨率屏幕上的小型UI元素也能精准识别。^{[Hugging Face]}

GUI agent领域正在升温。Claude Computer Use、OpenAI Operator等大型科技公司正在竞相推出UI自动化功能。然而，作为小型初创公司的H Company却在这个基准测试中获得了第一名。

个人关注的重点是agentic方式。传统模型在一次性调整位置时经常失败，但通过多次尝试来改进模型的方法被证明是有效的。10-20%的性能提升证明了这一点。

坦率地说，235B参数相当庞大。在实际production环境中能跑多快还有待观察。

随着GUI agent竞争加剧，UI Localization Accuracy预计将成为关键差异化因素。由于H Company的模型已开源发布，很可能会被整合到其他agent框架中。

这也可能影响RPA（robotic process automation）市场。传统RPA工具是基于规则的，但现在基于视觉的UI理解可能成为标准。

Q：UI Localization究竟是什么？

A：这是一种通过查看截图来找到特定UI元素（按钮、输入框等）精确坐标的技术。简单来说，就是AI看着屏幕知道该点击哪里。这是GUI automation agent的核心技术。

Q：与现有模型有何不同？

A：Agentic localization是关键。它不是试图一次到位，而是通过多个步骤进行精细调整。类似于人类扫描屏幕寻找目标的方式。这种方法实现了10-20%的性能提升。

Q：可以直接使用该模型吗？

A：该模型已在Hugging Face上公开用于研究。但作为235B参数模型，需要大量GPU资源。与实际production应用相比，更适合研究或基准测试用途。

如果这篇文章对你有帮助，请订阅AI Digester。