235B参数模型颠覆UI自动化
- 在ScreenSpot-Pro基准测试中以78.5%达成SOTA
- Agent localization使性能提升10-20%
- 在4K高分辨率界面中也能精准定位小型UI元素
发生了什么?
H Company发布了专门用于UI Localization(用户界面元素位置识别)的模型Holo2-235B-A22B。[Hugging Face] 这个235B参数规模的模型能够在截图中找到按钮、文本框、链接等UI元素的精确位置。
核心是Agentic Localization技术。它不是一次性提供所有答案,而是通过多个步骤来改进预测。因此,即使是4K高分辨率屏幕上的小型UI元素也能精准识别。[Hugging Face]
为什么重要?
GUI agent领域正在升温。Claude Computer Use、OpenAI Operator等大型科技公司正在竞相推出UI自动化功能。然而,作为小型初创公司的H Company却在这个基准测试中获得了第一名。
个人关注的重点是agentic方式。传统模型在一次性调整位置时经常失败,但通过多次尝试来改进模型的方法被证明是有效的。10-20%的性能提升证明了这一点。
坦率地说,235B参数相当庞大。在实际production环境中能跑多快还有待观察。
未来会怎样?
随着GUI agent竞争加剧,UI Localization Accuracy预计将成为关键差异化因素。由于H Company的模型已开源发布,很可能会被整合到其他agent框架中。
这也可能影响RPA(robotic process automation)市场。传统RPA工具是基于规则的,但现在基于视觉的UI理解可能成为标准。
常见问题(FAQ)
Q:UI Localization究竟是什么?
A:这是一种通过查看截图来找到特定UI元素(按钮、输入框等)精确坐标的技术。简单来说,就是AI看着屏幕知道该点击哪里。这是GUI automation agent的核心技术。
Q:与现有模型有何不同?
A:Agentic localization是关键。它不是试图一次到位,而是通过多个步骤进行精细调整。类似于人类扫描屏幕寻找目标的方式。这种方法实现了10-20%的性能提升。
Q:可以直接使用该模型吗?
A:该模型已在Hugging Face上公开用于研究。但作为235B参数模型,需要大量GPU资源。与实际production应用相比,更适合研究或基准测试用途。
如果这篇文章对你有帮助,请订阅AI Digester。
参考资料
- Introducing Holo2-235B-A22B: State-of-the-Art UI Localization – Hugging Face (2026-02-03)