235B 参数模型颠覆了 UI 自动化领域
- ScreenSpot-Pro 基准测试达到 78.5% 的 SOTA
- 通过 Agentic Localization 实现了 10-20% 的性能提升
- 即使在 4K 高分辨率界面中也能准确找到小的 UI 元素
发生了什么?
H Company 公开了 UI Localization(用户界面元素位置识别)专业模型 Holo2-235B-A22B。[Hugging Face] 这个 235B 参数规模的模型可以从屏幕截图中找到按钮、文本字段、链接等 UI 元素的准确位置。
核心是 Agentic Localization 技术。它不是一次性给出答案,而是通过多个步骤来完善预测。因此,即使是 4K 高分辨率屏幕上的小 UI 元素也能准确地识别出来。[Hugging Face]
为什么重要?
GUI 代理领域非常热门。Claude Computer Use、OpenAI Operator 等大型科技公司都在竞相推出 UI 自动化功能。然而,一家小型创业公司 H Company 却在该领域的基准测试中排名第一。
我个人关注的是 Agentic 方式。以前的模型试图一次性匹配位置,但经常失败,而多次尝试并完善的方法非常有效。10-20% 的性能提升证明了这一点。
坦率地说,235B 参数相当庞大。需要在实际生产环境中观察它的运行速度。
未来会怎样?
随着 GUI 代理竞争的加剧,UI Localization 的准确性将成为关键的差异化因素。由于 H Company 模型是开源的,因此其他代理框架很可能会将其集成。
它也可能影响 RPA(机器人流程自动化)市场。如果说以前的 RPA 工具是基于规则的,那么现在基于视觉的 UI 理解可能会成为标准。
常见问题 (FAQ)
Q: UI Localization 到底是什么?
A: 是一种通过查看屏幕截图来找出特定 UI 元素(按钮、输入框等)的准确坐标的技术。简单来说,就是 AI 知道在屏幕上应该点击哪里。它是 GUI 自动化代理的核心技术。
Q: 与现有模型有什么不同?
A: 核心是 Agentic Localization。它不是试图一次性匹配,而是通过多个步骤来完善。就像人浏览屏幕并寻找目标的方式一样。通过这种方式,性能提高了 10-20%。
Q: 可以直接使用该模型吗?
A: 它已在 Hugging Face 上以研究目的公开。但是,由于它是 235B 参数模型,因此需要大量的 GPU 资源。它更适合研究或基准测试,而不是实际的生产应用。
如果这篇文章对您有帮助,请订阅 AI Digester。
参考资料
- Introducing Holo2-235B-A22B: State-of-the-Art UI Localization – Hugging Face (2026-02-03)