H社Holo2:UIローカリゼーションベンチマーク1位達成

235B Parametric model, UI automationを完全に覆す

  • ScreenSpot-Proベンチマークで78.5%でSOTA達成
  • Agent localizationで性能10-20%向上
  • 4K高解像度インターフェースでも小さなUI要素を正確に探し出す

何が起きたのか?

H CompanyでUI Localization (ユーザーインターフェース要素位置識別) のための専門家モデルHolo2-235B-A22Bを発売した。[Hugging Face] この235Bパラメータ規模のモデルは、スクリーンショットからボタン、テキストフィールド、リンクのようなUI要素の正確な位置を探す。

核心はAgentic Localization技術だ。一度に正解を提供するのではなく、複数の段階にわたって予測を改善する。おかげで4K高解像度画面の小さなUI要素も正確に捉える。[Hugging Face]

なぜ重要なのか?

GUI agent分野が熱い。Claude Computer Use、OpenAI Operatorのようなビッグテック企業がUI automation機能を出すために競争している。しかし、小さなスタートアップであるH Companyがこの分野ベンチマークで1位を獲得した。

個人的に注目する点はagentic方式だ。既存モデルは一度に位置を調整しようと試みる際に失敗することが多かったが、何度も試してモデルを改善するアプローチが効果的だった。10-20%性能向上数値がこれを証明する。

正直に言って235Bパラメータはかなり重い。実際のプロダクション環境でどれくらい早く実行されるかは見守る必要がある。

今後どうなるか?

GUI agent競争が激化し、UI Localizationの正確さが重要な差別化要素になると予想される。H Companyモデルがオープンソースで公開されたので、他のagent frameworkに統合される可能性が高い。

RPA (robotic process automation) 市場にも影響を与える可能性がある。既存のRPAツールはルールベースだったが、今やビジョンベースのUI理解が標準になる可能性がある。

よくある質問 (FAQ)

Q: UI Localizationとは正確に何か?

A: スクリーンショットを見て特定のUI要素 (ボタン、入力ウィンドウなど) の正確な座標を探す技術だ。簡単に言うと、AIが画面を見てどこをクリックすべきかを知ることだ。GUI automation agentの核心技術だ。

Q: 既存モデルと何が違うのか?

A: Agentic localizationが核心だ。一度に合わせようとするのではなく、複数の段階で精巧に手直しする。人が目標を探すために画面をスキャンする方式と類似している。この方法で10-20%の性能向上を達成した。

Q: モデルを直接使用できますか?

A: Hugging Faceで研究用として公開された。しかし235Bパラメータモデルなので、相当なGPUリソースが必要だ。実際のプロダクションアプリケーションよりは研究またはベンチマーキング用途に適している。


この記事が役に立ったならAI Digesterを購読してください。

参考文献

コメントする