235Bパラメータモデル、UI自動化を変革する
- ScreenSpot-Proベンチマークで78.5%のSOTAを達成
- Agent localizationで性能10-20%向上
- 4K高解像度インターフェースでも小さなUI要素を正確に位置特定
何が起きたのか?
H CompanyがUI Localization(ユーザーインターフェース要素の位置識別)のための専門モデルHolo2-235B-A22Bを発表した。[Hugging Face] この235Bパラメータ規模のモデルは、スクリーンショットからボタン、テキストフィールド、リンクなどのUI要素の正確な位置を見つける。
核心はAgentic Localization技術だ。一度にすべての答えを提供するのではなく、複数のステップにわたって予測を改善する。そのおかげで4K高解像度画面の小さなUI要素まで正確に特定できる。[Hugging Face]
なぜ重要なのか?
GUI agent分野が熱い。Claude Computer Use、OpenAI Operatorのようなビッグテック企業がUI自動化機能をリリースするために競争している。しかし、小さなスタートアップであるH Companyがこのベンチマークで1位を獲得した。
個人的に注目しているのはagentic方式だ。既存のモデルは一度に位置を調整しようとすると失敗することが多かったが、複数回試みてモデルを改善するアプローチが効果的だった。10-20%の性能向上がこれを証明している。
正直なところ、235Bパラメータはかなり重い。実際のproduction環境でどれだけ速く実行できるかは見守る必要がある。
今後どうなるのか?
GUI agent競争が激化するにつれ、UI Localization Accuracyが重要な差別化要素になると予想される。H Companyのモデルがオープンソースで公開されたため、他のagent frameworkに統合される可能性が高い。
RPA(robotic process automation)市場にも影響を与える可能性がある。既存のRPAツールはルールベースだったが、今後はビジョンベースのUI理解が標準になる可能性がある。
よくある質問(FAQ)
Q: UI Localizationとは正確に何か?
A: スクリーンショットを見て特定のUI要素(ボタン、入力フィールドなど)の正確な座標を見つける技術だ。簡単に言えば、AIが画面を見てどこをクリックすべきか知ることだ。GUI automation agentの核心技術である。
Q: 既存のモデルとの違いは?
A: Agentic localizationが核心だ。一度に合わせようとするのではなく、複数のステップにわたって精緻にする。人間が目標を見つけるために画面をスキャンする方式と類似している。この方法で10-20%の性能向上を達成した。
Q: モデルを直接使用できるか?
A: Hugging Faceで研究用として公開されている。ただし、235Bパラメータモデルなので、かなりのGPUリソースが必要だ。実際のproductionアプリケーションよりは研究またはベンチマーキング用途に適している。
この記事が役に立ったなら、AI Digesterを購読してほしい。
参考資料
- Introducing Holo2-235B-A22B: State-of-the-Art UI Localization – Hugging Face (2026-02-03)