H Company Holo2: Achieved 1st Place in UI Localization Benchmark

235B Parametric model, UI automation을 완전히 뒤집다

  • ScreenSpot-Pro 벤치마크에서 78.5%로 SOTA 달성
  • Agent localization으로 성능 10-20% 향상
  • 4K 고해상도 인터페이스에서도 작은 UI 요소 정확하게 찾아냄

무슨 일이 있었나?

H Company에서 UI Localization (유저 인터페이스 요소 위치 식별)을 위한 전문가 모델 Holo2-235B-A22B를 출시했다. [Hugging Face] 이 235B 파라미터 규모의 모델은 스크린샷에서 버튼, 텍스트 필드, 링크와 같은 UI 요소의 정확한 위치를 찾는다.

핵심은 Agentic Localization 기술이다. 한 번에 정답을 제공하는 것이 아니라, 여러 단계에 걸쳐 예측을 개선한다. 덕분에 4K 고해상도 화면의 작은 UI 요소도 정확하게 잡아낸다. [Hugging Face]

왜 중요한가?

GUI agent 분야가 뜨겁다. Claude Computer Use, OpenAI Operator와 같은 빅테크 기업들이 UI automation 기능을 내놓기 위해 경쟁하고 있다. 하지만 작은 스타트업인 H Company가 이 분야 벤치마크에서 1위를 차지했다.

개인적으로 주목하는 점은 agentic 방식이다. 기존 모델은 한 번에 위치를 조정하려고 시도할 때 실패하는 경우가 많았지만, 여러 번 시도하여 모델을 개선하는 접근 방식이 효과적이었다. 10-20% 성능 향상 수치가 이를 증명한다.

솔직히 235B 파라미터는 꽤 무겁다. 실제 프로덕션 환경에서 얼마나 빠르게 실행될지는 지켜봐야 한다.

앞으로 어떻게 될까?

GUI agent 경쟁이 심화되면서 UI Localization 정확도가 핵심 차별화 요소가 될 것으로 예상된다. H Company 모델이 오픈 소스로 공개되었으므로 다른 agent framework에 통합될 가능성이 높다.

RPA (robotic process automation) 시장에도 영향을 미칠 수 있다. 기존 RPA 도구는 규칙 기반이었지만, 이제 비전 기반 UI 이해가 표준이 될 수 있다.

자주 묻는 질문 (FAQ)

Q: UI Localization이 정확히 무엇인가?

A: 스크린샷을 보고 특정 UI 요소 (버튼, 입력 창 등)의 정확한 좌표를 찾는 기술이다. 간단히 말해서, AI가 화면을 보고 어디를 클릭해야 하는지 아는 것이다. GUI automation agent의 핵심 기술이다.

Q: 기존 모델과 무엇이 다른가?

A: Agentic localization이 핵심이다. 한 번에 맞추려고 하는 것이 아니라, 여러 단계로 정교하게 다듬는다. 사람이 목표를 찾기 위해 화면을 스캔하는 방식과 유사하다. 이 방법으로 10-20%의 성능 향상을 달성했다.

Q: 모델을 직접 사용할 수 있나?

A: Hugging Face에서 연구용으로 공개되었다. 하지만 235B 파라미터 모델이므로 상당한 GPU 리소스가 필요하다. 실제 프로덕션 애플리케이션보다는 연구 또는 벤치마킹 용도에 적합하다.


이 기사가 유용했다면 AI Digester를 구독해 주세요.

참고 자료

Leave a Comment