H Company Holo2: UI Localization 벤치마크 1위 달성

235B 파라미터 모델이 UI 자동화 판을 뒤집었다

  • ScreenSpot-Pro 벤치마크 78.5%로 SOTA 달성
  • 에이전틱 로컬라이제이션으로 10-20% 성능 향상
  • 4K 고해상도 인터페이스에서도 작은 UI 요소 정확히 찾아냄

무슨 일이 일어났나?

H Company가 UI Localization(사용자 인터페이스 요소 위치 식별) 전문 모델 Holo2-235B-A22B를 공개했다.[Hugging Face] 235B 파라미터 규모의 이 모델은 스크린샷에서 버튼, 텍스트 필드, 링크 같은 UI 요소의 정확한 위치를 찾아낸다.

핵심은 에이전틱 로컬라이제이션(Agentic Localization) 기술이다. 한 번에 답을 내는 게 아니라 여러 단계에 걸쳐 예측을 정교화한다. 덕분에 4K 고해상도 화면의 작은 UI 요소도 정확히 집어낸다.[Hugging Face]

왜 중요한가?

GUI 에이전트 분야가 뜨겁다. Claude Computer Use, OpenAI Operator 등 빅테크가 앞다퉈 UI 자동화 기능을 내놓고 있다. 그런데 작은 스타트업 H Company가 이 분야 벤치마크 1위를 차지했다.

개인적으로 주목하는 건 에이전틱 방식이다. 기존 모델들이 한 번에 위치를 맞추려다 실패하는 경우가 많았는데, 여러 번 시도하며 정교화하는 접근법이 효과적이었다. 10-20% 성능 향상이라는 수치가 이를 증명한다.

솔직히 235B 파라미터는 꽤 무거운 편이다. 실제 프로덕션 환경에서 얼마나 빠르게 동작할지는 지켜봐야 한다.

앞으로 어떻게 될까?

GUI 에이전트 경쟁이 본격화되면서 UI Localization 정확도가 핵심 차별점이 될 전망이다. H Company 모델이 오픈소스로 공개된 만큼, 다른 에이전트 프레임워크들이 이를 통합할 가능성이 높다.

RPA(로봇 프로세스 자동화) 시장에도 영향을 줄 수 있다. 기존 RPA 도구들이 규칙 기반이었다면, 이제는 비전 기반 UI 이해가 표준이 될 수 있다.

자주 묻는 질문 (FAQ)

Q: UI Localization이 정확히 뭔가?

A: 스크린샷을 보고 특정 UI 요소(버튼, 입력창 등)의 정확한 좌표를 찾아내는 기술이다. 쉽게 말해 AI가 화면을 보고 어디를 클릭해야 하는지 아는 것이다. GUI 자동화 에이전트의 핵심 기술이다.

Q: 기존 모델들과 뭐가 다른가?

A: 에이전틱 로컬라이제이션이 핵심이다. 한 번에 맞추려 하지 않고 여러 단계에 걸쳐 정교화한다. 마치 사람이 화면을 훑어보며 목표를 찾아가는 방식과 비슷하다. 이 방식으로 10-20% 성능 향상을 이뤘다.

Q: 모델을 직접 써볼 수 있나?

A: Hugging Face에 연구용으로 공개되어 있다. 다만 235B 파라미터 모델이라 상당한 GPU 자원이 필요하다. 실제 프로덕션 적용보다는 연구나 벤치마킹 목적에 적합하다.


이 글이 유용했다면 AI Digester를 구독해주세요.

참고 자료

댓글 남기기