LLM-FSM: LLM의 하드웨어 코드 생성 능력 벤치마크 [2026]

1,000개 FSM 문제로 LLM의 RTL 코드 생성 능력을 평가한다
FSM 복잡도가 높아질수록 최신 LLM도 정확도가 급락한다
파인튜닝과 추론 시간 확대가 성능 개선의 열쇠다

자연어로 칩 설계 코드를 만들 수 있을까

스탠퍼드 연구팀이 LLM-FSM 벤치마크를 공개했다. LLM이 자연어에서 유한 상태 머신(FSM)을 이해하고 RTL 코드로 변환하는 능력을 측정한다.^[arXiv] YAML 명세를 자연어로 바꾼 뒤 LLM에게 구현을 요청하는 방식으로 1,000개 문제를 자동 생성했다.

복잡한 FSM에서 정확도가 급락한다

가장 강력한 LLM도 상태 수가 늘면 정확도가 급격히 하락했다.^[arXiv] 3~5개 상태는 잘 처리하지만 10개를 넘으면 정확성이 크게 떨어졌다. 실제 칩 설계에서는 수백 개 상태를 다루므로 아직 실무 적용은 어렵다.

파인튜닝과 추론 확장이 돌파구

파인튜닝(SFT)을 적용하면 새로운 유형의 FSM에도 일반화 성능이 향상됐다. 추론 시 연산량을 늘리는 방식도 신뢰성을 높였다.^[arXiv] Synopsys, Cadence 등 EDA 기업도 AI 칩 설계 도구를 개발 중이라 이 방향이 주목받고 있다.^[Synopsys]

자주 묻는 질문 (FAQ)

Q: LLM-FSM이란?

A: 스탠퍼드 연구팀이 만든 평가 도구다. LLM이 자연어 FSM 명세를 읽고 정확한 RTL 코드를 생성하는지 측정한다. 1,000개 자동 생성 문제로 구성되며 다양한 복잡도를 포함한다.

Q: RTL 코드가 중요한 이유는?

A: RTL은 디지털 회로를 기술하는 핵심 설계 단계다. Verilog나 VHDL로 작성되며 자동화하면 칩 개발 속도와 비용에 큰 영향을 준다.

Q: 실무에 바로 쓸 수 있는가?

A: 아직 어렵다. 복잡한 FSM에서 정확도가 크게 떨어진다. 다만 파인튜닝과 추론 확장이 성능을 개선한다는 점이 확인돼 보조 도구로 발전할 가능성은 있다.

이 글이 유용했다면 AI Digester를 구독해주세요.

참고 자료

LLM-FSM 논문 – arXiv (2026-02-03)
Synopsys AI EDA – Synopsys (2026-02-10)
Cadence Cerebrus – Cadence (2026-02-10)