AI 지능은 선형이 아니다 — 3가지 핵심 논점
- AI는 특정 영역에서 초인적이면서 다른 영역에서는 인간보다 못하다
- 기존 IQ식 단일 척도 평가로는 AI 능력을 제대로 측정할 수 없다
- AI 안전성과 벤치마크 설계에 근본적 재고가 필요하다
‘이상한 지능’이라는 새로운 프레임워크
AI는 인간처럼 똑똒해질 수 있을까. Chilson과 Schwitzgebel이 arXiv에 발표한 연구는 그 질문 자체가 잘못됐다고 말한다[arXiv]. 기존 모델은 지능을 단일 척도로 측정할 수 있다고 가정했다. 실제 AI는 그렇게 작동하지 않는다.
‘이상한 지능(Strange Intelligence)’은 이 현상을 설명한다. 특정 도메인의 초인적 성능이 다른 도메인의 능력을 보장하지 않는다[Chilson & Schwitzgebel, 2025]. GPT가 복잡한 수학을 풀면서 간단한 상식에 틀리는 건 이미 익숙한 풍경이다.
벤치마크 점수만으로는 부족하다
단일 벤치마크로 AI를 평가하는 방식은 불완전하다[UC Riverside]. 체스에서 인간을 이기는 AI가 일상 대화에서 실수하는 이유를 선형 모델로는 설명하기 어렵다.
대형 언어모델이 고급 프로그래밍을 하면서 기초 산술에서 오류를 내는 것은 AI가 인간 지능의 경로를 따르지 않는다는 증거다.
AI 안전성 논의에 던지는 시사점
연구진은 범용 지능을 ‘광범위한 목표를 달성하는 능력’으로 재정의할 것을 제안한다. 벤치마크 점수를 올리는 것이 아니라 다양한 상황에서의 강건성을 추구해야 한다는 의미다.
AI는 인간과 다른, ‘이상한’ 방식으로 지능을 구현하고 있다. 이 프레임워크가 향후 AI 평가 기준에 참고가 되길 바란다.
자주 묻는 질문 (FAQ)
Q: ‘이상한 지능(Strange Intelligence)’이란 무엇인가?
A: AI가 특정 영역에서 초인적 능력을 보이면서 다른 영역에서 인간보다 못한 성능을 보이는 비선형적 패턴을 뜻한다. 단일 척도로는 설명이 안 되는 현상을 포착하기 위한 개념이다.
Q: AI 개발에 미치는 실질적 영향은?
A: 단일 벤치마크 점수에 의존하는 평가 방식의 한계를 지적한다. 특정 테스트 고득점이 다른 영역 우수 성능을 보장하지 않으므로 다양한 도메인에 걸친 종합 평가가 필요하다.
Q: AI 안전성 연구에는 어떤 시사점이 있는가?
A: AI가 비선형적으로 발전한다면 특정 능력 향상이 예상치 못한 취약점과 공존할 수 있다. 안전성 평가에서 다양한 시나리오를 고려한 적대적 테스트와 강건성 검증이 중요해진다.
이 글이 유용했다면 AI Digester를 구독해주세요.
참고 자료
- Artificial Intelligence as Strange Intelligence: Against Linear Models of Intelligence – arXiv (2025-02-07)
- Eric Schwitzgebel Faculty Page – UC Riverside (2025)
- Recent AI papers on arXiv – arXiv CS.AI (2025)