
글로벌 인공지능(AI) 산업의 중심축이 빠르게 이동하고 있다. 거대한 GPU와 초대형 모델 구축 경쟁에서 벗어나 실제 서비스 환경에서 얼마나 효율적으로 AI를 실행하느냐를 겨루는 ‘추론 최적화’ 경쟁이 본격화되는 모습이다.
AI 기술이 데이터센터를 넘어 로봇·모바일·스마트팩토리·자율주행 등 산업 전반으로 확산되면서 전력 효율과 메모리 병목 문제 해결이 핵심 과제로 떠오르고 있다.
16일 업계에 따르면 최근 미국 AI 반도체 기업 세레브라스 시스템즈(Cerebras Systems)는 나스닥 상장 이후 급등세를 기록하며 시장의 주목을 받았다.
업계에서는 이를 단순 IPO 흥행이 아니라 AI 산업 패러다임 변화의 신호로 해석하고 있다.
세레브라스는 초대형 칩 구조와 고속 메모리 기술을 기반으로 AI 추론 효율을 높이는 전략을 강화하고 있다. AI 산업이 단순 학습 성능 경쟁을 넘어 실제 운영 비용과 전력 효율 경쟁으로 이동하고 있다는 분석이다.
특히 AI 에이전트와 실시간 생성형 AI 서비스가 확대되면서 데이터 이동 비용과 전력 소비가 기업 수익성을 좌우하는 핵심 요소로 부상하고 있다.
시장에서는 앞으로 AI 컴퓨팅 수요의 상당 부분이 초거대 모델 학습보다 추론 영역에서 발생할 가능성이 높다고 보고 있다.
이 같은 변화는 국내 AI 반도체 업계에도 영향을 미치고 있다.
퓨리오사AI, 리벨리온, 모빌린트 등 국내 NPU(신경망처리장치) 기업들은 전력 효율성과 추론 성능을 앞세워 시장 공략에 속도를 내고 있다.
AI 모델 경량화와 최적화 기술 기업들의 역할도 커지고 있다.
AI 최적화 플랫폼 ‘넷츠프레소’를 운영하는 노타는 모델 경량화 기술을 기반으로 국내 NPU 기업들과 협업을 확대하고 있다.
스퀴즈비츠 역시 거대언어모델(LLM) 압축 및 최적화 기술을 활용해 GPU와 NPU 환경에서 추론 효율을 높이는 솔루션 개발에 집중하고 있다.
업계에서는 향후 AI 시장의 승부처가 ‘얼마나 큰 모델을 만들 수 있는가’보다 ‘얼마나 적은 전력으로 빠르게 추론할 수 있는가’에 달려 있다는 전망이 나온다.
특히 온디바이스 AI 시대가 본격화될 경우 스마트폰·로봇·자동차 등 제한된 전력 환경에서 AI를 효율적으로 구동하는 기술 경쟁이 더욱 치열해질 것으로 예상된다.
장호진 기자 daegunewsdesk@gmail.com
