이 문제는 최신 AI 모델의 구조 때문에 더 커지고 있다.
프랙타일이 제안하는 해결책은 인메모리 컴퓨팅(in‑memory compute) 또는 메모리 근접 연산 구조다.
기존 AI 가속기(예: Nvidia GPU)는 보통 **연산 코어와 메모리(HBM)**가 분리된 구조다. 이 경우 데이터는 메모리와 연산 장치 사이를 계속 왕복해야 한다. 이 과정이 시간과 전력을 많이 소모한다.
핵심 설계 아이디어는 다음과 같다.
프랙타일은 자사의 시스템이 현재 하드웨어 대비 최대 25배 빠른 추론 속도와 약 10분의 1 수준의 비용을 목표로 한다고 말한다. 초기 연구 단계에서는 일부 시나리오에서 100배 빠른 속도 가능성도 언급된 바 있지만, 이러한 수치는 아직 독립적인 벤치마크로 검증된 결과는 아니다.
이번 **시리즈 B 투자 라운드(2억2000만 달러)**는 Accel, Factorial Funds, Founders Fund가 주도했고, Conviction, Gigascale Capital, O1A Ventures, Felicis, Buckley Ventures, 8VC 등이 참여했다.
프랙타일은 이 자금을 다음과 같은 목적에 사용할 계획이다.
또 일부 보도에 따르면 AI 기업 Anthropic과 같은 업체가 향후 해당 칩을 사용할 가능성에 대해 초기 논의를 진행했다는 이야기도 있지만, 공식적인 상업 계약은 아직 발표되지 않았다.
만약 프랙타일 같은 접근이 실제로 성공한다면, AI 활용 방식 자체가 바뀔 수 있다.
최근 AI 모델은 답을 바로 생성하기보다 중간 추론 과정을 거쳐 여러 해결책을 탐색하고 검증하기도 한다. 이를 ‘테스트 타임 컴퓨트(test‑time compute)’라고 부르는데, 추론 속도가 빨라질수록 이런 방식이 훨씬 현실적인 전략이 된다.
대화형 AI에서 가장 중요한 요소 중 하나는 응답 지연이다. 토큰 생성 속도가 빨라지면 AI 비서는 사람과 더 자연스럽게 대화하는 수준에 가까워질 수 있다.
기업이 AI 코파일럿이나 고객 지원 챗봇, 모델 API를 대규모로 운영하려면 토큰당 비용과 처리량이 중요하다. 전용 추론 하드웨어는 운영 비용을 크게 낮출 가능성이 있다.
프랙타일의 전략은 AI 산업의 더 큰 흐름을 반영한다. 연구 단계 중심의 AI에서 실제 서비스 운영 중심의 AI로 전환되면서 추론 효율이 핵심 경쟁력이 되고 있다는 것이다.
다만 현실적인 문제도 있다. 새로운 칩 아키텍처가 이미 성숙한 GPU 생태계와 경쟁하는 것은 매우 어려운 일이다.
또한 프랙타일이 제시한 성능 수치는 대부분 목표치 또는 회사 주장이며, 대규모 데이터센터 환경에서 검증된 결과는 아직 없다.
그럼에도 불구하고 대형 투자와 시장 관심이 커지고 있다는 사실은 분명하다. 업계에서는 앞으로 AI의 다음 혁신이 더 큰 모델이 아니라 더 빠르게 실행되는 모델에서 나올 수 있다고 보기 시작했다.
Comments
0 comments