Áp lực này càng lớn khi các mô hình AI ngày càng phức tạp:
Một số tác vụ hiện đại có thể tiêu tốn hàng chục triệu token cho mỗi nhiệm vụ, khiến tốc độ sinh token trở thành yếu tố then chốt.
Fractile cho rằng ngành AI đang tiến gần tới thời điểm mà độ trễ suy luận — chứ không phải khả năng của mô hình — sẽ trở thành giới hạn chính của hệ thống AI thực tế.
Để giải quyết vấn đề này, Fractile đang phát triển chip dựa trên khái niệm in‑memory compute (tính toán trong bộ nhớ hoặc gần bộ nhớ).
Trong kiến trúc truyền thống, như GPU của Nvidia, bộ xử lý và bộ nhớ (ví dụ HBM) là hai thành phần tách biệt. Dữ liệu phải liên tục di chuyển giữa hai nơi này — quá trình vừa tốn thời gian vừa tiêu tốn năng lượng.
Kiến trúc của Fractile cố gắng đảo ngược mô hình đó: thực hiện phần lớn phép tính ngay tại nơi dữ liệu của mô hình đang nằm.
Những điểm chính của thiết kế gồm:
Việc giảm lượng dữ liệu phải di chuyển có thể cải thiện độ trễ, hiệu suất năng lượng và chi phí vận hành, những yếu tố rất quan trọng khi chạy AI ở quy mô lớn.
Theo công ty, hệ thống của họ đặt mục tiêu chạy suy luận cho các mô hình tiên tiến nhanh hơn tới 25 lần và với chi phí khoảng 1/10 so với phần cứng hiện nay. Các tài liệu trước đây thậm chí từng nhắc đến mục tiêu dài hạn 100× nhanh hơn và 10× rẻ hơn, nhưng đây vẫn là tuyên bố của công ty chứ chưa có benchmark độc lập.
Vòng Series B trị giá 220 triệu USD của Fractile do Accel, Factorial Funds và Founders Fund dẫn đầu. Các nhà đầu tư khác gồm Conviction, Gigascale Capital, O1A Ventures, Felicis, Buckley Ventures và 8VC.
Nguồn vốn mới sẽ được dùng để:
Fractile được thành lập năm 2022 bởi kỹ sư thiết kế chip Walter Goodwin, người được đào tạo tại Đại học Oxford. Công ty đang hướng tới việc triển khai hệ thống đầu tiên cho khách hàng trong vài năm tới.
Một số báo cáo cũng cho biết Anthropic đã có các cuộc trao đổi ban đầu về khả năng sử dụng công nghệ của Fractile khi phần cứng sẵn sàng, dù chưa có thỏa thuận thương mại chính thức nào được xác nhận.
Nếu kiến trúc như của Fractile thực sự tăng tốc suy luận đáng kể, nó có thể mở đường cho nhiều dạng ứng dụng AI mới.
Các mô hình reasoning hiện đại thường tạo ra nhiều bước suy nghĩ nội bộ trước khi đưa ra câu trả lời. Suy luận nhanh hơn cho phép mô hình dùng nhiều compute hơn tại thời điểm chạy, khái niệm thường gọi là test‑time compute.
Các hệ thống hội thoại cần phản hồi gần như ngay lập tức. Giảm độ trễ sinh token có thể giúp trợ lý AI gần giống tốc độ hội thoại thật hơn.
AI agent tự động có thể thực hiện chuỗi tác vụ phức tạp: gọi công cụ, viết mã, phân tích dữ liệu và lặp lại nhiều bước suy luận. Những tác vụ này tiêu tốn ngân sách token rất lớn, khiến tốc độ suy luận trở thành yếu tố quyết định.
Các công ty triển khai chatbot hỗ trợ khách hàng, copilots nội bộ hay API AI cần thông lượng cao và chi phí trên mỗi token thấp. Phần cứng chuyên cho inference có thể giảm đáng kể chi phí vận hành.
Ý tưởng của Fractile phản ánh một xu hướng lớn hơn trong ngành: khi AI chuyển từ nghiên cứu sang ứng dụng thực tế, hiệu quả suy luận trở nên quan trọng ngang với huấn luyện.
Tuy vậy, những tuyên bố hiệu năng tham vọng của công ty hiện vẫn là mục tiêu kỹ thuật, chưa được kiểm chứng độc lập trên sản phẩm thương mại. Việc xây dựng một kiến trúc chip mới có thể cạnh tranh với hệ sinh thái GPU đã trưởng thành là thách thức rất lớn.
Dù vậy, quy mô của vòng đầu tư này cho thấy ngày càng nhiều nhà đầu tư tin rằng bước đột phá tiếp theo của AI có thể đến không phải từ mô hình lớn hơn, mà từ cách chạy chúng nhanh hơn.
Comments
0 comments