Câu trả lờiĐã xuất bản2 tháng trướcLast edited tháng trước19 nguồn

Fractile muốn giải bài toán nghẽn cổ chai của AI ở giai đoạn suy luận như thế nào?

Startup AI Fractile tại Anh vừa gọi vốn 220 triệu USD Series B để phát triển chip chuyên cho suy luận AI, tập trung giải quyết nút thắt về băng thông và độ trễ bộ nhớ khi chạy các mô hình lớn. Kiến trúc của Fractile đưa việc tính toán trực tiếp vào trong bộ nhớ, giảm việc phải di chuyển dữ liệu giữa bộ nhớ và bộ xử...

Tìm kiếm và kiểm chứng sự thật với Studio Global AI Duyệt thêm trang xu hướng

Concept illustration of AI inference hardware integrating memory and compute — How is UK AI chip startup Fractile addressing the growing AI inference bottleneck, what did its $220M Series B funding involve, why does theFractile is developing AI chips designed to perform computation directly within memory to reduce inference latency and cost.
Prompt AI
Create a landscape editorial hero image for this Studio Global article: How is UK AI chip startup Fractile addressing the growing AI inference bottleneck, what did its $220M Series B funding involve, why does the. Article summary: Fractile is attacking the inference bottleneck with specialized AI inference hardware that moves compute much closer to memory, rather than relying on conventional GPU designs that shuttle model data between separate com. Topic tags: general, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject "# Fractile United Kingdom ## Why Fractile matters #### Summary Fractile has raised $220 million in a Series B funding round led by Accel, Factorial Funds, and Founders Fund, wi" source context "Fractile raised $200M | AI Chips | MapCo" Reference image 2: visual subject "Founded in 2022, Fractile aims to address t
openai.com

Trong vài năm qua, ngành AI gần như chỉ tập trung vào một cuộc đua: huấn luyện các mô hình ngày càng lớn. Nhưng khi các mô hình này bắt đầu được triển khai rộng rãi, một vấn đề khác nổi lên rõ rệt: chạy chúng nhanh và hiệu quả trong thực tế.

Startup tại London Fractile đang xây dựng phần cứng chuyên biệt cho chính giai đoạn đó. Công ty vừa huy động 220 triệu USD trong vòng Series B để phát triển chip AI tối ưu cho suy luận (inference) — giai đoạn mà mô hình đã huấn luyện xong và bắt đầu tạo câu trả lời cho người dùng.

Theo Fractile, bước tiến tiếp theo của AI không chỉ phụ thuộc vào mô hình tốt hơn mà còn ở tốc độ và chi phí tạo ra đầu ra của mô hình ở quy mô lớn.

Vì sao suy luận AI đang trở thành nút thắt cổ chai

Phần lớn hạ tầng AI hiện nay được tối ưu cho training — quá trình huấn luyện các mô hình ngôn ngữ lớn. GPU rất mạnh trong giai đoạn này vì chúng xử lý tốt các phép toán song song khổng lồ.

Nhưng khi mô hình được triển khai, nó chuyển sang inference: liên tục tạo token (từ hoặc ký tự) để trả lời câu hỏi của người dùng.

Ở giai đoạn này, vấn đề không còn chỉ là sức mạnh tính toán. Thay vào đó, hệ thống bị giới hạn bởi:

Băng thông bộ nhớ (memory bandwidth)
Độ trễ truy cập dữ liệu (memory latency)

Các mô hình lớn phải đọc lượng dữ liệu khổng lồ từ trọng số và bộ nhớ trung gian mỗi lần tạo token. Nếu phần cứng không di chuyển dữ liệu đủ nhanh, việc tăng sức mạnh xử lý cũng không cải thiện nhiều.

Áp lực này càng lớn khi các mô hình AI ngày càng phức tạp:

Câu trả lời dài hơn
Context window (ngữ cảnh đầu vào) ngày càng lớn
Các mô hình reasoning phải thực hiện nhiều bước suy nghĩ nội bộ

Một số tác vụ hiện đại có thể tiêu tốn hàng chục triệu token cho mỗi nhiệm vụ, khiến tốc độ sinh token trở thành yếu tố then chốt.

Fractile cho rằng ngành AI đang tiến gần tới thời điểm mà độ trễ suy luận — chứ không phải khả năng của mô hình — sẽ trở thành giới hạn chính của hệ thống AI thực tế.

Cách tiếp cận của Fractile: tính toán ngay trong bộ nhớ

Để giải quyết vấn đề này, Fractile đang phát triển chip dựa trên khái niệm in‑memory compute (tính toán trong bộ nhớ hoặc gần bộ nhớ).

Trong kiến trúc truyền thống, như GPU của Nvidia, bộ xử lý và bộ nhớ (ví dụ HBM) là hai thành phần tách biệt. Dữ liệu phải liên tục di chuyển giữa hai nơi này — quá trình vừa tốn thời gian vừa tiêu tốn năng lượng.

Kiến trúc của Fractile cố gắng đảo ngược mô hình đó: thực hiện phần lớn phép tính ngay tại nơi dữ liệu của mô hình đang nằm.

Những điểm chính của thiết kế gồm:

Tích hợp compute và memory trên cùng một chip
Thực hiện phép toán trực tiếp trong cấu trúc bộ nhớ
Giảm tối đa việc truyền dữ liệu ra vào bộ nhớ ngoài

Việc giảm lượng dữ liệu phải di chuyển có thể cải thiện độ trễ, hiệu suất năng lượng và chi phí vận hành, những yếu tố rất quan trọng khi chạy AI ở quy mô lớn.

Theo công ty, hệ thống của họ đặt mục tiêu chạy suy luận cho các mô hình tiên tiến nhanh hơn tới 25 lần và với chi phí khoảng 1/10 so với phần cứng hiện nay. Các tài liệu trước đây thậm chí từng nhắc đến mục tiêu dài hạn 100× nhanh hơn và 10× rẻ hơn, nhưng đây vẫn là tuyên bố của công ty chứ chưa có benchmark độc lập.

Vòng gọi vốn 220 triệu USD sẽ dùng vào việc gì

Vòng Series B trị giá 220 triệu USD của Fractile do Accel, Factorial Funds và Founders Fund dẫn đầu. Các nhà đầu tư khác gồm Conviction, Gigascale Capital, O1A Ventures, Felicis, Buckley Ventures và 8VC.

Nguồn vốn mới sẽ được dùng để:

Tăng tốc phát triển kiến trúc chip suy luận
Đưa hệ thống phần cứng đầu tiên tiến gần tới sản xuất
Mở rộng đội ngũ kỹ sư tại Anh, Mỹ và Đài Loan

Fractile được thành lập năm 2022 bởi kỹ sư thiết kế chip Walter Goodwin, người được đào tạo tại Đại học Oxford. Công ty đang hướng tới việc triển khai hệ thống đầu tiên cho khách hàng trong vài năm tới.

Một số báo cáo cũng cho biết Anthropic đã có các cuộc trao đổi ban đầu về khả năng sử dụng công nghệ của Fractile khi phần cứng sẵn sàng, dù chưa có thỏa thuận thương mại chính thức nào được xác nhận.

Những loại workload AI mới có thể xuất hiện

Nếu kiến trúc như của Fractile thực sự tăng tốc suy luận đáng kể, nó có thể mở đường cho nhiều dạng ứng dụng AI mới.

Mô hình suy luận quy mô lớn

Các mô hình reasoning hiện đại thường tạo ra nhiều bước suy nghĩ nội bộ trước khi đưa ra câu trả lời. Suy luận nhanh hơn cho phép mô hình dùng nhiều compute hơn tại thời điểm chạy, khái niệm thường gọi là test‑time compute.

Trợ lý AI thời gian thực

Các hệ thống hội thoại cần phản hồi gần như ngay lập tức. Giảm độ trễ sinh token có thể giúp trợ lý AI gần giống tốc độ hội thoại thật hơn.

Hệ thống AI dạng agent

AI agent tự động có thể thực hiện chuỗi tác vụ phức tạp: gọi công cụ, viết mã, phân tích dữ liệu và lặp lại nhiều bước suy luận. Những tác vụ này tiêu tốn ngân sách token rất lớn, khiến tốc độ suy luận trở thành yếu tố quyết định.

AI doanh nghiệp ở quy mô lớn

Các công ty triển khai chatbot hỗ trợ khách hàng, copilots nội bộ hay API AI cần thông lượng cao và chi phí trên mỗi token thấp. Phần cứng chuyên cho inference có thể giảm đáng kể chi phí vận hành.

Câu hỏi lớn: liệu công nghệ có hoạt động ở quy mô thật?

Ý tưởng của Fractile phản ánh một xu hướng lớn hơn trong ngành: khi AI chuyển từ nghiên cứu sang ứng dụng thực tế, hiệu quả suy luận trở nên quan trọng ngang với huấn luyện.

Tuy vậy, những tuyên bố hiệu năng tham vọng của công ty hiện vẫn là mục tiêu kỹ thuật, chưa được kiểm chứng độc lập trên sản phẩm thương mại. Việc xây dựng một kiến trúc chip mới có thể cạnh tranh với hệ sinh thái GPU đã trưởng thành là thách thức rất lớn.

Dù vậy, quy mô của vòng đầu tư này cho thấy ngày càng nhiều nhà đầu tư tin rằng bước đột phá tiếp theo của AI có thể đến không phải từ mô hình lớn hơn, mà từ cách chạy chúng nhanh hơn.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Tìm kiếm và kiểm chứng sự thật với Studio Global AI

Người ta cũng hỏi

Câu trả lời ngắn gọn cho "Fractile muốn giải bài toán nghẽn cổ chai của AI ở giai đoạn suy luận như thế nào?" là gì?

Những điểm chính cần xác nhận đầu tiên là gì?

Tôi nên làm gì tiếp theo trong thực tế?

Nếu đạt mục tiêu, phần cứng này có thể giúp chạy mô hình AI nhanh hơn tới 25 lần và rẻ hơn khoảng 10 lần, mở ra các ứng dụng như trợ lý AI thời gian thực, hệ thống agent tự động và mô hình suy luận phức tạp.

Nguồn

← Back to Trending