JawabanDipublikasikan2 bulan yang laluLast edited bulan lalu19 sumber

Bagaimana Fractile Ingin Mengatasi Bottleneck Inference AI

Startup Inggris Fractile mengumpulkan $220 juta untuk mengembangkan chip AI inference yang melakukan komputasi langsung di dalam memori guna mengatasi bottleneck bandwidth dan latensi. Arsitektur Fractile menggabungkan compute dan memori pada chip yang sama sehingga mengurangi perpindahan data yang memperlambat infe...

Cari dan periksa fakta dengan Studio Global AI Jelajahi lebih banyak halaman Trending

Concept illustration of AI inference hardware integrating memory and compute — How is UK AI chip startup Fractile addressing the growing AI inference bottleneck, what did its $220M Series B funding involve, why does theFractile is developing AI chips designed to perform computation directly within memory to reduce inference latency and cost.
AI Perintah
Create a landscape editorial hero image for this Studio Global article: How is UK AI chip startup Fractile addressing the growing AI inference bottleneck, what did its $220M Series B funding involve, why does the. Article summary: Fractile is attacking the inference bottleneck with specialized AI inference hardware that moves compute much closer to memory, rather than relying on conventional GPU designs that shuttle model data between separate com. Topic tags: general, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject "# Fractile United Kingdom ## Why Fractile matters #### Summary Fractile has raised $220 million in a Series B funding round led by Accel, Factorial Funds, and Founders Fund, wi" source context "Fractile raised $200M | AI Chips | MapCo" Reference image 2: visual subject "Founded in 2022, Fractile aims to address t
openai.com

Selama beberapa tahun terakhir, perusahaan AI berlomba melatih model yang semakin besar. Namun kini muncul masalah baru: bagaimana menjalankan model tersebut secara efisien ketika digunakan oleh pengguna nyata.

Startup berbasis London Fractile mencoba menjawab masalah itu dengan perangkat keras khusus untuk AI inference—tahap ketika model yang sudah dilatih menghasilkan jawaban. Perusahaan ini baru saja mengumumkan pendanaan Series B sebesar $220 juta untuk mengembangkan chip yang ditujukan khusus mempercepat proses tersebut.

Menurut Fractile, hambatan utama perkembangan AI berikutnya bukan hanya kemampuan model, tetapi seberapa cepat dan murah model itu dapat menghasilkan output dalam skala besar.

Mengapa Inference Menjadi Bottleneck Baru AI

Sebagian besar infrastruktur AI saat ini dirancang untuk training, yaitu proses komputasi berat yang digunakan untuk melatih model bahasa besar (LLM). GPU sangat efektif untuk tahap ini karena mampu melakukan operasi matematika paralel dalam jumlah besar.

Namun setelah model dilatih dan digunakan oleh pengguna, prosesnya berubah menjadi inference—model terus menghasilkan token sebagai respons terhadap permintaan pengguna.

Pada tahap ini, masalah utama bukan lagi sekadar daya komputasi, tetapi bandwidth memori dan latensi akses data. Model besar harus membaca bobot model dan data intermediate dalam jumlah besar berulang kali saat menghasilkan setiap token. Jika perangkat keras tidak dapat memindahkan data cukup cepat, menambah unit komputasi saja tidak banyak membantu.

Masalah ini makin terasa karena model AI terbaru:

Menghasilkan output yang lebih panjang dan kompleks
Memiliki context window yang jauh lebih besar
Menjalankan beberapa langkah penalaran internal sebelum memberikan jawaban

Dalam beberapa kasus, satu tugas dapat membutuhkan puluhan juta token, sehingga kecepatan generasi dan akses memori menjadi faktor krusial.

Fractile berpendapat bahwa industri AI mendekati titik di mana latensi inference—bukan lagi kemampuan model—menjadi batas utama sistem AI praktis.

Pendekatan Fractile: Komputasi Langsung di Dalam Memori

Untuk mengatasi masalah tersebut, Fractile mengembangkan chip berbasis in‑memory compute (atau komputasi di dalam/di dekat memori).

Pada akselerator AI tradisional seperti GPU Nvidia, unit komputasi terpisah dari memori berkecepatan tinggi seperti HBM. Data harus bolak‑balik di antara keduanya, yang memakan waktu dan energi.

Arsitektur Fractile mencoba mengubah pendekatan itu dengan melakukan banyak operasi komputasi langsung di tempat data model berada, sehingga perpindahan data bisa ditekan secara drastis.

Elemen utama desainnya meliputi:

Integrasi unit komputasi dan memori pada chip yang sama
Menjalankan operasi model langsung di struktur memori
Mengurangi transfer data antara memori eksternal dan unit komputasi

Mengurangi perpindahan data ini berpotensi meningkatkan latensi, efisiensi energi, dan biaya operasional—tiga faktor penting untuk menjalankan AI dalam skala besar.

Perusahaan tersebut menyatakan bahwa sistemnya menargetkan menjalankan inference model frontier hingga 25× lebih cepat dengan biaya sekitar sepersepuluh dari perangkat keras saat ini. Pada tahap pengembangan awal, bahkan ada target ambisius hingga 100× lebih cepat dan 10× lebih murah dalam beberapa skenario—meskipun klaim ini masih berasal dari perusahaan dan belum diverifikasi secara independen.

Untuk Apa Pendanaan $220 Juta Ini Digunakan

Pendanaan Series B senilai $220 juta dipimpin oleh Accel, Factorial Funds, dan Founders Fund, dengan partisipasi dari Conviction, Gigascale Capital, O1A Ventures, Felicis, Buckley Ventures, dan 8VC.

Dana tersebut akan digunakan untuk:

Mempercepat pengembangan arsitektur chip inference
Membawa sistem perangkat keras pertama menuju tahap produksi
Memperluas tim teknik di Inggris, Amerika Serikat, dan Taiwan

Fractile didirikan pada 2022 oleh insinyur lulusan Oxford Walter Goodwin dan menargetkan pengiriman sistem pertama kepada pelanggan dalam beberapa tahun ke depan.

Ada juga laporan mengenai diskusi awal dengan perusahaan AI seperti Anthropic terkait kemungkinan penggunaan chip tersebut ketika sudah siap diproduksi, meskipun belum ada kontrak komersial yang dikonfirmasi.

Jenis Beban Kerja AI yang Bisa Terbuka

Jika Fractile—atau pendekatan serupa—benar‑benar mampu mempercepat inference secara drastis, beberapa kategori aplikasi AI baru bisa menjadi lebih praktis.

1. Model Reasoning Skala Besar

Model reasoning modern sering membuat langkah perhitungan tambahan untuk memeriksa jawaban atau mengeksplorasi beberapa solusi. Inference yang lebih cepat memungkinkan model menggunakan lebih banyak komputasi saat runtime, konsep yang sering disebut test‑time compute.

2. Asisten AI Real‑Time

Percakapan dengan AI terasa alami jika responsnya cepat. Mengurangi waktu generasi token dapat membuat asisten AI terasa lebih mendekati percakapan real‑time.

3. Sistem Agen AI (Agentic AI)

Agen AI otonom dapat menjalankan alur kerja kompleks seperti memanggil alat, menulis kode, dan melakukan loop penalaran berulang. Tugas seperti ini bisa memerlukan anggaran token sangat besar, sehingga kecepatan inference menjadi kunci.

4. AI Perusahaan Berskala Besar

Perusahaan yang menjalankan copilot internal, layanan pelanggan otomatis, atau API model AI memerlukan throughput tinggi dan biaya rendah per token. Perangkat keras inference khusus bisa membantu menekan biaya operasional secara signifikan.

Tantangan Besarnya: Apakah Bisa Skala Besar?

Gagasan Fractile mencerminkan perubahan arah industri AI. Ketika AI bergerak dari riset ke penggunaan nyata, efisiensi inference menjadi sama pentingnya dengan kemampuan training.

Namun ada satu pertanyaan besar: apakah teknologi tersebut dapat benar‑benar bekerja dalam skala pusat data.

Sejauh ini, klaim performa Fractile masih berupa target internal dan belum diuji secara independen. Membangun arsitektur chip baru yang dapat bersaing dengan ekosistem GPU yang sudah matang juga terkenal sangat sulit.

Meski begitu, besarnya pendanaan dan meningkatnya minat investor pada perangkat keras inference menunjukkan bahwa banyak pihak percaya terobosan AI berikutnya mungkin datang bukan dari model yang lebih besar—melainkan dari cara yang jauh lebih cepat untuk menjalankannya.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Cari dan periksa fakta dengan Studio Global AI

Orang-orang juga bertanya

Apa jawaban singkat untuk "Bagaimana Fractile Ingin Mengatasi Bottleneck Inference AI"?

Startup Inggris Fractile mengumpulkan $220 juta untuk mengembangkan chip AI inference yang melakukan komputasi langsung di dalam memori guna mengatasi bottleneck bandwidth dan latensi.

Apa poin penting yang harus divalidasi terlebih dahulu?

Apa yang harus saya lakukan selanjutnya dalam latihan?

Jika berhasil, teknologi ini dapat membuka peluang baru seperti model reasoning berskala besar, asisten AI real‑time, serta sistem agen AI yang membutuhkan jutaan token per tugas.

Sumber

← Back to Trending