Masalah ini makin terasa karena model AI terbaru:
Dalam beberapa kasus, satu tugas dapat membutuhkan puluhan juta token, sehingga kecepatan generasi dan akses memori menjadi faktor krusial.
Fractile berpendapat bahwa industri AI mendekati titik di mana latensi inference—bukan lagi kemampuan model—menjadi batas utama sistem AI praktis.
Untuk mengatasi masalah tersebut, Fractile mengembangkan chip berbasis in‑memory compute (atau komputasi di dalam/di dekat memori).
Pada akselerator AI tradisional seperti GPU Nvidia, unit komputasi terpisah dari memori berkecepatan tinggi seperti HBM. Data harus bolak‑balik di antara keduanya, yang memakan waktu dan energi.
Arsitektur Fractile mencoba mengubah pendekatan itu dengan melakukan banyak operasi komputasi langsung di tempat data model berada, sehingga perpindahan data bisa ditekan secara drastis.
Elemen utama desainnya meliputi:
Mengurangi perpindahan data ini berpotensi meningkatkan latensi, efisiensi energi, dan biaya operasional—tiga faktor penting untuk menjalankan AI dalam skala besar.
Perusahaan tersebut menyatakan bahwa sistemnya menargetkan menjalankan inference model frontier hingga 25× lebih cepat dengan biaya sekitar sepersepuluh dari perangkat keras saat ini. Pada tahap pengembangan awal, bahkan ada target ambisius hingga 100× lebih cepat dan 10× lebih murah dalam beberapa skenario—meskipun klaim ini masih berasal dari perusahaan dan belum diverifikasi secara independen.
Pendanaan Series B senilai $220 juta dipimpin oleh Accel, Factorial Funds, dan Founders Fund, dengan partisipasi dari Conviction, Gigascale Capital, O1A Ventures, Felicis, Buckley Ventures, dan 8VC.
Dana tersebut akan digunakan untuk:
Fractile didirikan pada 2022 oleh insinyur lulusan Oxford Walter Goodwin dan menargetkan pengiriman sistem pertama kepada pelanggan dalam beberapa tahun ke depan.
Ada juga laporan mengenai diskusi awal dengan perusahaan AI seperti Anthropic terkait kemungkinan penggunaan chip tersebut ketika sudah siap diproduksi, meskipun belum ada kontrak komersial yang dikonfirmasi.
Jika Fractile—atau pendekatan serupa—benar‑benar mampu mempercepat inference secara drastis, beberapa kategori aplikasi AI baru bisa menjadi lebih praktis.
Model reasoning modern sering membuat langkah perhitungan tambahan untuk memeriksa jawaban atau mengeksplorasi beberapa solusi. Inference yang lebih cepat memungkinkan model menggunakan lebih banyak komputasi saat runtime, konsep yang sering disebut test‑time compute.
Percakapan dengan AI terasa alami jika responsnya cepat. Mengurangi waktu generasi token dapat membuat asisten AI terasa lebih mendekati percakapan real‑time.
Agen AI otonom dapat menjalankan alur kerja kompleks seperti memanggil alat, menulis kode, dan melakukan loop penalaran berulang. Tugas seperti ini bisa memerlukan anggaran token sangat besar, sehingga kecepatan inference menjadi kunci.
Perusahaan yang menjalankan copilot internal, layanan pelanggan otomatis, atau API model AI memerlukan throughput tinggi dan biaya rendah per token. Perangkat keras inference khusus bisa membantu menekan biaya operasional secara signifikan.
Gagasan Fractile mencerminkan perubahan arah industri AI. Ketika AI bergerak dari riset ke penggunaan nyata, efisiensi inference menjadi sama pentingnya dengan kemampuan training.
Namun ada satu pertanyaan besar: apakah teknologi tersebut dapat benar‑benar bekerja dalam skala pusat data.
Sejauh ini, klaim performa Fractile masih berupa target internal dan belum diuji secara independen. Membangun arsitektur chip baru yang dapat bersaing dengan ekosistem GPU yang sudah matang juga terkenal sangat sulit.
Meski begitu, besarnya pendanaan dan meningkatnya minat investor pada perangkat keras inference menunjukkan bahwa banyak pihak percaya terobosan AI berikutnya mungkin datang bukan dari model yang lebih besar—melainkan dari cara yang jauh lebih cepat untuk menjalankannya.
Comments
0 comments