Dieser Effekt verstärkt sich durch neue KI‑Trends:
Solche Aufgaben können zig Millionen Tokens pro Aufgabe erfordern – wodurch Geschwindigkeit und Speicherzugriff zu kritischen Faktoren werden.
Um dieses Problem anzugehen, entwickelt Fractile Chips auf Basis von In‑Memory‑Computing.
Bei klassischen KI‑Beschleunigern – etwa Nvidia‑GPUs – sind Rechenkerne und Speicher (z. B. High‑Bandwidth Memory, HBM) getrennt. Daten müssen ständig zwischen beiden Komponenten hin‑ und hergeschoben werden, was Zeit und Energie kostet.
Fractile verfolgt einen anderen Ansatz: Ein Großteil der Berechnung soll dort stattfinden, wo die Daten bereits liegen – im Speicher selbst.
Die Architektur umfasst unter anderem:
Weniger Datenbewegung kann mehrere Vorteile bringen: geringere Latenz, niedrigeren Energieverbrauch und niedrigere Betriebskosten – alles entscheidende Faktoren für großskalige KI‑Systeme.
Fractile gibt an, dass seine Systeme die Inference moderner Modelle bis zu 25‑mal schneller und zu etwa einem Zehntel der Kosten ausführen könnten als heutige Hardware. Frühere Entwicklungsziele nannten sogar Verbesserungen von bis zu 100‑facher Geschwindigkeit und zehnfach niedrigeren Kosten in bestimmten Szenarien. Diese Werte gelten jedoch als Unternehmensangaben und wurden bislang nicht unabhängig bestätigt.
Die Series‑B‑Runde über 220 Millionen Dollar wurde von Accel, Factorial Funds und Founders Fund angeführt. Weitere Investoren sind Conviction, Gigascale Capital, O1A Ventures, Felicis, Buckley Ventures und 8VC.
Mit dem Kapital will Fractile:
Das Unternehmen wurde 2022 vom Oxford‑ausgebildeten Ingenieur Walter Goodwin gegründet. Ziel ist es, die ersten Systeme später in diesem Jahrzehnt an Kunden auszuliefern.
Berichten zufolge gab es auch erste Gespräche mit KI‑Firmen wie Anthropic über mögliche Einsätze der Technologie, sobald Produktionshardware verfügbar ist. Bestätigte kommerzielle Verträge gibt es bislang jedoch nicht.
Sollte sich Fractiles Architektur bewähren, könnte sie eine Reihe neuer KI‑Workloads praktikabler machen.
Viele moderne Modelle führen während der Antwortgenerierung zusätzliche Denk‑ oder Prüfprozesse aus. Schnellere Inference würde erlauben, mehr Rechenleistung zur Laufzeit einzusetzen, ein Konzept, das häufig als Test‑Time Compute bezeichnet wird.
Für Konversations‑KI ist niedrige Latenz entscheidend. Schnellere Token‑Generierung könnte Antworten liefern, die sich deutlich näher an echter Echtzeit‑Interaktion anfühlen.
Agentische Systeme führen komplexe Arbeitsabläufe aus – mit Tool‑Aufrufen, Code‑Generierung und wiederholten Reasoning‑Schritten. Diese Aufgaben benötigen oft sehr große Token‑Budgets, weshalb die Geschwindigkeit der Inference entscheidend ist.
Unternehmen, die KI‑Copiloten, Support‑Bots oder große Modell‑APIs betreiben, müssen enorme Mengen an Anfragen verarbeiten. Spezialhardware für Inference könnte Kosten pro generiertem Token deutlich senken.
Fractiles Ansatz spiegelt einen größeren Trend in der Branche wider: Wenn KI aus der Forschung in den produktiven Einsatz wandert, wird Inference‑Effizienz genauso wichtig wie Training.
Allerdings bleiben viele Leistungsversprechen bislang theoretische Zielwerte. Eine völlig neue Chiparchitektur zu entwickeln, die mit dem etablierten GPU‑Ökosystem konkurrieren kann, gilt als extrem schwierig.
Trotzdem zeigt die Größe der Finanzierungsrunde – und das steigende Interesse an Inference‑Hardware –, dass viele Investoren überzeugt sind: Der nächste große Fortschritt in der KI könnte weniger aus noch größeren Modellen entstehen, sondern aus schnelleren und effizienteren Wegen, sie auszuführen.
Comments
0 comments