AntwortenVeröffentlichtvor 2 MonatenLast edited letzten Monat19 Quellen

Wie das Startup Fractile den wachsenden Inference‑Flaschenhals der KI lösen will

Das Londoner Startup Fractile hat 220 Millionen Dollar in einer Series‑B‑Finanzierungsrunde eingesammelt, um spezialisierte KI‑Inference‑Chips zu entwickeln. Die Architektur führt Berechnungen direkt im Speicher aus, wodurch Datenbewegungen reduziert und Latenz, Energieverbrauch sowie Kosten gesenkt werden sollen.

Suchen und Fakten prüfen mit Studio Global AI Mehr Trendseiten ansehen

Concept illustration of AI inference hardware integrating memory and compute — How is UK AI chip startup Fractile addressing the growing AI inference bottleneck, what did its $220M Series B funding involve, why does theFractile is developing AI chips designed to perform computation directly within memory to reduce inference latency and cost.
KI-Prompt
Create a landscape editorial hero image for this Studio Global article: How is UK AI chip startup Fractile addressing the growing AI inference bottleneck, what did its $220M Series B funding involve, why does the. Article summary: Fractile is attacking the inference bottleneck with specialized AI inference hardware that moves compute much closer to memory, rather than relying on conventional GPU designs that shuttle model data between separate com. Topic tags: general, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject "# Fractile United Kingdom ## Why Fractile matters #### Summary Fractile has raised $220 million in a Series B funding round led by Accel, Factorial Funds, and Founders Fund, wi" source context "Fractile raised $200M | AI Chips | MapCo" Reference image 2: visual subject "Founded in 2022, Fractile aims to address t
openai.com

In den vergangenen Jahren konzentrierte sich der KI‑Boom vor allem auf das Training immer größerer Modelle. Doch während diese Modelle leistungsfähiger werden, tritt ein anderes Problem immer stärker in den Vordergrund: die Geschwindigkeit und Kosten der Inference – also der Phase, in der ein trainiertes Modell Antworten für echte Nutzer generiert.

Das Londoner Startup Fractile setzt genau hier an. Das Unternehmen entwickelt spezialisierte Hardware für KI‑Inference und hat dafür kürzlich 220 Millionen US‑Dollar in einer Series‑B‑Finanzierungsrunde eingesammelt.

Die zentrale These des Unternehmens: Der nächste große Engpass der KI‑Entwicklung wird weniger die Qualität der Modelle sein – sondern wie schnell und effizient sie im Alltag ausgeführt werden können.

Warum Inference zum Engpass wird

Ein Großteil der heutigen KI‑Infrastruktur ist für das Training von Modellen optimiert. Grafikprozessoren (GPUs) sind dafür ideal, weil sie enorme Mengen paralleler mathematischer Operationen ausführen können.

Sobald ein Modell jedoch bereitgestellt wird, läuft es überwiegend im Inference‑Modus: Es generiert kontinuierlich Tokens als Antwort auf Nutzeranfragen.

Dabei verschiebt sich das technische Problem. Statt reiner Rechenleistung werden zunehmend Speicherbandbreite und Latenz entscheidend. Große Modelle müssen während der Generierung ständig enorme Mengen an Gewichtungen und Zwischendaten aus dem Speicher lesen. Wenn diese Daten nicht schnell genug bewegt werden können, bringt zusätzliche Rechenleistung allein kaum Vorteile.

Dieser Effekt verstärkt sich durch neue KI‑Trends:

Modelle erzeugen längere und komplexere Antworten
Kontextfenster werden deutlich größer
Reasoning‑Modelle führen mehrere interne Denkschritte aus

Solche Aufgaben können zig Millionen Tokens pro Aufgabe erfordern – wodurch Geschwindigkeit und Speicherzugriff zu kritischen Faktoren werden.

Fractiles Ansatz: Rechnen direkt im Speicher

Um dieses Problem anzugehen, entwickelt Fractile Chips auf Basis von In‑Memory‑Computing.

Bei klassischen KI‑Beschleunigern – etwa Nvidia‑GPUs – sind Rechenkerne und Speicher (z. B. High‑Bandwidth Memory, HBM) getrennt. Daten müssen ständig zwischen beiden Komponenten hin‑ und hergeschoben werden, was Zeit und Energie kostet.

Fractile verfolgt einen anderen Ansatz: Ein Großteil der Berechnung soll dort stattfinden, wo die Daten bereits liegen – im Speicher selbst.

Die Architektur umfasst unter anderem:

Integration von Rechenlogik und Speicher auf einem Chip
Ausführung von Modelloperationen direkt innerhalb von Speicherstrukturen
Minimierung externer Datenübertragungen

Weniger Datenbewegung kann mehrere Vorteile bringen: geringere Latenz, niedrigeren Energieverbrauch und niedrigere Betriebskosten – alles entscheidende Faktoren für großskalige KI‑Systeme.

Fractile gibt an, dass seine Systeme die Inference moderner Modelle bis zu 25‑mal schneller und zu etwa einem Zehntel der Kosten ausführen könnten als heutige Hardware. Frühere Entwicklungsziele nannten sogar Verbesserungen von bis zu 100‑facher Geschwindigkeit und zehnfach niedrigeren Kosten in bestimmten Szenarien. Diese Werte gelten jedoch als Unternehmensangaben und wurden bislang nicht unabhängig bestätigt.

Wofür das neue Kapital verwendet wird

Die Series‑B‑Runde über 220 Millionen Dollar wurde von Accel, Factorial Funds und Founders Fund angeführt. Weitere Investoren sind Conviction, Gigascale Capital, O1A Ventures, Felicis, Buckley Ventures und 8VC.

Mit dem Kapital will Fractile:

seine Inference‑Chiparchitektur schneller zur Marktreife bringen
erste Hardware‑Systeme in Produktion vorbereiten
Engineering‑Teams in Großbritannien, den USA und Taiwan ausbauen

Das Unternehmen wurde 2022 vom Oxford‑ausgebildeten Ingenieur Walter Goodwin gegründet. Ziel ist es, die ersten Systeme später in diesem Jahrzehnt an Kunden auszuliefern.

Berichten zufolge gab es auch erste Gespräche mit KI‑Firmen wie Anthropic über mögliche Einsätze der Technologie, sobald Produktionshardware verfügbar ist. Bestätigte kommerzielle Verträge gibt es bislang jedoch nicht.

Welche neuen KI‑Anwendungen schnellere Inference ermöglichen könnte

Sollte sich Fractiles Architektur bewähren, könnte sie eine Reihe neuer KI‑Workloads praktikabler machen.

Große Reasoning‑Modelle

Viele moderne Modelle führen während der Antwortgenerierung zusätzliche Denk‑ oder Prüfprozesse aus. Schnellere Inference würde erlauben, mehr Rechenleistung zur Laufzeit einzusetzen, ein Konzept, das häufig als Test‑Time Compute bezeichnet wird.

Echtzeit‑Assistenten

Für Konversations‑KI ist niedrige Latenz entscheidend. Schnellere Token‑Generierung könnte Antworten liefern, die sich deutlich näher an echter Echtzeit‑Interaktion anfühlen.

Autonome KI‑Agenten

Agentische Systeme führen komplexe Arbeitsabläufe aus – mit Tool‑Aufrufen, Code‑Generierung und wiederholten Reasoning‑Schritten. Diese Aufgaben benötigen oft sehr große Token‑Budgets, weshalb die Geschwindigkeit der Inference entscheidend ist.

KI im Unternehmensmaßstab

Unternehmen, die KI‑Copiloten, Support‑Bots oder große Modell‑APIs betreiben, müssen enorme Mengen an Anfragen verarbeiten. Spezialhardware für Inference könnte Kosten pro generiertem Token deutlich senken.

Die offene Frage: Funktioniert das im großen Maßstab?

Fractiles Ansatz spiegelt einen größeren Trend in der Branche wider: Wenn KI aus der Forschung in den produktiven Einsatz wandert, wird Inference‑Effizienz genauso wichtig wie Training.

Allerdings bleiben viele Leistungsversprechen bislang theoretische Zielwerte. Eine völlig neue Chiparchitektur zu entwickeln, die mit dem etablierten GPU‑Ökosystem konkurrieren kann, gilt als extrem schwierig.

Trotzdem zeigt die Größe der Finanzierungsrunde – und das steigende Interesse an Inference‑Hardware –, dass viele Investoren überzeugt sind: Der nächste große Fortschritt in der KI könnte weniger aus noch größeren Modellen entstehen, sondern aus schnelleren und effizienteren Wegen, sie auszuführen.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Suchen und Fakten prüfen mit Studio Global AI

Die Leute fragen auch

Wie lautet die kurze Antwort auf „Wie das Startup Fractile den wachsenden Inference‑Flaschenhals der KI lösen will“?

Das Londoner Startup Fractile hat 220 Millionen Dollar in einer Series‑B‑Finanzierungsrunde eingesammelt, um spezialisierte KI‑Inference‑Chips zu entwickeln.

Was sind die wichtigsten Punkte, die zuerst validiert werden müssen?

Was soll ich als nächstes in der Praxis tun?

Schnellere Inference könnte neue KI‑Anwendungen ermöglichen – etwa komplexe Reasoning‑Modelle, Echtzeit‑Assistenten und autonome KI‑Agenten mit sehr hohen Token‑Budgets.

Quellen

← Back to Trending