El desafío crece a medida que evolucionan los modelos avanzados:
Algunas tareas modernas pueden requerir decenas de millones de tokens por operación, lo que convierte la velocidad de generación y el acceso a memoria en factores críticos.
Fractile sostiene que el sector se acerca a un punto donde la latencia de inferencia —y no la capacidad del modelo— se convierte en el verdadero límite práctico de la IA.
Para abordar este problema, la empresa está desarrollando chips basados en in‑memory compute (cómputo dentro o muy cerca de la memoria).
En los aceleradores tradicionales de IA —como las GPU de Nvidia— las unidades de cálculo están separadas de la memoria de alta velocidad (HBM). Los datos deben moverse continuamente entre ambos componentes, lo que consume tiempo y energía.
Fractile propone un enfoque distinto: realizar gran parte de los cálculos donde ya se encuentran los datos del modelo, reduciendo drásticamente el movimiento de información dentro del sistema.
Los principios clave de su arquitectura incluyen:
Al disminuir ese tráfico de datos, el sistema podría mejorar latencia, eficiencia energética y coste operativo, tres factores cruciales para desplegar IA a gran escala.
La compañía afirma que su tecnología podría ejecutar inferencia de modelos avanzados hasta 25 veces más rápido y a aproximadamente una décima parte del coste frente al hardware actual. En etapas anteriores también mencionó objetivos aún más ambiciosos —hasta 100 veces más rápido en algunos escenarios— aunque esas cifras siguen siendo afirmaciones de la empresa y no resultados verificados de forma independiente.
La ronda Serie B de 220 millones de dólares fue liderada por Accel, Factorial Funds y Founders Fund, con la participación de Conviction, Gigascale Capital, O1A Ventures, Felicis, Buckley Ventures y 8VC.
El capital servirá principalmente para:
Fractile fue fundada en 2022 por el ingeniero Walter Goodwin, formado en Oxford, y aspira a entregar sus primeros sistemas a clientes hacia finales de la década.
Algunos informes también mencionan conversaciones preliminares con empresas de IA como Anthropic sobre el posible uso de esta tecnología cuando el hardware esté listo, aunque por ahora no existen acuerdos comerciales confirmados.
Si Fractile —u otras arquitecturas similares— consigue acelerar de forma significativa la inferencia, podría abrir la puerta a nuevas clases de aplicaciones de IA.
Los sistemas modernos de razonamiento exploran múltiples soluciones, generan pasos intermedios y verifican resultados. Una inferencia más rápida permitiría dedicar más cálculo durante la ejecución, un enfoque conocido como test‑time compute.
Reducir la latencia en la generación de tokens permitiría conversaciones mucho más fluidas con asistentes virtuales y aplicaciones interactivas.
Los agentes de IA que ejecutan tareas complejas —como escribir código, usar herramientas o coordinar múltiples pasos— pueden consumir enormes cantidades de tokens. Una inferencia más rápida haría estos flujos mucho más viables.
Las empresas que ejecutan copilotos de productividad, asistentes de atención al cliente o APIs de modelos necesitan alto rendimiento y bajo coste por token generado. El hardware especializado podría reducir significativamente esos gastos operativos.
La apuesta de Fractile refleja un cambio importante en la industria: a medida que la IA pasa del laboratorio a la producción, la eficiencia de inferencia se vuelve tan crítica como el entrenamiento.
Sin embargo, la compañía aún debe demostrar que su arquitectura puede cumplir sus promesas a escala real. Construir un nuevo tipo de chip capaz de competir con el ecosistema maduro de GPU es una tarea extremadamente difícil.
Aun así, el tamaño de la financiación y el creciente interés de inversores en hardware de inferencia sugieren que el sector empieza a pensar que el próximo gran salto en IA podría venir no de modelos más grandes, sino de formas mucho más rápidas de ejecutarlos.
Comments
0 comments