RespuestasPublicadohace 2 mesesLast edited el mes pasado19 fuentes

La startup británica Fractile quiere acelerar la inferencia de IA con chips que calculan dentro de la memoria

La startup británica Fractile recaudó 220 millones de dólares para desarrollar chips de IA diseñados específicamente para acelerar la inferencia, la fase en la que los modelos generan respuestas para usuarios reales. Su arquitectura integra memoria y cómputo en el mismo chip para reducir el movimiento de datos, uno...

Buscar y verificar hechos con Studio Global AI Explora más páginas en tendencia

Concept illustration of AI inference hardware integrating memory and compute — How is UK AI chip startup Fractile addressing the growing AI inference bottleneck, what did its $220M Series B funding involve, why does theFractile is developing AI chips designed to perform computation directly within memory to reduce inference latency and cost.
Prompt de IA
Create a landscape editorial hero image for this Studio Global article: How is UK AI chip startup Fractile addressing the growing AI inference bottleneck, what did its $220M Series B funding involve, why does the. Article summary: Fractile is attacking the inference bottleneck with specialized AI inference hardware that moves compute much closer to memory, rather than relying on conventional GPU designs that shuttle model data between separate com. Topic tags: general, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject "# Fractile United Kingdom ## Why Fractile matters #### Summary Fractile has raised $220 million in a Series B funding round led by Accel, Factorial Funds, and Founders Fund, wi" source context "Fractile raised $200M | AI Chips | MapCo" Reference image 2: visual subject "Founded in 2022, Fractile aims to address t
openai.com

Durante años, la carrera de la inteligencia artificial se centró en entrenar modelos cada vez más grandes. Pero ahora el problema está cambiando: el reto es ejecutar esos modelos de forma rápida y económica en producción.

La startup londinense Fractile quiere atacar directamente ese desafío. La compañía anunció recientemente una ronda Serie B de 220 millones de dólares destinada a desarrollar chips especializados para inferencia de IA, es decir, la fase en la que un modelo ya entrenado genera respuestas para usuarios o aplicaciones.

La tesis de la empresa es clara: el próximo límite para el progreso de la IA no será solo construir modelos mejores, sino la velocidad y el coste de producir respuestas a gran escala.

Por qué la inferencia se está convirtiendo en el verdadero cuello de botella

La mayor parte de la infraestructura de IA actual está optimizada para entrenamiento, el proceso intensivo de cálculo que permite crear modelos como los grandes modelos de lenguaje. Las GPU dominan esta fase porque pueden ejecutar enormes cantidades de operaciones matemáticas en paralelo.

Pero una vez entrenado un modelo, entra en modo inferencia, donde responde continuamente a las consultas de los usuarios generando texto, código u otros resultados.

En esta fase el problema cambia: el sistema depende mucho más de la velocidad de la memoria y la latencia, no solo de la potencia de cálculo. Los modelos necesitan leer constantemente enormes volúmenes de parámetros y datos intermedios mientras generan cada token. Si el hardware no puede mover esos datos con suficiente rapidez, añadir más capacidad de cálculo no resuelve el problema.

El desafío crece a medida que evolucionan los modelos avanzados:

Las respuestas son más largas y complejas
Las ventanas de contexto aumentan significativamente
Los modelos de razonamiento ejecutan múltiples pasos internos antes de dar una respuesta

Algunas tareas modernas pueden requerir decenas de millones de tokens por operación, lo que convierte la velocidad de generación y el acceso a memoria en factores críticos.

Fractile sostiene que el sector se acerca a un punto donde la latencia de inferencia —y no la capacidad del modelo— se convierte en el verdadero límite práctico de la IA.

La idea de Fractile: calcular directamente dentro de la memoria

Para abordar este problema, la empresa está desarrollando chips basados en in‑memory compute (cómputo dentro o muy cerca de la memoria).

En los aceleradores tradicionales de IA —como las GPU de Nvidia— las unidades de cálculo están separadas de la memoria de alta velocidad (HBM). Los datos deben moverse continuamente entre ambos componentes, lo que consume tiempo y energía.

Fractile propone un enfoque distinto: realizar gran parte de los cálculos donde ya se encuentran los datos del modelo, reduciendo drásticamente el movimiento de información dentro del sistema.

Los principios clave de su arquitectura incluyen:

Integrar memoria y cómputo en el mismo chip
Ejecutar operaciones del modelo directamente dentro de estructuras de memoria
Reducir las transferencias entre memoria externa y unidades de procesamiento

Al disminuir ese tráfico de datos, el sistema podría mejorar latencia, eficiencia energética y coste operativo, tres factores cruciales para desplegar IA a gran escala.

La compañía afirma que su tecnología podría ejecutar inferencia de modelos avanzados hasta 25 veces más rápido y a aproximadamente una décima parte del coste frente al hardware actual. En etapas anteriores también mencionó objetivos aún más ambiciosos —hasta 100 veces más rápido en algunos escenarios— aunque esas cifras siguen siendo afirmaciones de la empresa y no resultados verificados de forma independiente.

En qué se invertirá la ronda de 220 millones de dólares

La ronda Serie B de 220 millones de dólares fue liderada por Accel, Factorial Funds y Founders Fund, con la participación de Conviction, Gigascale Capital, O1A Ventures, Felicis, Buckley Ventures y 8VC.

El capital servirá principalmente para:

Acelerar el desarrollo de su arquitectura de chips de inferencia
Llevar sus primeros sistemas de hardware hacia producción
Expandir equipos de ingeniería en Reino Unido, Estados Unidos y Taiwán

Fractile fue fundada en 2022 por el ingeniero Walter Goodwin, formado en Oxford, y aspira a entregar sus primeros sistemas a clientes hacia finales de la década.

Algunos informes también mencionan conversaciones preliminares con empresas de IA como Anthropic sobre el posible uso de esta tecnología cuando el hardware esté listo, aunque por ahora no existen acuerdos comerciales confirmados.

Qué nuevas aplicaciones podría habilitar una inferencia mucho más rápida

Si Fractile —u otras arquitecturas similares— consigue acelerar de forma significativa la inferencia, podría abrir la puerta a nuevas clases de aplicaciones de IA.

Modelos de razonamiento a gran escala

Los sistemas modernos de razonamiento exploran múltiples soluciones, generan pasos intermedios y verifican resultados. Una inferencia más rápida permitiría dedicar más cálculo durante la ejecución, un enfoque conocido como test‑time compute.

Asistentes de IA realmente en tiempo real

Reducir la latencia en la generación de tokens permitiría conversaciones mucho más fluidas con asistentes virtuales y aplicaciones interactivas.

Sistemas de IA autónomos (agentic AI)

Los agentes de IA que ejecutan tareas complejas —como escribir código, usar herramientas o coordinar múltiples pasos— pueden consumir enormes cantidades de tokens. Una inferencia más rápida haría estos flujos mucho más viables.

IA empresarial a gran escala

Las empresas que ejecutan copilotos de productividad, asistentes de atención al cliente o APIs de modelos necesitan alto rendimiento y bajo coste por token generado. El hardware especializado podría reducir significativamente esos gastos operativos.

La incógnita: competir con el ecosistema GPU

La apuesta de Fractile refleja un cambio importante en la industria: a medida que la IA pasa del laboratorio a la producción, la eficiencia de inferencia se vuelve tan crítica como el entrenamiento.

Sin embargo, la compañía aún debe demostrar que su arquitectura puede cumplir sus promesas a escala real. Construir un nuevo tipo de chip capaz de competir con el ecosistema maduro de GPU es una tarea extremadamente difícil.

Aun así, el tamaño de la financiación y el creciente interés de inversores en hardware de inferencia sugieren que el sector empieza a pensar que el próximo gran salto en IA podría venir no de modelos más grandes, sino de formas mucho más rápidas de ejecutarlos.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Buscar y verificar hechos con Studio Global AI

La gente también pregunta

¿Cuál es la respuesta corta a "La startup británica Fractile quiere acelerar la inferencia de IA con chips que calculan dentro de la memoria"?

¿Cuáles son los puntos clave a validar primero?

¿Qué debo hacer a continuación en la práctica?

Si funciona a gran escala, esta tecnología podría habilitar nuevas aplicaciones como modelos de razonamiento más profundos, asistentes de IA en tiempo real y sistemas autónomos que ejecutan tareas complejas con millon...

Fuentes

← Back to Trending