ОтветыОпубликовано2 месяца назадLast edited в прошлом месяце19 источники

Как Fractile пытается устранить главное узкое место ИИ — медленный inference

Лондонский стартап Fractile привлёк $220 млн в раунде Series B для разработки специализированных чипов для AI‑inference — стадии, где модели генерируют ответы пользователям. Компания строит архитектуру «вычислений в памяти», чтобы уменьшить перемещение данных между процессором и памятью — один из главных источников...

Искать и проверять факты с Studio Global AI Смотреть больше популярных страниц

Concept illustration of AI inference hardware integrating memory and compute — How is UK AI chip startup Fractile addressing the growing AI inference bottleneck, what did its $220M Series B funding involve, why does theFractile is developing AI chips designed to perform computation directly within memory to reduce inference latency and cost.
Промпт ИИ
Create a landscape editorial hero image for this Studio Global article: How is UK AI chip startup Fractile addressing the growing AI inference bottleneck, what did its $220M Series B funding involve, why does the. Article summary: Fractile is attacking the inference bottleneck with specialized AI inference hardware that moves compute much closer to memory, rather than relying on conventional GPU designs that shuttle model data between separate com. Topic tags: general, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject "# Fractile United Kingdom ## Why Fractile matters #### Summary Fractile has raised $220 million in a Series B funding round led by Accel, Factorial Funds, and Founders Fund, wi" source context "Fractile raised $200M | AI Chips | MapCo" Reference image 2: visual subject "Founded in 2022, Fractile aims to address t
openai.com

За последние годы индустрия искусственного интеллекта сосредоточилась на одной гонке — обучении всё более крупных моделей. Но сейчас всё яснее становится другая проблема: запуск этих моделей в реальных продуктах.

Именно эту проблему пытается решить лондонский стартап Fractile. Компания недавно привлекла $220 млн инвестиций в раунде Series B на разработку специализированных чипов, оптимизированных для AI‑inference — этапа, когда уже обученная модель генерирует ответы для пользователей.

По мнению Fractile, следующим ограничением развития ИИ станет не столько качество моделей, сколько скорость и стоимость генерации ответов на практике.

Почему inference становится главным узким местом

Большая часть современной инфраструктуры ИИ оптимизирована для обучения моделей. Для этого идеально подходят GPU: они хорошо выполняют огромное количество параллельных математических операций.

Но после обучения модель переходит в режим inference — когда она по запросу пользователя начинает генерировать текст, код или изображения.

На этом этапе ключевой проблемой часто оказывается не вычислительная мощность, а работа с памятью.

При генерации каждого токена модель постоянно читает огромные объёмы параметров и промежуточных данных. Если система не может быстро перемещать эти данные, даже очень быстрые вычислительные ядра не решают проблему задержек.

Ситуацию усугубляют новые типы AI‑нагрузок:

ответы становятся длиннее и сложнее
контекстные окна моделей резко растут
модели рассуждения выполняют несколько внутренних шагов перед выдачей ответа

В некоторых задачах требуется десятки миллионов токенов на одну задачу, поэтому скорость генерации и доступ к памяти становятся критическими факторами.

Именно поэтому Fractile считает, что в ближайшие годы главным ограничением развития ИИ станет задержка inference, а не возможности моделей.

Подход Fractile: вычисления прямо внутри памяти

Чтобы решить проблему, компания разрабатывает чипы с архитектурой in‑memory compute — вычисления внутри или рядом с памятью.

В традиционных ускорителях ИИ (например, GPU Nvidia) вычислительные ядра и память разделены. Данные постоянно перемещаются между ними, что тратит время и энергию.

Fractile предлагает другой подход: выполнять значительную часть операций там же, где уже хранятся данные модели.

Основные идеи архитектуры:

объединение вычислений и памяти на одном чипе
выполнение операций модели непосредственно внутри структур памяти
минимизация передачи данных между внешней памятью и процессором

Сокращение такого «путешествия данных» может значительно улучшить:

задержку ответа (latency)
энергопотребление
стоимость вычислений

Все три фактора критически важны для масштабного применения ИИ.

Компания утверждает, что её системы потенциально смогут запускать inference моделей до 25 раз быстрее и примерно в 10 раз дешевле, чем существующее оборудование. Ранее также упоминались более амбициозные цели — до 100× ускорения в отдельных сценариях, однако это пока лишь заявленные ориентиры, а не независимые бенчмарки.

На что пойдут $220 млн инвестиций

Раунд Series B на $220 млн возглавили венчурные фонды Accel, Factorial Funds и Founders Fund. Среди других инвесторов — Conviction, Gigascale Capital, O1A Ventures, Felicis, Buckley Ventures и 8VC.

Компания планирует направить средства на:

ускорение разработки архитектуры inference‑чипов
подготовку первых аппаратных систем к производству
расширение инженерных команд в Великобритании, США и Тайване

Fractile была основана в 2022 году инженером Уолтером Гудвином (Walter Goodwin), выпускником Оксфорда. Компания рассчитывает начать поставки первых систем клиентам позже в этом десятилетии.

Также сообщалось о ранних обсуждениях с AI‑компаниями, включая Anthropic, которые могут стать потенциальными пользователями технологии, хотя официальных коммерческих контрактов пока не объявлено.

Какие новые возможности откроет быстрый inference

Если архитектуры вроде Fractile действительно смогут значительно ускорить inference, это может изменить типы задач, которые выполняет ИИ.

1. Модели сложного рассуждения

Современные reasoning‑модели могут генерировать промежуточные цепочки мыслей, проверять несколько вариантов решения и пересчитывать ответы. Быстрый inference позволит тратить больше вычислений во время работы модели — подход, известный как test‑time compute.

2. Ассистенты в реальном времени

Чем меньше задержка между токенами, тем более естественным кажется разговор с ИИ. Ускорение генерации может приблизить голосовых и текстовых ассистентов к почти мгновенному диалогу.

3. Агентные AI‑системы

Автономные AI‑агенты могут выполнять сложные цепочки действий: вызывать инструменты, писать код, проверять результаты и повторять цикл рассуждения. Такие задачи требуют огромных токенных бюджетов, поэтому скорость inference становится критичной.

4. Масштабные корпоративные сервисы

Компании, которые запускают AI‑копилотов, автоматизированную поддержку клиентов или публичные API моделей, зависят от стоимости и пропускной способности генерации токенов. Специализированные inference‑чипы могут значительно снизить эксплуатационные расходы.

Главный вопрос: сможет ли новая архитектура масштабироваться

Идея Fractile отражает более широкую тенденцию в индустрии: по мере перехода ИИ из лабораторий в реальные продукты эффективность inference становится столь же важной, как и обучение моделей.

Однако ключевые показатели производительности, заявленные компанией, пока остаются целями, а не подтверждёнными результатами. Создание новой архитектуры чипов, способной конкурировать с огромной экосистемой GPU, — крайне сложная задача.

Тем не менее размер инвестиций и растущий интерес венчурных фондов к hardware‑решениям для inference показывают, что многие в отрасли считают: следующий прорыв в ИИ может прийти не от ещё более крупных моделей, а от более быстрых способов их запускать.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Искать и проверять факты с Studio Global AI

Люди также спрашивают

Каков краткий ответ на вопрос «Как Fractile пытается устранить главное узкое место ИИ — медленный inference»?

Какие ключевые моменты необходимо проверить в первую очередь?

Что мне делать дальше на практике?

Если технология окажется успешной, она может ускорить новые классы AI‑нагрузок: модели рассуждения, автономных AI‑агентов, реальных голосовых ассистентов и крупномасштабные корпоративные сервисы.

Источники

← Back to Trending