В основе методологии лежат так называемые «слепые» A/B-тесты. Инженерам показывают два варианта кода, сгенерированных разными версиями модели, но не говорят, где какая. Задача специалиста — выбрать лучший фрагмент и дать качественную обратную связь, объяснив свое решение . Фактически, это работа полноценного технического арбитра.
Масштаб и уровень оплаты красноречиво говорят о том, насколько Anthropic ценит мнение этих экспертов. Двое контрактников рассказали Business Insider, что получают до $280 за одно задание. При этом, по их оценкам, одна задача в среднем отнимает около часа. Такая ставка позволяет наиболее продуктивным специалистам зарабатывать свыше $3 000 в неделю . Чтобы гарантировать качество этого дорогостоящего фидбека, в Snorkel AI существует внутренний «уровень согласования» (approval layer) — своеобразный контроль качества присланных вердиктов
.
Чтобы оценить истинный масштаб инвестиций в «Marlin», достаточно взглянуть на головокружительную коммерческую траекторию, которую демонстрирует сам Claude Code.
Инструмент, запущенный в публичный доступ в мае 2025 года, к ноябрю того же года преодолел годовую выручку (annualized revenue run-rate) в $1 млрд. А уже к февралю 2026 года этот показатель более чем удвоился, достигнув отметки в $2.5 млрд . Появившись как «побочный проект» команды всего из 12 человек, Claude Code к моменту раскрытия деталей «Marlin» уже успел обогнать по выручке главных гигантов ниши — Cursor и GitHub Copilot, — захватив, по разным оценкам, от 51% до 54% рынка инструментов ИИ-кодинга
.
Этот взрывной рост — не просто результат «хайпа». Инструмент стал незаменим даже для собственных разработчиков компании. Внутренние команды Anthropic пишут с помощью Claude Code от 70% до 90% всего кода, и примерно 90% кодовой базы самого Claude Code также создано им самим .
И вот здесь кроется ключевой парадокс: даже самый мощный ИИ-агент, способный к «самопоеданию», всё еще остро нуждается в изощренной человеческой обратной связи. Проект Marlin подсвечивает суть этого разрыва: одно дело — писать синтаксически верный и функциональный код, и совсем другое — имитировать нюансированное мышление профессионального разработчика. Это касается чувства архитектуры, интуиции во время код-ревью (code review sensibility) и контекстного решения проблем .
Проект Marlin — это наглядный маркер эволюции рынка труда в сфере обучения ИИ. Особенно на фоне того, что сегодня ИИ-агенты для кодинга — самый дорогой и востребованный корпоративный сценарий использования генеративного ИИ: по данным отчетов, на него приходится 51% всего энтерпрайз-использования .
Традиционные методы обучения моделей — когда низкоквалифицированные работники аннотируют картинки или классифицируют текст — совершенно непригодны, когда цель — дообучить тулл, способный логически рассуждать над сложнейшими pull-запросами. Anthropic выбирает принципиально другой путь: платить огромную премию узкой прослойке специалистов, чье главное оружие — инженерное суждение. И эта тенденция будет лишь ускоряться по мере роста экономических ставок на рынке ИИ-кодинга.
Глобальное следствие для рынка труда очевидно: чем более продвинутыми становятся ИИ-модели, тем более квалифицированным (и высокооплачиваемым) должен быть человек, который их контролирует и улучшает. Будущее обучения ИИ — это уже не «фабричный цех» прошлого, а элитный процесс код-ревью. В нем лучшие инженеры за большие деньги помогают машинам учиться думать как старшие разработчики.
Comments
0 comments