Согласно нескольким сообщениям, MeshClaw — это не просто чат-бот. Инструмент позволяет сотрудникам Amazon создавать ИИ-агентов, которые могут подключаться к рабочему программному обеспечению и выполнять задачи от имени пользователей . Иными словами, речь идёт не только о генерации текста, а о системах, способных делать шаги внутри подключённых рабочих сервисов.
Именно поэтому история важна шире, чем один внутренний продукт Amazon. Когда ИИ-инструмент может действовать через корпоративные приложения, у менеджмента появляется соблазн измерять его активность. Но если эта активность превращается в целевой показатель, метрика может начать жить отдельной жизнью.
Описанное поведение довольно прямолинейно: часть работников Amazon, как сообщается, использует MeshClaw или связанные внутренние ИИ-инструменты для задач, которым ИИ, по сути, не нужен, — рутинных, мелких или необязательных . Retail Gazette со ссылкой на Financial Times писала, что сотрудники рассказывали о коллегах, которые создавали ненужную ИИ-активность, чтобы увеличить расход токенов
. Times Now также описывала ситуацию как использование ботов даже тогда, когда необходимости в них нет, в том числе чтобы показать менеджерам более высокую ИИ-активность
.
То есть речь не только о том, что сотрудники осваивают ИИ для решения более сложных задач. По сообщениям, часть активности возникает потому, что само использование ИИ стало видимым сигналом.
Токен — это единица данных, которую обрабатывает ИИ-модель; в сообщениях об истории Amazon расход токенов описывается именно как объём данных, прошедших через модель . В объяснениях OpenAI приводится грубая оценка: один токен соответствует примерно четырём символам, хотя на практике это лишь ориентир
.
С токенами есть простая управленческая проблема: их легко посчитать. А вот реальную продуктивность — куда сложнее.
В одном из пересказов отчёта Financial Times говорится, что Amazon поставила цель: более 80% разработчиков должны использовать ИИ еженедельно, а использование отслеживалось через лидерборды с показателями расхода токенов . Другой материал сообщает, что сотрудники почувствовали сильное давление после того, как Amazon установила цели и начала измерять, насколько активно персонал пользуется технологией
. При этом Amazon, как сообщается, заявляла, что статистика по токенам не будет использоваться при оценке эффективности, но беспокойство работников связано с тем, что менеджеры всё равно могут видеть эти цифры и воспринимать их как признак вовлечённости в ИИ-повестку
.
Это классическая проблема «игры с метрикой». Если расход токенов становится видимым счётом, его можно поднять, просто чаще используя ИИ — даже когда задача этого не требует. Computing UK описывает tokenmaxxing как стремление потреблять как можно больше ИИ-токенов, чтобы продемонстрировать использование ИИ, и связывает риск с законом Гудхарта: когда показатель становится целью, он перестаёт быть хорошим показателем .
Сообщения об Amazon не выглядят полностью изолированным случаем. Они напоминают более ранние публикации о токен-лидербордах в компаниях вроде Meta, где расход токенов становился маркером статуса ИИ-пользователя.
В Meta, как сообщалось, инженер создал внутренний лидерборд, ранжировавший сотрудников по расходу токенов и присваивавший статусные метки вроде «Session Immortal» и «Token Legend» . Другие пересказывали историю о лидерборде Meta под названием Claudeonomics, где сотрудников ранжировали по числу обработанных и сгенерированных токенов
. Gizmodo, пересказывая колонку New York Times, писало, что сотрудники компаний, включая Meta и OpenAI, соревновались во внутренних лидербордах по количеству потреблённых токенов, а объём использования ИИ стал метрикой при оценке сотрудников в Meta и Shopify
.
Смысл сравнения не в том, что все компании используют одинаковую систему. Важно другое: один и тот же стимул может возникнуть где угодно. Как только «сырой» объём использования ИИ становится знаком статуса или управленческим сигналом, сотрудники могут начать оптимизировать объём, а не пользу.
Расход токенов показывает, что модель использовали. Он не показывает, была ли задача важной, был ли результат корректным, сколько времени реально сэкономлено и стало ли решение лучше после проверки человеком. Объяснения tokenmaxxing предупреждают, что токенные метрики могут вознаграждать объём вместо ценности и искажать оценку эффективности .
Если сотрудники создают запросы и запускают агентов просто для роста показателя, компания оплачивает вычисления, которые могут не приносить заметной бизнес-пользы. Retail Gazette сообщала, что некоторые сотрудники, по словам источников Financial Times, повышали расход токенов через ненужную активность . Более широкий разбор tokenmaxxing также предупреждает о расточительных вызовах моделей и росте облачных расходов, когда расход токенов становится целью
.
Формально Amazon, как сообщается, заявляла, что токенная статистика не будет использоваться в performance reviews — оценках эффективности сотрудников . Но это не полностью убирает стимул: если работники считают, что менеджеры видят дашборды использования и могут трактовать низкую активность как сопротивление ИИ-внедрению, они всё равно будут стараться выглядеть активнее. В этой истории тревога связана не только с официальной политикой, но и с неформальным сигналом: высокий расход токенов может выглядеть как энтузиазм, низкий — как отставание
.
Процитированные источники не описывают конкретный инцидент безопасности MeshClaw. Риск здесь структурный: MeshClaw, по сообщениям, создан для того, чтобы агенты подключались к рабочему ПО и выполняли задачи от имени пользователей . Любая такая система сразу выводит на вопросы прав доступа, человеческой проверки, журналов аудита и ответственности за ошибочные действия агента. Отдельные публикации об агентном ИИ также отмечают, что по мере автономного выполнения задач ИИ-агентами растёт нагрузка на вычислительную инфраструктуру и системы безопасности
.
Данные о токенах сами по себе не бесполезны. Они помогают видеть расходы, планировать мощности, распределять затраты между командами и отслеживать аномалии. Проблема начинается, когда расход токенов становится табло продуктивности или лояльности к ИИ-курсу. Один из обзоров этой дискуссии формулирует дилемму так: токенные метрики полезны для контроля затрат, но могут создавать социальные стимулы, которые расходятся с продуктовыми результатами .
Более здоровая система оценки внедрения ИИ должна задавать другие вопросы:
История MeshClaw — предупреждение для компаний, которые торопятся «внедрить ИИ» и хотят видеть это в цифрах. Вопрос «сколько ИИ вы использовали?» слабее вопроса «что ИИ улучшил?». Если цели и лидерборды вознаграждают расход токенов, сотрудники найдут способы расходовать токены. Дашборд от этого может выглядеть лучше, но сама работа — не обязательно.
Comments
0 comments