Стоимость = input_tokens / 1 000 000 × 5
+ output_tokens / 1 000 000 × 25Если используется prompt caching, повторяемый контекст нужно выделить отдельно. Первая запись в 5-минутный кеш считается по $6,25/MTok, первая запись в 1-часовой кеш — по $10/MTok, последующие cache hit / refresh — по $0,50/MTok. Новые вопросы и сообщения, которые не попали в кеш, всё равно считаются как обычный input, а ответ модели — как output.
Если документ анализируется один раз и дальше пользователь не задаёт уточняющих вопросов, смета простая: документ, системная инструкция и сам вопрос — это input-токены; ответ модели — output-токены. Ниже — расчёт по публичным ценам Claude API.
| Сценарий | Input | Output | Примерная стоимость |
|---|---|---|---|
| Короткий длинный документ, резюме | 100 тыс. | 5 тыс. | ≈ $0,625 |
| Средний или крупный документ, анализ | 300 тыс. | 8 тыс. | ≈ $1,70 |
| Очень крупный документ | 1 млн | 10 тыс. | ≈ $5,25 |
Например, для 300 тыс. input-токенов и 8 тыс. output-токенов:
300 000 / 1 000 000 × 5 = 1,50
8 000 / 1 000 000 × 25 = 0,20
Итого = 1,70 доллараПри миграции на Opus 4.7 не стоит автоматически переносить старые оценки токенов. В документации Anthropic указано, что Opus 4.7 использует новый токенизатор, и число токенов для одного и того же фиксированного текста может вырасти максимум на 35%.
Если прежняя оценка была 300 тыс. input-токенов, консервативно можно заложить 405 тыс. input-токенов. При тех же 8 тыс. output-токенов получится:
405 000 / 1 000 000 × 5 = 2,025
8 000 / 1 000 000 × 25 = 0,20
Итого ≈ 2,23 доллараВ продуктах с длинными документами часто недооценивают не первый запрос, а последующие. Если один и тот же файл снова и снова отправляется в модель целиком, каждый раунд диалога оплачивает этот объём как input. Поэтому для повторных вопросов по одному документу prompt caching нужно считать сразу.
Допустим:
| Подход | Из чего складывается стоимость | Примерная стоимость |
|---|---|---|
| Первый запрос: создать 5-минутный кеш | 300 тыс. × $6,25/MTok + 2 тыс. × $5/MTok + 2 тыс. × $25/MTok | ≈ $1,935 |
| Следующий запрос: cache hit | 300 тыс. × $0,50/MTok + 2 тыс. × $5/MTok + 2 тыс. × $25/MTok | ≈ $0,21 |
| Без кеша: каждый раз отправлять документ целиком | 302 тыс. × $5/MTok + 2 тыс. × $25/MTok | ≈ $1,56 |
В этом примере первый запрос с записью кеша дороже, чем разовая отправка без кеша. Но уже на втором запросе общая сумма становится ниже:
Без кеша, два раунда: ≈ 1,56 × 2 = 3,12 доллара
С 5-минутным кешем, два раунда: ≈ 1,935 + 0,21 = 2,145 доллараПоэтому ключевая переменная для длинных документов — cache hit rate, то есть доля попаданий в кеш. Нужно понимать, действительно ли пользователи задают несколько вопросов по одному и тому же документу, укладываются ли эти вопросы в срок жизни кеша и не добавляется ли в каждом раунде большой объём нового, не кешированного контента.
У длинных диалогов экономика такая же, как у длинных документов. Если приложение каждый раз отправляет в модель всю накопленную историю, input-стоимость быстро растёт. Стабильный и повторно используемый контекст стоит рассматривать как кандидат на prompt caching.
Допустим:
| Подход | Примерная стоимость |
|---|---|
| Без кеша: каждый раунд отправляет 200 тыс. истории + 1 тыс. нового сообщения + 2 тыс. output | ≈ $1,055 / раунд |
| Сначала записать 200 тыс. истории в 5-минутный кеш: первый раунд | ≈ $1,305 |
| После 5-минутного cache hit: каждый следующий раунд | ≈ $0,155 / раунд |
| Сначала записать 200 тыс. истории в 1-часовой кеш: первый раунд | ≈ $2,055 |
| После 1-часового cache hit: каждый следующий раунд | ≈ $0,155 / раунд |
Выбор между 5 минутами и 1 часом — не только вопрос цены записи. Он зависит от поведения пользователей:
Пакетные задачи, или batch, часто используют для офлайн-анализа, разметки данных, массовых резюме и классификации. Но если для вашего аккаунта, договора или платформенного эндпоинта ещё не подтверждена конкретная batch-цена, в официальный бюджет не стоит заранее закладывать непроверенную скидку. Практичный подход — сначала считать по публичной цене синхронного API, а затем снижать оценку, если подтверждена другая цена.
Формула для консервативной оценки остаётся той же:
Общая стоимость = все input-токены / 1 000 000 × 5
+ все output-токены / 1 000 000 × 25Пример: 10 000 задач, в каждой 2 тыс. input-токенов и 500 output-токенов.
Всего input = 10 000 × 2 000 = 20 000 000 токенов
Всего output = 10 000 × 500 = 5 000 000 токенов
Input-стоимость = 20 × 5 = 100 долларов
Output-стоимость = 5 × 25 = 125 долларов
Итого = 225 долларовЭти $225 — консервативная оценка без batch discount. Если позже вы подтвердите применимую пакетную цену, просто замените единичные ставки в формуле.
Отдельно проверьте маршрут запроса. Если вы работаете не напрямую с Anthropic Claude API, а через облачную платформу или сторонний роутер моделей, итоговый счёт может отличаться. Сторонний каталог CloudPrice указывает для Opus 4.7 в варианте Anthropic / global цену $5 input и $25 output за MTok, а для некоторых региональных кодов AWS Bedrock — $5,50 input и $27,50 output за MTok. Такие данные полезны как сигнал для проверки, но для закупки нужно сверяться с биллингом вашей платформы, договором и официальной документацией.
Если у вас ещё нет реального распределения токенов, чистая формула обычно даёт слишком аккуратную картину. Минимум три фактора стоит заложить в запас:
Рабочие, неофициальные коэффициенты для бюджета:
| Этап | Консервативный коэффициент |
|---|---|
| PoC или пилот | Теоретическая стоимость × 1,2–1,5 |
| Продакшен со стабильным трафиком | Теоретическая стоимость × 1,35–1,6 |
| Миграция со старой модели на Opus 4.7 при активном использовании длинного контекста | Теоретическая стоимость × 1,5–1,8 |
Это не официальные цены Anthropic, а управленческий резерв. После запуска модель бюджета нужно обновлять по фактическим token-логам, доле попаданий в кеш и данным из счетов.
Если кеш не используется, месячную стоимость можно прикинуть так:
Месячная стоимость ≈ запросов в день × 30
× (средний input / 1 000 000 × 5
+ средний output / 1 000 000 × 25)Если кеш используется, считайте статьи отдельно:
Месячная стоимость ≈ обычный input
+ cache write
+ cache hit / refresh
+ outputПеред запуском минимум заполните такие переменные:
| Переменная | Пример |
|---|---|
| Средний input на запрос | 300 000 |
| Средний output на запрос | 8 000 |
| Запросов в день | 1 000 |
| Cache write tokens | 300 000 на документ |
| Cache hit tokens | 300 000 на попадание |
| Cache hit rate | 60% |
| Буфер на миграцию токенизатора | до × 1,35 |
| Операционный резерв | например × 1,35–1,6 |
Для одноразового анализа длинного документа достаточно формулы $5/MTok за input плюс $25/MTok за output.
Если по одному и тому же документу будет несколько вопросов или длинный диалог каждый раз тащит за собой большую историю, сначала считайте prompt caching. В примере с документом на 300 тыс. токенов, вопросом на 2 тыс. токенов и ответом на 2 тыс. токенов повторный запрос при 5-минутном cache hit стоит около $0,21, тогда как повторная отправка всего документа без кеша — около $1,56.
Для batch-задач без подтверждённой скидки начинайте с публичной синхронной цены и корректируйте её только после проверки реальной batch-цены, платформенного биллинга или договорной ставки. А при миграции на Opus 4.7 сначала увеличьте оценку input-токенов максимум на 1,35 из-за нового токенизатора и добавьте операционный резерв — это обычно ближе к будущему счёту, чем расчёт только по базовому прайсу.
Comments
0 comments