Секрет у тому, що механізм fallback у Hermes працює per-turn — тобто окремо для кожного повідомлення в діалозі. Щоразу, коли ви надсилаєте новий запит, агент спочатку намагається звернутися до основної моделі. Якщо вона все ще повертає помилку — спрацьовує fallback, і з'являється те саме попередження.
Іншими словами: якщо ваш основний провайдер протягом тривалого часу лишається недоступним через rate limit, ви бачитимете це повідомлення на кожному кроці діалогу. Це не означає, що fallback не працює — навпаки, він щоразу рятує вашу сесію.
Позначка via customconfig.yaml і налаштовуються інтерактивно через команду hermes model
Тут криється потенційна проблема: якщо ваш основний провайдер і резервний кастомний ендпоінт (sg-*) фактично використовують один і той самий gateway, один і той самий набір API-ключів або один і той самий пул ресурсів із вичерпаною квотою, то обидва будуть недоступні одночасно. Ви побачите перемикання, але якість відповіді не покращиться, бо резервна модель стикається з тими самими обмеженнями.
Наразі недостатньо даних, щоб із певністю стверджувати, що обидва шляхи ділять спільний пул, але це найімовірніший сценарій, який варто перевірити у вашій конфігурації.
Щоб позбутися набридливого попередження, потрібно усунути першопричину — проблему з основним провайдером. Ось що варто зробити:
Перевірте поточну конфігурацію основних і резервних моделей
Зазирніть у ~/.hermes/config.yaml. Знайдіть, який провайдер і модель вказано як primary, та який ланцюжок прописано у fallback_providers. Зверніть увагу, чи не вказують primary і резервний
sg-* на один і той самий gateway або одну групу ключів.
Пробийте стан gateway
Якщо використовуєте OpenClaw gateway, виконайте:
openclaw gateway probeЦя команда покаже, чи доступний gateway (Reachable: yesmissing scope: operator.read
Визначте справжню помилку
Уважно перечитайте текст помилки. Якщо бачите HTTP 429rate_limit_error, згадку Extra usage is required for long context requests Зокрема, для моделей Anthropic помилка 429 може виникати саме через завеликий контекст запиту, що вимагає додаткових ресурсів.
Переконайтеся, що API-ключі коректно зчитані
Якщо gateway працює під systemd/launchd, ключі варто зберігати у ~/.openclaw/.env, після чого перезапустити демон. Переконайтеся, що ключі фізично присутні на хості, де запущено gateway — помилка «ключ не знайдено» може маскуватися під rate limit.
Перевірте, чи немає застарілих клієнтських процесів
Виконайте openclaw gateway status --deep
Зменшіть обсяг контексту
Якщо помилка стабільно виникає на довгих діалогах, спробуйте скоротити розмір контексту — наприклад, розбити задачу на менші частини або очистити історію розмови. Це особливо актуально, якщо у тексті помилки фігурує «Extra usage is required for long context requests».
Варіанти вирішення залежать від того, що саме спричиняє rate limit:
.env. Попередження «Rate limited — switching to fallback» повторюється кожного туру не тому, що fallback не працює, а тому, що основний провайдер досі недоступний, а Hermes щоразу сумлінно пробує до нього звернутися перед перемиканням. Це коректна, передбачувана поведінка системи.
Щоб позбутися попередження остаточно, потрібно вирішити проблему на боці основного провайдера або переконатися, що резервний шлях використовує дійсно незалежний пул ресурсів.
Хочете, щоб я допоміг перевірити ваш конкретний config.yaml прямо зараз? Я можу проаналізувати, який primary використовується, куди веде резервний sg-*, і чому система постійно повертається до основної моделі щотурну.
Comments
0 comments