지출 한도는 독립적인 두 계층에서 집행된다. 첫째, 통합 빌링(Unified Billing)을 사용하는 조직을 위한 계정 수준(Account-level)의 지출 한도는 모든 게이트웨이의 총지출을 제한한다. 둘째, 게이트웨이별 규칙은 더 세부적인 통제를 제공한다. 이 두 한도 중 어느 하나라도 먼저 도달하면 즉시 요청이 차단된다 . 이 기능은 클라우드플레어가 AI 공급자 비용을 대신 결제해주는 통합 빌링(5%의 거래 수수료 발생)은 물론, 기업이 자신의 API 키를 직접 가져와 사용하는 BYOK(Bring-Your-Own-Key) 환경에서도, 해당 모델의 가격 정보가 알려져 있다면 동일하게 작동한다
.
429 오류와 함께 요청을 단순히 거절하는 것은 때로는 너무 가혹한 조치다. 현재 베타 서비스 중인 클라우드플레어의 **동적 라우팅(Dynamic Routing)**은 더 스마트한 대안을 제시한다. 예산이 소진되면 요청을 거절하는 대신, 더 저렴한 AI 모델로 자동 전환하는 폴백(Fallback) 기능을 제공하는 것이다. 라우팅 흐름 안에 **예산 한도 노드(Budget Limit nodes)**를 포함시켜 비용 쿼터를 강제하고, 한도에 도달하면 요청을 중단하는 대신 사전에 정의된 대체 모델로 전환할 수 있다 . 이 시스템은 예산 한도 노드 외에도, 속도 제한 노드, A/B 테스트를 위한 비율 기반 트래픽 분할, 그리고 사용자 플랜이나 팀 같은 요청 메타데이터에 따른 조건부 분기 처리 등도 애플리케이션 코드 수정 없이 가능하게 한다
.
아마도 이번 발표에서 가장 의미심장한 부분은 클라우드플레어 액세스(Cloudflare Access) 및 조직의 기존 ID 공급자(IdP, 예: Okta, Azure AD)와 통합되는 **신원 기반 예산(Identity-Driven Budgets)**의 클로즈 베타 출시일 것이다. 이는 공유 API 키 사용 시 “누가 얼마나 썼는지 아무도 모르는” 고질적인 문제를 해결한다 . 기업의 공식 디렉터리 정보와 직접 연결된 개인별 AI 사용량 추적 및 예산 집행은 CFO와 재무팀에게 다른 모든 사업 부문처럼 AI 지출에서도 **‘사용자당 단위 경제성(Unit Economics)’**을 확보해 준다
.
AI 지출 한도를 실제 사용된 돈, 그리고 실제 사람들과 직결시킴으로써, 클라우드플레어는 AI 비용 관리가 다른 모든 클라우드 인프라 비용을 추적하는 것처럼 일상적인 업무가 될 것이라고 내다보고 있다.
Comments
0 comments