| 284 bilhões de parâmetros totais / 13 bilhões ativados |
| Janela de contexto | Até 1M tokens | Até 1M tokens |
| Posicionamento | Maior modelo da família V4 | Cargas de trabalho mais rápidas e eficientes |
| Nome na API | deepseek-v4-pro | deepseek-v4-flash |
A página de modelos e preços da DeepSeek também lista saída máxima de 384K tokens para os dois modelos e suporte a recursos como JSON Output e chamadas de ferramentas, ou Tool Calls. Ou seja: a aposta do V4 não é só aumentar parâmetros ou contexto. É empacotar uma versão de maior teto de capacidade e outra de maior eficiência como produtos chamáveis por API.
Materiais públicos da APIYi e da HyperAI descrevem V4-Pro e V4-Flash como modelos Mixture-of-Experts, ou MoE. Em português claro: em vez de todo o modelo trabalhar a cada token, uma arquitetura MoE usa um conjunto de “especialistas” e ativa apenas uma parte deles em cada inferência. Por isso os números de parâmetros totais e de parâmetros ativados aparecem lado a lado nas especificações.
A vantagem é que a capacidade total do modelo e o custo de uma única chamada deixam de estar totalmente amarrados. A contrapartida é de engenharia: o servidor precisa lidar com roteamento de especialistas, paralelismo, comunicação entre dispositivos e balanceamento de carga. Após o lançamento do V4, as equipes SGLang e Miles afirmaram ter suporte de inferência e treinamento por RL e disseram que sua stack foi adaptada para hybrid sparse-attention, mHC e pesos de especialistas em FP4, um sinal de que a complexidade vai além do modelo e chega à pilha de serving e treinamento.
Materiais da NVIDIA para desenvolvedores posicionam V4-Pro e V4-Flash como modelos voltados a inferência eficiente com contexto de milhões de tokens, citando usos como programação com contexto longo, análise de documentos, recuperação de informação e fluxos com agentes de IA. A documentação da API da DeepSeek também lista contexto de 1M para os dois modelos.
Para quem usa a API, a promessa é simples: reduzir fatiamento de documentos, colagens manuais e perdas em etapas de busca. Para quem opera o serviço, o problema cresce rápido: atenção, cache de contexto, memória de GPU, largura de banda e escalonamento de throughput ficam muito mais pressionados. Por isso, avaliar o V4 apenas pelo número de tokens da janela é pouco. O teste útil precisa envolver repositórios de código reais, documentos longos, RAG — geração aumentada por recuperação — e cadeias de agentes, medindo latência, custo, estabilidade de referências distantes e comportamento das chamadas de ferramentas.
Nos materiais públicos, a terminologia sobre eficiência em contexto longo ainda não é totalmente uniforme. A APIYi diz que o contexto de 1M do V4 é sustentado por Hybrid Attention e DSA sparse attention. A HyperAI resume a arquitetura como hybrid attention combinando Compressed Sparse Attention, ou CSA, e Heavily Compressed Attention, ou HCA, além de mencionar mHC.
Já SGLang e Miles dizem que sua stack aberta foi adaptada para hybrid sparse-attention, mHC e pesos de especialistas em FP4.
A leitura mais prudente é esta: o ecossistema em torno do V4 aponta para uma combinação de atenção esparsa, atenção comprimida, atenção híbrida e otimizações de serving. Mas nomes de módulos, detalhes de implementação e ganhos exatos não devem ser tratados como fato definitivo apenas com base em resumos de terceiros ou vídeos. Para esse nível de detalhe, o melhor ponto de partida é o Model Card e o Technical Report listados no Transparency Center da DeepSeek.
O changelog da DeepSeek informa que a API já oferece V4-Pro e V4-Flash por meio da interface OpenAI ChatCompletions e também por uma interface compatível com Anthropic. Para acessar os novos modelos, o base_url não muda; é preciso alterar o parâmetro model para deepseek-v4-pro ou deepseek-v4-flash. A documentação de primeira chamada lista os endereços base
https://api.deepseek.com no formato OpenAI e https://api.deepseek.com/anthropic no formato Anthropic.
model: deepseek-v4-pro
model: deepseek-v4-flash
OpenAI format base_url: https://api.deepseek.com
Anthropic format base_url: https://api.deepseek.com/anthropicHá também um prazo importante: os nomes antigos deepseek-chat e deepseek-reasoner serão descontinuados em 24 de julho de 2026. Durante o período de transição, eles apontam, respectivamente, para os modos sem raciocínio e com raciocínio do deepseek-v4-flash. Para aplicações existentes, a primeira lista de tarefas é objetiva: substituir o nome do modelo, escolher entre Pro e Flash e rodar testes de regressão para contexto longo, Tool Calls, tamanho de saída e custo.
Primeiro, as alegações de liderança em desempenho merecem cautela. A página oficial em chinês afirma que o V4-Pro alcança liderança no campo doméstico e open source em agentes, conhecimento de mundo e raciocínio; a APIYi também lista pontuações de benchmarks como SWE-Verified. Esses dados são úteis como alegações do fornecedor e do ecossistema, mas o desempenho em prompts, limites de custo e tarefas de negócio diferentes precisa ser reproduzido de forma independente.
Segundo, detalhes internos devem ser separados por nível de evidência. Termos como Hybrid Attention, DSA, CSA, HCA, mHC e pesos de especialistas em FP4 aparecem em diferentes materiais públicos, mas as fontes e nomenclaturas não são idênticas. Fora do relatório técnico oficial, não é seguro tratar cada termo como uma descrição completa e verificada da implementação.
Terceiro, uma janela de 1M tokens não significa automaticamente que todo pedido usando a janela cheia terá baixa latência e baixo custo. As fontes oficiais e de ecossistema confirmam a direção das especificações e a disponibilidade por API; o resultado em produção ainda depende do tamanho dos seus documentos, acertos de cache, concorrência, encadeamento de ferramentas e critérios de avaliação.
A engenharia mais interessante do DeepSeek V4 está na combinação: V4-Pro com 1,6 trilhão de parâmetros totais e 49 bilhões ativados, V4-Flash com 284 bilhões totais e 13 bilhões ativados, janela de até 1M tokens e APIs compatíveis com OpenAI e Anthropic dentro da mesma linha de produto.
Para times de engenharia, dados e produto, a melhor resposta não é repetir o marketing do 1M de contexto. É montar uma prova de conceito com seus próprios documentos longos, bases de código, fluxos de RAG e agentes, medir ponta a ponta e concluir a migração dos nomes antigos antes de 24 de julho de 2026.
Comments
0 comments