| O V4 é mais recente, mas ainda deve ser validado como preview antes de substituir produção. |
O destaque mais fácil de entender no DeepSeek V4 Preview é a janela de contexto de 1 milhão de tokens. Na prática, isso interessa quando uma única chamada precisa carregar muitos arquivos de um repositório, documentação técnica extensa, logs de sistema, histórico longo de conversa ou uma sequência de tarefas executadas por um agente.
Isso não significa que a estratégia de contexto longo tenha começado no V4. Antes dele, o DeepSeek-V3.2-Exp já havia introduzido o DeepSeek Sparse Attention, descrito como uma forma de tornar treino e inferência mais eficientes em long context. A leitura mais justa é: o V3.2-Exp foi um passo experimental importante nessa direção, enquanto o V4 coloca o contexto longo no centro da nova geração.
Na geração V3.2, a DeepSeek lista DeepSeek-V3.2 e DeepSeek-V3.2-Speciale no changelog. No V4, a página de Preview separa a linha em DeepSeek-V4-Pro e DeepSeek-V4-Flash.
Segundo o V4 Preview, o V4-Pro tem 1,6T parâmetros totais e 49B parâmetros ativos, enquanto o V4-Flash tem 284B parâmetros totais e 13B parâmetros ativos. Para times técnicos, isso ajuda a desenhar testes mais objetivos: V4-Pro para tarefas difíceis em que qualidade é a prioridade, e V4-Flash para medir o equilíbrio entre qualidade, latência, custo e throughput em alto volume de requisições.
O cuidado é não escolher apenas pelo nome. O ideal é rodar o mesmo conjunto de prompts, dados, limites de tokens e critérios de avaliação contra V3.2, V4-Flash e V4-Pro antes de definir o modelo padrão.
O DeepSeek V3.2 já era uma versão relevante para agentes porque o release enfatiza a combinação de thinking com uso de ferramentas. Ou seja, o V3.2 não foi posicionado só para respostas de uma rodada: ele também mira fluxos em que o modelo raciocina, chama ferramentas, lê resultados e continua a tarefa.
O V4 Preview continua nessa direção, mas dá mais destaque a agentic coding, isto é, fluxos em que o modelo precisa ler contexto de código, planejar, editar e coordenar várias etapas em vez de apenas gerar um trecho isolado.
Portanto, a diferença não é que o V3.2 não servia para agentes e o V4 passou a servir. A diferença mais precisa é que o V3.2 consolidou reasoning e tool-use, enquanto o V4 tenta ampliar esse caminho para coding agents e fluxos com muito contexto.
A DeepSeek publicou benchmarks e posicionamento de desempenho tanto na página do V3.2 quanto na página do V4 Preview. Fora das fontes oficiais, uma análise técnica de Sebastian Raschka sobre os modelos DeepSeek de V3 a V3.2 também trata o V3.2 como relevante pelo desempenho e por estar disponível como open-weight.
O ponto de atenção é que, neste conjunto de fontes, estamos falando principalmente de release notes, documentação de API e análise técnica baseada em informações publicadas. Isso ajuda a entender a direção da evolução, mas não substitui benchmark interno com o seu workload real.
Em produção, a pergunta certa é mais específica: qual modelo funciona melhor nos seus prompts, nos seus dados, no seu orçamento de tokens, no seu acordo de nível de serviço de latência e na sua régua de qualidade? Enquanto isso não for medido, o V4 deve ser tratado como um candidato forte para teste, não como troca automática.
O V4 também muda a forma como alguns sistemas chamam os modelos. A DeepSeek informa no V4 Preview que deepseek-chat e deepseek-reasoner agora roteiam para deepseek-v4-flash nos modos non-thinking e thinking, e que esses dois aliases serão totalmente desativados após 24/07/2026, às 15h59 UTC.
Isso é importante porque a documentação anterior da API dizia que deepseek-chat e deepseek-reasoner correspondiam ao DeepSeek-V3.2. Se um sistema em produção chama aliases em vez de IDs específicos de modelo, o comportamento pode mudar sem que a equipe esteja controlando explicitamente a versão usada.
Na integração, a documentação da DeepSeek diz que a API usa um formato compatível com OpenAI, permitindo usar o SDK da OpenAI ou softwares compatíveis com a API da OpenAI mediante ajuste de endpoint. A DeepSeek também mantém documentação de compatibilidade com a API da Anthropic, indicando suporte para campos como
max_tokens, stream, system, temperature e thinking.
Um checklist mínimo de migração deve incluir:
deepseek-chat, deepseek-reasoner ou um ID de modelo específico.Vale testar o V4 se você precisa de contexto muito longo, está construindo um coding agent, quer comparar o V4-Pro em tarefas mais difíceis ou deseja avaliar o V4-Flash em cargas com muitas requisições.
Faz sentido manter o V3.2 como baseline temporário se o pipeline atual está estável, se a aplicação ainda não precisa de contexto de 1 milhão de tokens ou se o ambiente de produção exige benchmark interno antes de qualquer mudança de modelo.
Em resumo: o V3.2 foi um salto em reasoning e tool-use; o V4 Preview é o passo seguinte em contexto longo, divisão Pro/Flash e agentic coding. Para equipes de engenharia, porém, a parte crítica não é só escolher o melhor modelo no papel. É também planejar a migração para longe dos aliases antigos antes da data oficial de desativação.
Comments
0 comments