La página de modelos y precios de DeepSeek añade que ambos modelos tienen una longitud máxima de salida de 384K y soportan funciones como Json Output y Tool Calls. La señal es clara: V4 no busca solo ganar una carrera de cifras; intenta empaquetar un nivel de máxima capacidad y otro de mayor eficiencia en una misma línea de producto invocable.
API易 y HyperAI describen V4-Pro y V4-Flash como modelos Mixture-of-Experts, o MoE. En este enfoque, los parámetros totales se parecen más a la capacidad completa del conjunto de expertos, mientras que los parámetros activos representan el subconjunto que participa en una inferencia concreta; por eso las especificaciones de V4 subrayan ambas cifras.
La ventaja es que capacidad y coste de cómputo por llamada quedan parcialmente desacoplados. La contrapartida vive en la infraestructura: enrutamiento de expertos, paralelismo, comunicación entre dispositivos y balanceo de carga. Tras el lanzamiento, el equipo de SGLang / Miles afirmó que ya ofrecía soporte de inferencia y entrenamiento RL, o aprendizaje por refuerzo, para V4, y que su pila se había adaptado a hybrid sparse-attention, mHC y pesos de expertos en FP4, una pista de que el reto no termina en el modelo, sino que alcanza a la capa de despliegue y entrenamiento.
NVIDIA presenta V4-Pro y V4-Flash como modelos orientados a inferencia eficiente con contexto de un millón de tokens, y menciona usos como programación con contextos largos, análisis de documentos, recuperación de información y flujos de IA agéntica. La documentación de la API de DeepSeek también lista 1M como longitud de contexto para ambos modelos.
Para quien desarrolla, una ventana así puede reducir cortes artificiales, pegado de fragmentos y pérdidas en recuperación. Para quien sirve el modelo, no sale gratis: aumenta la presión sobre el cálculo de atención, las cachés de contexto, la memoria, el ancho de banda y la planificación del rendimiento y la concurrencia. Por eso la pregunta útil no es solo si cabe 1M de tokens, sino cómo se comporta V4 en repositorios reales, documentos extensos, RAG, o generación aumentada por recuperación, y cadenas de agentes: latencia, coste, estabilidad de referencias lejanas y calidad de Tool Calls.
Los materiales públicos apuntan en la misma dirección, pero no siempre usan la misma nomenclatura. API易 atribuye el contexto de 1M de V4 a Hybrid Attention y DSA sparse attention. HyperAI resume la arquitectura como una combinación de Compressed Sparse Attention, CSA, y Heavily Compressed Attention, HCA, y también menciona mHC.
SGLang / Miles, por su parte, habla de adaptaciones para hybrid sparse-attention, mHC y pesos de expertos FP4.
La lectura prudente es esta: el ecosistema de V4 apunta a una combinación de atención escasa, comprimida o híbrida más optimizaciones de serving. Pero no conviene convertir cada sigla en un hecho cerrado solo a partir de resúmenes secundarios o vídeos; para detalles de implementación y magnitud de los efectos, el punto de control debería ser el Model Card y el Technical Report enlazados por el Centro de Transparencia de DeepSeek.
El registro de cambios de DeepSeek indica que la API ya soporta V4-Pro y V4-Flash mediante la interfaz OpenAI ChatCompletions y la interfaz Anthropic; para acceder a los nuevos modelos, el base_url no cambia y basta con modificar el parámetro model a deepseek-v4-pro o deepseek-v4-flash. La documentación de primera llamada lista como base URL
https://api.deepseek.com en formato OpenAI y https://api.deepseek.com/anthropic en formato Anthropic.
model: deepseek-v4-pro
model: deepseek-v4-flash
base_url formato OpenAI: https://api.deepseek.com
base_url formato Anthropic: https://api.deepseek.com/anthropicTambién hay calendario para nombres antiguos: deepseek-chat y deepseek-reasoner dejarán de usarse el 24 de julio de 2026; durante la transición, apuntan respectivamente al modo sin razonamiento y al modo de razonamiento de deepseek-v4-flash. Para aplicaciones existentes, el primer trabajo es cambiar el nombre del modelo, decidir entre Pro y Flash, y pasar pruebas de regresión sobre contexto largo, Tool Calls, longitud de salida y coste.
1. La ventaja de rendimiento. La página oficial en chino afirma que V4-Pro alcanza posiciones líderes en capacidades de Agent, conocimiento del mundo y razonamiento dentro del ámbito nacional y open source, y ofrece comparaciones de experiencia con algunos modelos cerrados; API易 también enumera resultados de benchmarks como SWE-Verified. Son señales relevantes, pero siguen siendo afirmaciones de lanzamiento o del ecosistema: en producción, la diferencia depende de prompts, límites de coste y tareas concretas.
2. Los detalles internos. Hybrid Attention, DSA, CSA, HCA, mHC y pesos de expertos FP4 aparecen en distintos materiales públicos, pero no todos proceden del mismo nivel de fuente ni usan exactamente la misma nomenclatura. Fuera del informe técnico oficial, tratar cada término como una descripción completamente verificada del mecanismo interno sería prematuro.
3. El 1M de contexto operativo. Que la especificación permita 1M de tokens no significa que toda petición a ventana completa sea automáticamente barata, rápida o estable. El resultado real dependerá del tamaño de tus documentos, la reutilización de caché, la concurrencia, la cadena de herramientas y tus criterios de evaluación.
La ingeniería llamativa de DeepSeek V4 está en el conjunto: V4-Pro con 1,6T de parámetros totales y 49B activos, V4-Flash con 284B totales y 13B activos, contexto de hasta 1M de tokens y APIs compatibles con patrones de OpenAI y Anthropic dentro de una misma familia de producto. Para desarrolladores, la decisión más útil no es repetir el titular del millón de tokens, sino probarlo de punta a punta con sus propios documentos largos, repositorios, RAG y flujos de agentes, y completar la migración de nombres antiguos antes del 24 de julio de 2026.
Comments
0 comments