DeepSeek V4 sollte man nicht als bloßes Modell mit besonders großem Kontextfenster lesen. Für Entwicklerinnen, Entwickler und AI-Teams ist es eher ein Paket aus Modellfamilie und Service-Stack: zwei Leistungsstufen, öffentlich ausgewiesene Gesamt- und Aktivparameter, bis zu 1 Mio. Token Kontext sowie API-Aufrufe, die mit OpenAI- und Anthropic-Formaten kompatibel sind.[1][
14][
17][
18][
20]
Das DeepSeek Transparency Center führt V4.0 DeepSeek-V4 mit Veröffentlichungsdatum 24. April 2026 und verweist auf Model Card sowie Technical Report.[22] Die offizielle Ankündigung beschreibt DeepSeek-V4 Preview als live und synchron als Open-Source-Veröffentlichung verfügbar.[
14][
15]
Gesicherte Eckdaten: Pro für die Obergrenze, Flash für Effizienz
| Punkt | DeepSeek-V4-Pro | DeepSeek-V4-Flash |
|---|---|---|
| Öffentliche Größe | 1,6 Billionen Gesamtparameter / 49 Milliarden aktive Parameter [ | 284 Milliarden Gesamtparameter / 13 Milliarden aktive Parameter [ |
| Kontextfenster | bis zu 1 Mio. Token [ | bis zu 1 Mio. Token [ |
| Produktrolle | größtes Modell der V4-Familie [ | für schnellere und effizientere Workloads ausgelegt [ |
| API-Modellname | deepseek-v4-pro [ | deepseek-v4-flash [ |
Die Modell- und Preisseite von DeepSeek nennt für beide Varianten außerdem eine maximale Ausgabelänge von 384.000 Token sowie Funktionen wie JSON Output und Tool Calls.[17] Das zeigt: Der Engineering-Schwerpunkt liegt nicht allein darin, Parameterzahl oder Kontextfenster nach oben zu treiben. DeepSeek versucht, eine leistungsstärkere und eine effizientere Variante als direkt aufrufbare Produktlinie bereitzustellen.
Warum MoE hier der eigentliche Hebel ist
API Yi und HyperAI beschreiben V4-Pro und V4-Flash als Mixture-of-Experts-Modelle, kurz MoE.[2][
4] In diesem Modelltyp steht die Gesamtparameterzahl eher für die Größe des gesamten Expertenpools. Die aktiven Parameter geben an, welcher Teil bei einer einzelnen Inferenz tatsächlich mitrechnet. Das erklärt, warum die V4-Spezifikationen so stark zwischen total parameters und active parameters unterscheiden.[
1][
2][
4][
14]
Der Vorteil: Modellkapazität und Rechenaufwand pro Anfrage lassen sich teilweise entkoppeln. Der Preis dafür liegt auf der Systemseite. Routing zu den passenden Experten, Expertenparallelität, Kommunikation zwischen Komponenten und Lastverteilung müssen stabil funktionieren, sonst frisst der Overhead die Effizienzgewinne wieder auf.
Dass es nicht nur um Modellgewichte geht, zeigt auch die Reaktion aus dem Serving-Ökosystem. Das SGLang-/Miles-Team meldete nach dem V4-Start Unterstützung für Inferenz und RL-Training und erklärte, der Stack sei auf V4s hybrid sparse-attention, mHC und FP4 expert weights angepasst worden.[5] Die Schwierigkeit wandert damit sichtbar in den Serving- und Trainings-Stack hinein.
1 Mio. Token Kontext: Der Nutzen ist klar, der Stresstest auch
NVIDIA-Entwicklermaterial positioniert V4-Pro und V4-Flash für effiziente Inferenz mit Million-Token-Kontext und nennt Langkontext-Coding, Dokumentenanalyse, Retrieval und agentische AI-Workflows als Einsatzfelder.[1] Die DeepSeek-API-Dokumentation führt für beide Modelle ebenfalls eine Kontextlänge von 1 Mio. Token auf.[
17]
Für Nutzerinnen und Nutzer ist der Reiz offensichtlich: weniger Zerstückelung langer Dokumente, weniger manuelles Zusammenkleben von Kontext und potenziell weniger Lücken bei Retrieval-Augmented Generation, also RAG. Für den Server ist ein so großes Fenster aber ein Belastungstest. Aufmerksamkeit, Kontext-Cache, Speicherbandbreite, GPU-Speicher und Durchsatzplanung geraten stärker unter Druck.
Darum sollte man V4 nicht nur nach der Fenstergröße bewerten. Aussagekräftiger sind Tests mit echten Code-Repositories, langen Verträgen oder technischen Dokumentationen, RAG-Pipelines und Agent-Workflows. Entscheidend sind dann Latenz, Kosten, Stabilität über lange Distanzen und die Qualität von Tool Calls.[1][
17]
Attention-Architektur: Die Richtung ist erkennbar, die Begriffe schwanken
Bei der Frage, wie DeepSeek den langen Kontext effizienter macht, verwenden öffentliche Materialien nicht immer dieselbe Terminologie. API Yi schreibt, der 1-Mio.-Token-Kontext werde durch Hybrid Attention und DSA sparse attention unterstützt.[2] HyperAI fasst die Architektur als hybrid attention zusammen, die Compressed Sparse Attention, CSA, und Heavily Compressed Attention, HCA, kombiniert, und nennt zusätzlich mHC.[
4] SGLang/Miles spricht wiederum von Anpassungen an hybrid sparse-attention, mHC und FP4 expert weights.[
5]
Die vorsichtige Lesart lautet daher: Die V4-Materialien deuten konsistent auf eine Kombination aus sparsamer, komprimierter oder hybrider Attention und Serving-Optimierungen. Einzelne Modulnamen, Implementierungsdetails und die tatsächliche Größenordnung der Effizienzgewinne sollte man aber nicht allein aus Zweitquellen oder Videozusammenfassungen ableiten. Für belastbare Aussagen sind Model Card und Technical Report aus dem DeepSeek Transparency Center die bessere Prüfstelle.[22]
API-Migration: Kompatibilität ist Teil des Produkts
Der DeepSeek-Changelog meldet, dass die API V4-Pro und V4-Flash unterstützt und beide über die OpenAI-ChatCompletions-Schnittstelle sowie eine Anthropic-kompatible Schnittstelle aufrufbar sind.[18][
19] Für die neuen Modelle bleibt die
base_url unverändert; geändert wird der model-Parameter auf deepseek-v4-pro oder deepseek-v4-flash.[18][
19]
Die Einstiegsdokumentation nennt diese Basis-URLs:[20][
21]
model: deepseek-v4-pro
model: deepseek-v4-flash
OpenAI format base_url: https://api.deepseek.com
Anthropic format base_url: https://api.deepseek.com/anthropicFür bestehende Anwendungen ist vor allem die Frist wichtig: Die alten Modellnamen deepseek-chat und deepseek-reasoner sollen am 24. Juli 2026 auslaufen.[18][
19][
21] In der Übergangsphase verweisen sie auf
deepseek-v4-flash ohne bzw. mit Thinking-Modus.[18][
19][
21]
Praktisch heißt das: zuerst Modellnamen ersetzen, dann bewusst zwischen Pro und Flash wählen und anschließend Regressionstests fahren. Getestet werden sollten Langkontextverhalten, Tool Calls, maximale Ausgabelänge, Kosten und die Frage, ob bestehende Prompts unter den neuen Modellnamen gleichwertig funktionieren.[17][
18]
Was noch unabhängig geprüft werden muss
Erstens: Leistungsversprechen bleiben ein Prüfpunkt. Die offizielle chinesische Veröffentlichungsseite schreibt V4-Pro führende Leistungen im chinesischen und im Open-Source-Umfeld bei Agent-Fähigkeiten, Weltwissen und Reasoning zu; API Yi nennt außerdem Benchmark-Werte etwa für SWE-Verified.[15][
2] Das sind relevante Hersteller- und Ökosystemangaben, ersetzen aber keine unabhängigen Tests mit eigenen Prompts, Kostenlimits und Geschäftsaufgaben.
Zweitens: Interne Mechanismen sollte man nach Quellenebene sortieren. Hybrid Attention, DSA, CSA, HCA, mHC und FP4 expert weights tauchen in verschiedenen öffentlichen Materialien auf, aber Benennung und Quellenlage sind nicht vollständig einheitlich.[2][
4][
5] Außerhalb des offiziellen technischen Berichts wäre es vorschnell, jeden Begriff als endgültig bestätigtes Implementierungsdetail zu behandeln.[
22]
Drittens: 1 Mio. Token Kontext bedeutet nicht automatisch, dass jede voll ausgelastete Anfrage günstig und schnell ist. Offizielle und ökologische Materialien belegen Spezifikation und Aufrufbarkeit; die reale Servicequalität hängt weiter von Dokumentlänge, Cache-Treffern, Parallelität, Tool-Ketten und Evaluationsmaßstäben ab.[1][
17][
18]
Fazit für Entwicklerteams
Die auffällige Ingenieursleistung von DeepSeek V4 steckt in der Kombination: V4-Pro mit 1,6 Billionen Gesamtparametern und 49 Milliarden aktiven Parametern, V4-Flash mit 284 Milliarden Gesamtparametern und 13 Milliarden aktiven Parametern, bis zu 1 Mio. Token Kontext sowie eine OpenAI- und Anthropic-kompatible API in derselben Produktlinie.[1][
14][
17][
18]
Kurzfristig ist die sinnvollste Reaktion nicht, Benchmark-Claims nachzuerzählen. Teams sollten eigene Langdokumente, Codebasen, RAG-Systeme und Agent-Workflows Ende zu Ende testen — und die Migration von deepseek-chat sowie deepseek-reasoner vor dem 24. Juli 2026 einplanen.[18][
21]




