| SWE-Bench Pro | 60.6 | 55.4 | 58.6 |
| SWE-Bench Multilingual | 78.3 | — | 76.7 |
| Terminal-Bench 2.0 | 69.7 | 67.9 | 66.7 |
| LiveCodeBench (Pass@1) | — | 93.5 | 89.6 |
| Codeforces Rating | — | 3206 | — |
| SciCode | 53.5 | — | — |
| NL2Repo | 47.2 | — | — |
| MCP-Mark | 60.8 | — | — |
המחירים בטבלה משקפים את התעריפים הסטנדרטיים למיליון טוקנים. שימו לב להנחות על שמירת הקשר (cache) שיכולות להוזיל עלויות משמעותית.
הערה לגבי מחירי DeepSeek: החברה השיקה מבצע הנחה של 75% שהיה בתוקף עד סוף מאי 2026, שהפחית את מחירי ה-Pro ל-$0.435/$0.87 לקלט/פלט
. על פי דיווחים, הנחה זו הפכה לקבועה
. הטבלה משקפת את מחיר המבצע שהפך למחיר הרשמי.
קידוד ומשימות סוכן — שלושת הדגמים נמצאים בתחרות צמודה מאוד במדד SWE-Bench Verified (טווח של 80.2–80.6). Qwen3.7-Max מוביל ב-Terminal-Bench 2.0 (69.7) וב-SWE-Pro (60.6), מה שמעיד על יכולת מעולה בתפעול מערכות ובמשימות הנדסת תוכנה מורכבות. DeepSeek V4 Pro Max שולט ללא עוררין במשימות תכנות "נקי", עם ציון של 93.5 במדד LiveCodeBand ורייטינג של 3206 ב-Codeforces – ציוני הקידוד הגולמיים הגבוהים ביותר שנרשמו . Kimi K2.6 מוביל בקטגוריית SWE-Bench Pro (58.6) והוא המוביל בהערכה מבוססת-כלים (HLE with tools בציון 54.0), מה שהופך אותו לחזק במיוחד בתרחישים הדורשים שליפת מידע ומספר רב של פעולות
.
חשיבה — Qwen3.7-Max זוכה בציונים הגבוהים ביותר בתחרויות מתמטיקה (97.1% ב-HMMT, 92.4% ב-GPQA Diamond) . DeepSeek V4 Pro Max נמצא מעט מאחור ב-HMMT (95.2%) וב-HLE (37.7%)
. Kimi K2.6 מוביל במדד HLE-with-tools (54.0) וב-DeepSearchQA (92.5 F1), כלומר הוא מצטיין בתרחישים של חיפוש מעמיק ושימוש בכלים מרובי-שלבים, יותר מאשר במתמטיקה טהורה
.
תמחור וערך — DeepSeek V4 Pro Max הוא הזול ביותר בפער ניכר, בעלות של $0.87 למיליון טוקני פלט (לאחר שהמבצע הפך לקבוע), ואף מציע משקלים פתוחים לאחסון עצמי . Qwen3.7-Max הוא היקר ביותר, בעלות של $7.50 למיליון טוקני פלט, אם כי עליבאבא מציעה הנחות על עיבוד באצוות ושמירת הקשר
. Kimi K2.6 נמצא באמצע, בעלות של $4.00 לפלט, אך מציע חלון הקשר של 256 אלף טוקנים בלבד לעומת מיליון אצל שני המתחרים
.
אזהרה חשובה (הערכת NIST CAISI): במאי 2026, המכון הלאומי לתקנים וטכנולוגיה האמריקאי (NIST) פרסם הערכה ולפיה ציוני הביצועים העצמיים של DeepSeek V4 Pro Max עשויים להציג תמונה אופטימית מדי, ורמתם דומה יותר ל-GPT-5 (מאוגוסט 2025) מאשר לדגמים החדשים ביותר . אזהרה זו אינה חלה על Qwen3.7-Max או Kimi K2.6, שלא נבחנו באותו הדו"ח.
Comments
0 comments