| Kimi K2.6 | $0.60–$0.95 | $3.00–$4.00 | $0.10 | 262K |
| Gemini 3.5 Flash | $1.50 | $9.00 | $0.15 | 1M |
| Grok 4.3 | $1.25 | $2.50 | $0.30 | 1M |
| DeepSeek V4-Flash | $0.14 | $0.28 | $0.0028 | 1M |
| DeepSeek V4-Pro | $0.435 (הנחה קבועה) | $0.87 (הנחה קבועה) | $0.0036 | 1M |
תובנות תמחור מרכזיות:
מדדי ביצוע שימושיים רק עם הקשר. ארגנו את התוצאות לפי מה שהן באמת מודדות — אינטליגנציה כללית, יכולת קידוד, ויכולת סוכנית — במקום ציון מורכב יחיד, שלעתים קרובות עלול להטעות.
קטגוריה זו מודדת ידע גולמי, מתמטיקה וחשיבה מדעית.
קלוד אופוס 4.8 פתח פער קטן אך משמעותי על GPT-5.5 באינטליגנציה כללית, מגובה בקפיצה אדירה של 27.4 נקודות בביצועי מתמטיקה בהשוואה לדגם הקודם . Qwen3.7-Max בולט בתור המודל הסיני המוביל, וכמעט משתווה למובילים בחשיבה מדעית ברמת דוקטורט (GPQA Diamond)
.
המדדים הרלוונטיים ביותר עבור מפתחים.
| מדד | DeepSeek V4-Pro | Kimi K2.6 | GPT-5.5 | Claude Opus 4.8 | Qwen3.7-Max |
|---|---|---|---|---|---|
| SWE-bench Verified | 80.6% | 80.2% | 88.7% | 88.6% | 72.5% |
| SWE-bench Pro | ~58% | 58.6% | 58.6% | 69.2% | 60.6% |
| LiveCodeBench v6 | 93.5% | 89.6% | — | — | — |
ביצועי הקידוד יוצרים פילוח ברור. קלוד אופוס 4.8 ו-GPT-5.5 צמודים בצמרת בתיקון באגים כללי (SWE-bench Verified), אבל קלוד מוביל בפער של מעל 10 נקודות במערך ה-Pro הקשה בהרבה . מבחינת יעילות קידוד טהורה לכל דולר, DeepSeek V4-Pro הוא ללא תחרות, ומציע ביצועי קידוד ברמה של GPT-5.4 בהנחה של פי 30
.
היכולת של מודל לפעול באופן עצמאי בסביבה אמיתית.
| מדד | GPT-5.5 | Gemini 3.5 Flash | Claude Opus 4.8 | Qwen3.7-Max | Grok 4.3 |
|---|---|---|---|---|---|
| GDPval-AA Elo | 1769 | 1656 | 1890 | — | 1500 |
| Terminal-Bench 2.0/2.1 | 82.7% | 76.2% | 74.6% | 69.7% | — |
| τ²-Bench (מעקב הוראות) | — | — | — | — | 98% |
GPT-5.5 שומר על הכתר שלו בתור המודל החזק ביותר לעבודת סוכנים פתוחה בטרמינל, אבל דירוג ביצועי המשימות בעולם האמיתי (GDPval-AA Elo) העדיף של קלוד אופוס 4.8 מרמז על שותף סוכני אמין יותר ומוכן לשימוש עסקי . Grok 4.3 מציע אופציה תקציבית משכנעת למשימות מעקב הוראות בנפח גבוה
.
לראשונה, מודלים סיניים מתחרים לא רק במחיר אלא גם ביכולות. Qwen3.7-Max מוביל את כל הדגמים במדד הקידוד הסוכני SWE-bench Pro עם ציון 60.6% . Kimi K2.6 משתווה לביצועי GPT-5.5 באותו מבחן, ומוביל על כל שאר המודלים במבחן "הבחינה האחרונה של האנושות" (HLE) עם כלים, בציון 54.0%
. בכך, הוא מאתגר את צמרת החשיבה האמריקאית תוך שהוא חותך משמעותית את המחיר.
השוואה ישירה ומלאה בין כל שבעת המודלים היא בלתי אפשרית כרגע, עקב דיווח סלקטיבי של מדדים על ידי החברות . מספר גורמים מרכזיים מערערים בחירה המבוססת על מספרים בלבד:
סדר העדיפויות שלכם צריך להכתיב את הבחירה:
עבור כל הטמעה קריטית, בדקו את המודלים על העומס הספציפי שלכם. מדדים המדווחים על ידי החברות מספקים נקודת התחלה שימושית, אבל לא תשובה סופית.
Comments
0 comments