GPT-5.5, Claude Opus 4.7, DeepSeek V4 и Kimi K2.6: как читать публичные бенчмарки | Глубокие исследования