Змагання CoderCup було задумане як перша публічно відреферована битва ШІ-агентів, де кілька агентів створювали один і той самий застосунок за ідентичних умов, а CLI від TestSprite виступав як об'єктивний, нейтральний арбітр . Набір тестів з відкритим кодом, використаний на змаганні, навіть приймає pull-запити від спільноти, тому вердикти є публічно прив'язаними до доказів
.
Найбільш вражаючим висновком стало те, що навіть найкращий агент зламав 12% функцій, які вже працювали коректно. Це кількісно підтверджує проблему "катастрофічного забування" в агентному кодингу: створюючи новий функціонал, агенти не мають вбудованого усвідомлення того, які наявні функції вони можуть пошкодити . Змагання стало публічним доказом того, що зовнішній, автоматизований крок верифікації є не просто бажаним доповненням, а необхідністю в будь-якому робочому процесі, що використовує ШІ-агенти
.
npm install -g @testsprite/testsprite-mcp@latestnpm run devХоча сам новий CLI з відкритим кодом тільки виходить на ринок, його материнська платформа вже є важливою частиною сучасних робочих процесів розробки на основі ШІ. Станом на березень 2026 року на ширший набір продуктів для тестування TestSprite покладалися майже 100 000 команд розробників для перевірки згенерованого ШІ коду перед його відправленням у реліз . CLI розширює цю можливість до простого кроку на основі терміналу, який може виконати будь-який агент із кодингу, роблячи автоматизовану перевірку якості стандартною частиною пайплайну агентного кодингу
.
Comments
0 comments