Yhteisöarviot sijoittavat mahdollisen julkaisuikkunan 15. kesäkuuta – 5. heinäkuuta 2026 välille, mutta aikataulu on täysin puhdasta ekstrapolointia lokihavainnoista, eikä sille löydy virallista vahvistusta . Hypoteettisesta GPT‑5.6:sta ei ole toistaiseksi ilmaantunut mitään konkreettista hinnoittelua, token-tehokkuuslukuja tai vahvistettuja multimodaalisia kyvykkyyksiä; odotukset paremmasta kustannustehokkuudesta ja teksti-kuva-generointikyvystä perustuvat päätelmään 5.x-perheen kehityskaaresta, eivät dokumentoituihin spesifikaatioihin
.
Lopputulema: GPT‑5.6 on uskottava vuoto, ei tuote. Ala seuraa taustalogien käyttäytymistä, mutta OpenAI ei ole julkaissut lanseerauspäivää tai teknistä spesifikaatiolistaa .
Ilmaus "Mythos-vertailuarvo" esiintyy useassa erillisessä asiayhteydessä, mikä saattaa aiheuttaa sekaannusta:
Anthropicin Claude Mythos -mallin vuoto (26. maaliskuuta 2026): Anthropicin sisällönhallintajärjestelmän virheellinen määritys altisti vahingossa noin 3000 sisäistä dokumenttia. Niiden joukossa oli luonnosartikkeli seuraavan sukupolven mallista, jonka koodinimi on "Capybara" ja virallinen nimi Claude Mythos . Vuodettujen sisäisten vertailuarvojen mukaan Mythos saavutti 93,9 % SWE-bench Verified -testissä ja 77,8 % SWE-bench Pro -testissä, johtaen kaikkia merkittäviä koodausvertailuja tuolloin
. Huhtikuun 7. päivänä 2026 Anthropic julkisti virallisesti Claude Mythos Preview'n – mutta ilmoitti samanaikaisesti, ettei yleisö voi käyttää sitä
. Malli on herättänyt huomiota myös poikkeuksellisilla kyberturvallisuuskyvyillään, mukaan lukien 27 vuotta huomaamatta pysyneen bugin löytäminen OpenBSD:stä
.
Carnegie Mellon -yliopiston tietoturvavertailu (toukokuu 2026): CMU:n tutkijat rakensivat erillisen evaluoinnin, joka testaa, kykenevätkö tekoälymallit kehittämään itsenäisesti oikeita selainhyökkäyksiä Googlen V8-moottorin haavoittuvuuksia vastaan. Sekä Claude Mythos että GPT‑5.5 todistivat pystyvänsä löytämään ja aseistamaan aitoja tietoturva-aukkoja ilman ihmisen väliintuloa, ja Mythos suoriutui huomattavasti GPT‑5.5:ttä paremmin, ollen kuitenkin samalla noin kaksitoista kertaa kalliimpi käyttää .
SecureAI:n Mythos-haavoittuvuusvertailu (tammikuu 2026): Kyberturvallisuuteen keskittyvä testisarja, joka kattaa vuosien 2023–2026 CVE-haavoittuvuudet, suunniteltu arvioimaan tekoälypohjaisia haavoittuvuuksien tunnistajia, ja käyttää suuria kielimalleja kuten Llama‑3.1‑405B perustasonaan .
Kun joku mainitsee "Mythos-vertailuarvon vuodon", hän viittaa yleensä Anthropicin mallin vuotoon. CMU:n ja SecureAI:n arvioinnit ovat erillisiä hankkeita, joilla on yhteistä "Mythos"-nimikkeessä vain sattumalta.
OpenAI julkisti 2. kesäkuuta 2026 järjestämässään "Intelligence at Work" -tilaisuudessa Codexin rakenteellisen laajentamisen kehittäjälähtöisestä koodausagentista laajemmaksi yritysten työalustaksi . Julkistuksen kolme vahvistettua kulmakiveä ovat:
OpenAI vahvisti myös, että Codex on ylittänyt 5 miljoonan viikoittaisen aktiivisen käyttäjän rajan . Laajennus on selvä strateginen veto kaapata ei-teknisiä tietotyöntekijöitä yritysten sisällä, ja useat itsenäiset analyysit tunnistavat sen olevan suora kilpailuakseli työkaluja vastaan, jotka aiemmin keskittyivät lähes yksinomaan insinööritiimeihin
.
Jokavuotisessa Build-kehittäjäkonferenssissaan San Franciscossa 2. kesäkuuta 2026 Microsoft esitteli seitsemän oman talon sisäistä tekoälymallia, jotka tuotiin yhtenäisen MAI-brändin (Microsoft AI) alle, sekä uutta laitteistoa .
Keskipisteenä loisti MAI‑Thinking‑1, yhtiön ensimmäinen päättelyyn erikoistunut malli:
Kuusi muuta mallia täydentävät multimodaalisen ekosysteemin:
Laitteistojulkistuksiin kuului Surface RTX Spark Dev Box, kompakti tekoälykehitykseen tarkoitettu kone, jonka laskentateho yltää jopa yhteen petaflopiin ja jossa on 128 Gt yhdistettyä muistia. Se kykenee ajamaan jopa 120 miljardin parametrin malleja paikallisesti . Lisäksi Microsoft esitteli Majorana 2 -kvanttisirun, joka viestii sen laitteistotavoitteiden kiihtymisestä perinteisen tekoälylaskennan ulkopuolelle
.
Seitsemän MAI-mallin perhettä pidetään laajalti liikkeenä, jolla pyritään vähentämään riippuvuutta OpenAI:n malleista ja tarjoamaan yritysasiakkaille talon sisäisiä vaihtoehtoja, joiden mukana tulee puhtaat kaupalliset lisenssit .
"Vibe-koodaus" – käytäntö, jossa kokonaisia sovelluksia luodaan keskustelevilla kehotteilla syntaksin kirjoittamisen sijaan – on synnyttänyt uuden sukupolven testejä, jotka pyrkivät mittaamaan full-stack-kyvykkyyttä eristettyjen koodaustehtävien sijasta:
Näiden kolmen alustan yhteinen tavoite on viedä tekoälykoodauksen arviointi ohitusprosenttiin perustuvien testien, kuten SWE-benchin, ohi ja kohti kokonaisvaltaisia käytettävyyden, nopeuden, kustannusten ja turvallisuuden mittareita.
Nous Research julkaisi 2. kesäkuuta 2026 Hermes Desktopin julkisena esikatseluna. Se toimitetaan niputettuna Hermes Agent v0.15.2:n kanssa ja julkaistiin MIT-lisenssillä macOS 12+:lle, Windows 10/11:lle ja Linuxille .
Aiemmin Hermesiin pääsi käsiksi vain komentorivipohjaisen käyttöliittymän tai viestiporttien kautta. Työpöytäsovellus on natiivisti graafinen etuosa, joka jakaa saman agenttiytimen, API-avaimet, istunnot, taidot ja muistin kuin komentoriviversio, joten se on vaihtoehtoinen käyttötapa, ei versiohaarukka .
Nous Research kuvaa Hermestä "itseään kehittäväksi agentiksi, ei koodausapulaiseksi" . Agentti on kasvanut lanseerauksestaan noin 180 000 GitHub-tähteen noin kolmessa kuukaudessa, mikä tekee siitä yhden ekosysteemin nopeimmin kasvavista avoimen lähdekoodin agenttihankkeista
.
Alibaba lanseerasi Qwen 3.7 Plussan noin 1.–2. kesäkuuta 2026. Se on multimodaalinen agenttimalli, joka käsittelee tekstiä, kuvia ja videota varhaisen fuusion koulutusmenetelmällä, ja sen konteksti-ikkuna on miljoona tokenia .
Hinnoittelu on asetettu noin kuudesosaan Alibaban pelkästään tekstiä käsittelevän Qwen 3.7 Maxin token-hinnasta, mikä tekee siitä yhden markkinoiden aggressiivisimmin hinnoitelluista multimodaaliagenteista . Agenttisuorituskyvyn vertailuissa Qwen 3.7 Plus voittaa Claude Opus 4.6:n Terminal‑Bench 2.0 -testissä ja pystyy UI:n tunnistukseen/automatisointiin, koodin generointiin kuvista ja visuaaliseen kysymyksiin vastaamiseen
.
Claude Code on Anthropicin agenttimainen koodaustyökalu, joka toimii suoraan terminaalissa ja ajaa komentotulkin komentoja sekä muokkaa tiedostoja kehittäjän koneella. /fork-komento luo uuden istunnon, joka haarautuu olemassa olevasta ja tallentuu commands/branch/-hakemistoon, mahdollistaen työnkulun, jossa kehittäjä voi tutkia eri suuntaa menettämättä alkuperäisen istunnon kontekstia .
Claude Codesta on tullut yksi laajimmin käyttöön otetuista tekoälykehittäjätyökaluista, ja yksi sen npm-pakettimaininnoista keräsi yli 1 100 tähteä ja 1 900 haarausta yhdessä päivässä .
Useille alkuperäisen tiedustelun kohdille ei löydy suoraa lähdevahvistusta kesäkuun 2026 alussa:
Kesäkuun 2026 avausviikon hallitsevia teemoja ovat yritystyökalujen laajennus (Codex-lisäosat ja Sites), talon sisäiset malliperheet (Microsoftin MAI-kattaus, Alibaban Qwen), avoimen lähdekoodin agenttien kypsyys (Hermes Desktop) ja häämöttävä seuraava sukupolvi, joka ei ole vielä julkinen (GPT‑5.6, Claude Mythos). Ala liikkuu nopeasti – mutta ero vahvistettujen tuotteiden ja vahvistamattomien huhujen välillä on terävämpi kuin otsikot usein antavat ymmärtää.
Comments
0 comments