OpenAI asemoi GPT-5.6 Solin uudeksi edelläkävijäksi kolmella keskeisellä alueella: koodaus, biologia ja tietoturva .
Terminal-Bench 2.1 -testi mittaa komentorivityönkulkuja, jotka vaativat monivaiheista suunnittelua, työkalujen koordinointia ja iterointia . Testissä on 89 monimutkaista ohjelmointitehtävää
. Tulokset sisältävät:
| Malli | Pisteet |
|---|---|
| GPT-5.6 Sol Ultra | 91,9 % |
| GPT-5.6 Sol (max) | 88,8 % |
| Claude Mythos 5 | 88,0 % |
| GPT-5.6 Terra | 84,3 % |
| Claude Fable 5 | 84,3 % |
| GPT-5.5 | 83,4 % |
| GPT-5.6 Luna | 82,5 % |
GPT-5.6 Sol Ultra saavutti uuden tason 91,9 prosentilla . Tavallinen Sol-piste 88,8 % on lähes kokonaisen pisteen edellä Anthropicin rajoitettua edelläkävijämallia, Claude Mythos 5:ttä (88,0 %)
.
GeneBench v1 -testissä, joka arvioi pitkäjänteistä genomiikkaa ja kvantitatiivisen biologian analyysitehtäviä, OpenAI raportoi Solin saavuttavan vahvempia tuloksia kuin GPT-5.5, vaikka se käyttää vähemmän lähtötokeneita . Tämä on merkittävä tehokkuusparannus tieteellisille tutkimustyönkuluille.
ExploitBench-testissä GPT-5.6 Sol saavutti lähes saman suorituskyvyn kuin Anthropicin Mythos Preview, käyttäen samalla noin kolmasosan lähtötokeneista .
ExploitGym-testissä, jonka UC Berkeleyn tutkijat rakensivat yhteistyössä OpenAI:n ja muiden huippuluokan tekoälylaboratorioiden kanssa, kaikki kolme GPT-5.6 -mallia osoittivat parantuneita tietoturvakyvykkyyksiä päättelyn lisääntyessä .
Tärkeää on, että OpenAI toteaa GPT-5.6 Solin ylittämättä Cyber Critical -kynnystä valmistautumiskehyksensä mukaan . Chromium- ja Firefox-selaimia koskevissa arvioinneissa malli tunnisti virheitä ja hyväksikäytön perusosia — hyökkäyksen rakennuspalikoita — mutta se ei tuottanut itsenäisesti toimivaa koko ketjun hyökkäystä testatuissa olosuhteissa
. Koko GPT-5.6 -mallisarja sai sisäisen "High"-riskiarvon (tietoturva- ja bioasetekyvykkyyksien osalta), mutta ei korkeinta "Critical"-tasoa
.
OpenAI sanoo GPT-5.6 Solin lanseerautuvan sen "vankimmalla turvallisuusratkaisullaan tähän mennessä" . Turvallisuuslähestymistapa sisältää:
Esikatselun aikana jotkin kehotteet voidaan hidastaa tai estää lisätarkastusta varten, kun OpenAI hienosäätää väärien positiivisten ja väärien negatiivisten määriä .
GPT-5.6:n käyttöönotto on erilainen kuin mikään aiempi OpenAI-julkaisu. Yhdysvaltain hallituksen pyynnöstä OpenAI rajoittaa aluksi pääsyn pieneen luotettujen kumppaneiden ja organisaatioiden ryhmään — Axios raportoi, että esikatselu sisältää noin 20 hyväksyttyä yritystä — kun malli käy läpi lisää kansallisen turvallisuuden tarkastuksia .
Esikatselu ei ole laaja itsepalveluohjelma. Tänä aikana GPT-5.6 Sol, Terra ja Luna ovat saatavilla vain OpenAI API:n ja Codexin kautta tälle rajoitetulle ryhmälle . Mallit eivät ole saatavilla ChatGPT:ssä esikatselun aikana
. OpenAI sanoo, että laajempi saatavuus ChatGPT:ssä, Codexissa ja API:ssa on suunniteltu "tulevien viikkojen aikana"
.
OpenAI totesi selvästi pitävänsä hallituksen portinvartijamenettelyä väliaikaisena toimenpiteenä: "Uskomme laajaan saatavuuteen, eikä tästä prosessista pitäisi tulla pitkän aikavälin oletusarvoa" . Sisäisessä muistiossa toimitusjohtaja Sam Altman kertoi henkilökunnalle, että hallitus "hyväksyisi pääsyä asiakas asiakkaalta tämän esikatselujakson aikana" ja toivoi laajempaa julkaisua muutaman viikon kuluttua
.
Tämä syntyi keskusteluista National Cyber Directorin toimiston ja Science and Technology Policy -toimiston kanssa , mikä heijastaa uutta Trumpin hallinnon testaamaa huippumallikehystä
.
| Malli | Syöte / 1M tokenia | Tuloste / 1M tokenia |
|---|---|---|
| GPT-5.6 Sol | 5,00 $ | 30,00 $ |
| GPT-5.6 Terra | 2,50 $ | 15,00 $ |
| GPT-5.6 Luna | 1,00 $ | 6,00 $ |
Sol-hinnoittelu vastaa GPT-5.5 -hinnoittelua, kun taas Terra on noin 2 kertaa halvempi kuin GPT-5.5 . Vertailun vuoksi Sol on hinnoiteltu lähemmäs Claude Opus 4.8:aa (5/25 $) kuin Anthropicin rajoitettua Mythos 5:tä (10/50 $)
.
OpenAI ilmoitti myös, että GPT-5.6 Sol otetaan käyttöön Cerebras-laitteistolla heinäkuussa jopa 750 tokenin sekuntinopeudella
.
GPT-5.6 -perhe merkitsee merkittävää poikkeamaa aiemmista OpenAI-julkaisuista. Kolmiportainen paketointi (Sol, Terra, Luna) esittelee kestävän brändäyksen, joka erottaa mallisarjan kyvykkyystasoista. Vertailuarvot — erityisesti Solin huipputason koodauspisteet Terminal-Bench 2.1:ssä ja sen tehokkuusparannukset ExploitBenchissä — osoittavat merkittäviä edistysaskeleita erityisesti tietoturvassa ja biologiassa. Mutta tämän julkaisun määrittävin piirre saattaa olla hallituksen vaatimat käyttörajoitukset, jotka edustavat uutta paradigmaa huippuluokan tekoälyn käyttöönotolle.
Comments
0 comments