Le stime della community collocano una possibile finestra di rilascio tra il 15 giugno e il 5 luglio 2026, ma si tratta di una pura estrapolazione dagli avvistamenti nei log, senza alcun supporto ufficiale . Per l'ipotetico GPT‑5.6 non sono emersi prezzi concreti, numeri sull'efficienza dei token o capacità multimodali confermate; l'aspettativa di un miglior rapporto qualità-prezzo e della generazione testo-immagine è un'inferenza basata sulla traiettoria della famiglia 5.x, non una specifica documentata
.
In sostanza: GPT‑5.6 è una fuga di notizie credibile, non un prodotto. Il settore sta osservando il comportamento del backend, ma nessuna data di lancio o scheda tecnica è stata pubblicata da OpenAI .
L'espressione "Mythos Benchmark" compare in diversi contesti, il che può generare confusione:
Il leak del modello Claude Mythos di Anthropic (26 marzo 2026): Un errore di configurazione nel sistema di gestione dei contenuti di Anthropic ha esposto accidentalmente circa 3.000 documenti interni, inclusa una bozza su un modello di nuova generazione dal nome in codice "Capybara", ufficialmente chiamato Claude Mythos . I benchmark interni trapelati mostravano Mythos raggiungere il 93,9% su SWE‑bench Verified e il 77,8% su SWE‑bench Pro, guidando ogni classifica di coding del momento
. Il 7 aprile 2026, Anthropic ha annunciato formalmente Claude Mythos Preview, dichiarando però al contempo che il pubblico non può usarlo
. Il modello è stato anche segnalato per eccezionali capacità di cybersicurezza, come la scoperta di un bug vecchio di 27 anni in OpenBSD
.
Il benchmark di sicurezza della Carnegie Mellon University (maggio 2026): I ricercatori della CMU hanno creato una valutazione a parte che verifica se i modelli di IA riescano a sviluppare autonomamente exploit reali per browser, prendendo di mira il motore V8 di Google. Sia Claude Mythos che GPT‑5.5 si sono dimostrati capaci di scoprire e trasformare in arma vulnerabilità reali senza intervento umano, con Mythos che ha nettamente superato GPT‑5.5, costando però circa dodici volte di più in fase di esecuzione .
Il benchmark di vulnerabilità Mythos di SecureAI (gennaio 2026): Una suite di benchmark incentrata sulla cybersicurezza che copre CVE dal 2023 al 2026, progettata per valutare i rilevatori di vulnerabilità IA e che usa modelli di grandi dimensioni come Llama‑3.1‑405B come riferimento .
Quando si sente parlare di "leak del Mythos Benchmark", di solito ci si riferisce alla fuga di notizie sul modello di Anthropic. I benchmark di CMU e SecureAI sono sforzi indipendenti che condividono l'etichetta "Mythos" solo per coincidenza.
Il 2 giugno 2026, durante l'evento "Intelligence at Work", OpenAI ha annunciato un'espansione strutturale di Codex, trasformandolo da agente di coding per sviluppatori a una più ampia piattaforma di lavoro aziendale . I tre pilastri confermati dell'annuncio sono:
OpenAI ha anche confermato che Codex ha superato i 5 milioni di utenti attivi settimanali . L'espansione rappresenta una chiara mossa strategica per conquistare i knowledge worker non sviluppatori all'interno delle aziende, una direzione che molteplici analisi indipendenti hanno identificato come un asse competitivo diretto contro strumenti che in precedenza si concentravano quasi esclusivamente sui team di ingegneri
.
Alla conferenza annuale Build di San Francisco, il 2 giugno 2026, Microsoft ha presentato una famiglia di sette modelli di IA, sviluppati internamente con il marchio unificato MAI (Microsoft AI), insieme a nuovo hardware .
Il pezzo forte è MAI‑Thinking‑1, il primo modello di ragionamento dell'azienda:
Gli altri sei modelli completano un ecosistema multimodale:
Tra gli annunci hardware, spicca il Surface RTX Spark Dev Box, una macchina compatta per lo sviluppo IA capace fino a un petaflop di calcolo IA con 128 GB di memoria unificata, progettata per eseguire modelli fino a 120 miliardi di parametri in locale . Microsoft ha anche introdotto il chip quantistico Majorana 2, segnalando un'accelerazione delle sue ambizioni hardware oltre il calcolo IA classico
.
La famiglia di sette modelli MAI è ampiamente interpretata come una mossa per ridurre la dipendenza dai modelli OpenAI, offrendo al contempo ai clienti aziendali alternative interne con licenze commerciali pulite .
Il "vibe coding" – la pratica di generare intere applicazioni tramite prompt conversazionali invece di scrivere sintassi – ha generato una nuova generazione di benchmark che tentano di misurare le capacità full‑stack anziché compiti di programmazione isolati:
Queste tre piattaforme condividono l'obiettivo di portare la valutazione del coding IA oltre i benchmark basati sul tasso di superamento, come SWE‑bench, verso misure olistiche di usabilità, velocità, costo e sicurezza.
Il 2 giugno 2026, Nous Research ha rilasciato Hermes Desktop in anteprima pubblica, in bundle con Hermes Agent v0.15.2 e pubblicato con licenza MIT per macOS 12+, Windows 10/11 e Linux .
In precedenza, Hermes era accessibile solo tramite un'interfaccia a riga di comando o gateway di messaggistica. L'applicazione desktop è un front‑end grafico nativo che condivide lo stesso nucleo dell'agente, le chiavi API, le sessioni, le competenze e la memoria della CLI, quindi è una superficie alternativa piuttosto che un fork .
Nous Research descrive Hermes come un "agente che si auto‑migliora, non un copilota di programmazione" . L'agente è cresciuto dal lancio a circa 180.000 stelle su GitHub in circa tre mesi, rendendolo uno dei progetti di agenti open‑source in più rapida crescita nell'ecosistema
.
Alibaba ha lanciato Qwen 3.7 Plus tra l'1 e il 2 giugno 2026. Si tratta di un modello agente multimodale che elabora testo, immagini e video tramite un addestramento early‑fusion, con una finestra di contesto di 1 milione di token .
Il prezzo è fissato a circa un sesto del costo per token di Qwen 3.7 Max, il modello solo testuale di Alibaba, il che lo rende uno degli agenti multimodali dal prezzo più aggressivo sul mercato . Nei benchmark sulle prestazioni degli agenti, Qwen 3.7 Plus batte Claude Opus 4.6 su Terminal‑Bench 2.0 ed è in grado di riconoscere/automatizzare interfacce utente, generare codice da immagini e rispondere a domande visive
.
Claude Code è lo strumento di coding agentico di Anthropic che funziona direttamente nel terminale, eseguendo comandi shell e modificando file sulla macchina dello sviluppatore. Il comando /fork crea una nuova sessione che si dirama da una esistente, memorizzata in commands/branch/, permettendo un flusso di lavoro in cui gli sviluppatori possono esplorare una direzione diversa senza perdere il contesto della sessione originale .
Claude Code è diventato uno degli strumenti per sviluppatori IA più adottati, con una singola menzione su un pacchetto npm che ha accumulato oltre 1.100 stelle e 1.900 fork in un solo giorno .
Diversi elementi chiave non hanno ancora trovato conferma diretta nelle fonti disponibili all'inizio di giugno 2026:
I temi dominanti della prima settimana di giugno 2026 sono gli strumenti per le imprese (i plugin e i Sites di Codex), le famiglie di modelli interni (la linea MAI di Microsoft, i Qwen di Alibaba), la maturazione degli agenti open‑source (Hermes Desktop) e l'incombente arrivo di una nuova generazione non ancora pubblica (GPT‑5.6, Claude Mythos). Il settore si muove in fretta, ma la distinzione tra prodotti confermati e voci non confermate è più netta di quanto spesso suggeriscano i titoli dei giornali.
Comments
0 comments