GPT-5.5 „Spud“ im Faktencheck: Was ist an Benchmarks, Demos und Release-Leaks dran? | Deep Research