Fakta GPT-5.5 “Spud”: Benchmark, Demo, dan Bocoran Rilis Mana yang Bisa Dipercaya? | Penelitian Mendalam