GPT-5.5「Spud」事實核查：benchmark、demo 同發布傳聞有幾可信？ | Deep Research