GPT-5.5「Spud」傳聞事實核查：基準測試、Demo、發布外洩可信嗎？ | 深度研究