先講結論:Grok 的搜尋能力係真實存在,但「Grok 4.3 搜網同 X 比舊版更強」呢個升級說法,未被今次提供的資料證實。xAI 文件列出即時網頁搜尋、X 搜尋,以及 API 層面的 real-time search;不過來源中未見受控 benchmark、官方 Grok 4.3 發布說明,或者可重複測試去證明 Grok 4.3 比 Grok 4、Grok 4.1 或 Grok 4.1 Fast 更擅長檢索最新資訊。[13][
14][
16][
18][
24][
25]
xAI 有確認咩搜尋功能?
xAI 的 Web Search 文件寫明,這個工具讓 Grok 可以即時搜尋網頁,並瀏覽網頁去找資料。[13] 所以,「Grok 可以從公開網頁拉取較新的資訊」這個基本說法有文件支持。
X Search 方面,xAI 文件指 Grok 可以在 X(前稱 Twitter)做關鍵字搜尋、語義搜尋、用戶搜尋,以及擷取串文(thread fetch)。[14] 換言之,Grok 不只係搜一般網頁,亦有針對 X 的結構化搜尋工具,例如找指定用戶或追一條串文。
更廣義地,xAI 的 API 頁面亦把 Grok API 描述為包括 real-time search;xAI 在 X 上的帖文亦提到 Live Search 可讓 Grok 搜尋來自 X 和互聯網的即時資料。[16][
23] 合起來看,Grok 的即時檢索能力屬於 xAI 有公開描述的產品功能。
但 Grok 4.3「更好搜」未被證明
問題重點唔係 Grok 能不能搜尋,而係 Grok 4.3 是否比之前版本搜得更好。
就這一點,現有來源未能支持。提供的 xAI 官方材料有談及 Grok 4、Grok 4.1 和 Grok 4.1 Fast,包括 native tool use、agentic search、tool calling,以及一般排行榜表現等內容。[18][
24][
25] 但這些材料沒有提供一個針對 Grok 4.3 的檢索 benchmark,去比較它和舊版在資訊新鮮度、來源質素、引用準確度或 X 串文處理上的差異。[
18][
24][
25]
今次來源中唯一明確提到 Grok 4.3 的,是一篇關於 Grok 4.3 Beta 的第三方文章,而不是 xAI 官方發布說明,亦不是有清楚方法的檢索評測。[3] 因此,它不足以單獨證明 Grok 4.3 在網頁或 X 搜尋上有可量度優勢。
有搜尋功能,唔等於搜尋表現更好
這裡要分清兩件事:能力(capability)同表現(performance)。
能力問題是:系統是否能夠使用搜尋工具?對 Grok 來說,答案有 xAI 的 Web Search 和 X Search 文件支持。[13][
14]
表現問題則是:某個模型版本是否比另一個版本更有效使用這些工具?這就需要比較證據。合理指標可以包括:Grok 4.3 是否找到更新的來源、是否選中更相關的網頁或 X 帖文、是否正確追蹤串文、引用是否對應到答案聲稱,以及是否減少無來源支持的講法。xAI 的搜尋文件描述的是工具功能,但沒有提供版本對版本的這類測量結果。[13][
14]
如果要公平測試 Grok 4.3,應該點做?
一個較可靠的做法,是在同一時間,用同一批需要最新資訊的提示,分別測試 Grok 4.3 和仍可使用的舊版 Grok。測試應包括需要瀏覽網頁的任務,因為 Web Search 文件明確提到即時網頁搜尋和瀏覽網頁。[13]
同時亦應加入 X 專屬任務,例如關鍵字搜尋、語義搜尋、用戶搜尋和擷取串文,因為這些正是 xAI X Search 文件列出的功能。[14]
評分時,最好把「搜到咩」同「最後點樣寫答案」分開看。每個模型都應記錄:找到哪些來源、來源是否夠新、答案中的聲稱是否有來源支持、X 串文是否被正確擷取,以及引用是否對得上內容。沒有這種並排證據,只靠版本號變大,並不足以證明檢索能力升級。
最穩陣的結論
目前最安全、最有證據支持的結論是:Grok 可以透過文件列明的工具搜尋即時網頁和 X;但今次提供的來源未能證明 Grok 4.3 比 Grok 4、Grok 4.1 或 Grok 4.1 Fast 更有效檢索最新答案。[13][
14][
18][
24][
25]
實際使用時,可以把 Grok 的網頁和 X 搜尋當成真功能,但仍應檢查它返回的來源。至於「Grok 4.3 檢索更強」這個說法,在 xAI 或獨立評測者公布直接、可重複的比較結果之前,最好視為未定論。




