答案公開網址2026年4月19日12 個來源

搜尋並查核事實：Claude Opus 4.7 在寫程式、除錯、重構程式碼上到底有多強？

簡單說：Claude Opus 4.7 不是傳聞，確實是 Anthropic 在 2026 04 16 正式發布、且已一般可用的模型。[5][2] 就「軟體工程整體能力」來看，它目前可查到的公開證據很強，尤其在最接近真實除錯/修 bug 的 SWE bench 類基準上屬於第一梯隊；但如果你要問「重構程式碼到底比別家強多少」，公開且獨立、專門拆分 refactoring 的證據還不夠，我只能說證據偏強，但不到能下絕對定論的程度。[3][5] Anthropic 官方明確說，Opus 4.7 相比 Opus 4.6 在「進階軟體工程」上有顯著進步，特別是在最困難的任務上更強，並且更能處理複雜、長時間執行的工作。[5] 如果用公開基準看

重點整理

簡單說：Claude Opus 4.7 不是傳聞，確實是 Anthropic 在 2026-04-16 正式發布、且已一般可用的模型。[5][2] 就「軟體工程整體能力」來看，它目前可查到的公開證據很強，尤其在最接近真實除錯/修 bug 的 SWE-bench 類基準上屬於第一梯隊；但如果你要問「重構程式碼到底比別家強多少」，公開且獨立、專門拆分 refactoring 的證據還不夠，我只能說證據偏強，但不到能下絕對定論的程度。[3][5]
Anthropic 官方明確說，Opus 4.7 相比 Opus 4.6 在「進階軟體工程」上有顯著進步，特別是在最困難的任務上更強，並且更能處理複雜、長時間執行的工作。[5]

研究答案

簡單說：Claude Opus 4.7 不是傳聞，確實是 Anthropic 在 2026-04-16 正式發布、且已一般可用的模型。^[5]^[2] 就「軟體工程整體能力」來看，它目前可查到的公開證據很強，尤其在最接近真實除錯/修 bug 的 SWE-bench 類基準上屬於第一梯隊；但如果你要問「重構程式碼到底比別家強多少」，公開且獨立、專門拆分 refactoring 的證據還不夠，我只能說證據偏強，但不到能下絕對定論的程度。^[3]^[5]

Anthropic 官方明確說，Opus 4.7 相比 Opus 4.6 在「進階軟體工程」上有顯著進步，特別是在最困難的任務上更強，並且更能處理複雜、長時間執行的工作。^[5]
如果用公開基準看，最有代表性的證據是 SWE-bench。TNW 引述的數字顯示，Opus 4.7 在 SWE-bench Pro 為 64.3%，高於 Opus 4.6 的 53.4%、GPT-5.4 的 57.7%、Gemini 3.1 Pro 的 54.2%；在 SWE-bench Verified 為 87.6%，也高於 Opus 4.6 的 80.8% 與 Gemini 3.1 Pro 的 80.6%。^[3] TNW 同時說明，SWE-bench Pro 是測模型能否解決開源專案真實軟體問題的基準，這使它比一般程式題更接近真實除錯與修復工作。^[3]
在代理式寫程式場景，TNW 也寫到 CursorBench 從 Opus 4.6 的 58% 提升到 Opus 4.7 的 70%。^[3] 這表示它不只是單輪生成程式碼強，對需要多步驟操作的 coding workflow 也更強。^[3]
Anthropic 官方還聲稱，Opus 4.7 在複雜多步驟工作流上比 Opus 4.6 提升 14%，而且工具使用錯誤降到約三分之一。^[3] 如果這個數字在你的 IDE、CLI agent、CI/CD 流程裡也成立，那對除錯和大型重構會很有感。^[3]
但要注意：關於「找 bug、分析 log、提出修復」這類更貼近實務的描述，目前你能查到的很多證據其實來自 Anthropic 官方挑選的早期測試者回饋，不是完全獨立的第三方對照實驗。^[5] 例如官方頁面收錄了 Replit 對「分析 logs and traces、finding bugs、proposing fixes」更有效率與精準的評語，也有多家合作方說它更適合長時間、多步驟的工程工作。^[5]
關於「重構」本身，我目前沒看到公開、獨立、標準化的 refactoring benchmark 被清楚列出來。^[5]^[3] 所以比較嚴格的說法應該是：它在「修 issue、長流程工程任務、代理式 coding」上的證據很強，因而高度暗示它在重構也很強；但公開證據還不足以把「重構能力」單獨精確量化。^[5]^[3]
另一個重要事實是：Anthropic 與 CNBC 都說 Opus 4.7 雖然是 Anthropic「最強的一般可用模型」，但整體廣泛能力仍不如更高階、受限釋出的 Claude Mythos Preview。^[5]^[2] 所以如果你問的是「Anthropic 目前最強公開可買到的 coding 模型是不是它？」答案偏向是；但如果你問「Anthropic 全部模型裡絕對最強的是不是它？」答案不是。^[5]^[2]

我的查核結論是：如果你的標準是「寫程式 + 修真實 repo 問題 + 長流程 agent coding」，Claude Opus 4.7 可以算目前公開證據非常強、而且接近頂尖的一個選擇。^[3]^[5] 但如果你特別在意「互動式除錯體驗」或「大型專案重構品質」，現有公開證據多半還是官方 benchmark 與合作夥伴案例，獨立驗證仍偏少，所以最準確的判斷是：很強，但對除錯/重構的實務優勢仍需你用自己的 codebase 做 A/B 測試才算定案。^[5]^[3]

如果你要，我下一步可以直接幫你整理一份「Claude Opus 4.7 vs GPT-5.4 vs Gemini 3.1 Pro」的程式能力對照表，或幫你設計一個你自己團隊可跑的除錯/重構 A/B 測試清單。

輔助視覺素材

Musk is asking chip suppliers to move at ‘light speed’ for his Terafab AI chip plant

The fintech that pivoted because of Kanye West just hit a $1.4B valuation with $100M from Khosla and Ribbit

Spektr raises $20M to replace the compliance analyst’s copy-paste workflow with AI agents

Cambridge biotech STORM Therapeutics raises $56M

Introducing Claude Opus 4.7 \ AnthropicA graphic illustration featuring a stylized silhouette of a human head with neural network connections on the left and a playful abstract drawing of a face with question marks on the right, referencing the Anthropic Claude Opus 4.7 announcement.

Introducing Claude Opus 4.7 \ AnthropicA comparative table displaying performance metrics of different AI models, highlighting the advancements of Anthropic's Claude Opus 4.7 over previous versions and competitors, with specific emphasis on its high score of 93.9% in Agentic coding.

Introducing Claude Opus 4.7 \ AnthropicA bar graph displaying accuracy percentages for Anthropic Claude's Opus 4.7 and 4.6 versions across multilingual and multimodal tasks, with Opus 4.7 showing higher accuracy in both categories.

Introducing Claude Opus 4.7 \ AnthropicA bar chart compares the scores of different models and tests, showing that "Opus 4.7" has the highest average score among the groups, with error bars indicating some variation in the results.

Introducing Claude Opus 4.7 \ AnthropicA line chart compares the performance of Claude Opus 4.7 and 4.6 in internal autonomous agentic coding evaluation, showing scores increasing with effort level.

研究對話

你2026年4月19日

研究問題

搜尋並查核事實：Claude Opus 4.7 在寫程式、除錯、重構程式碼上到底有多強？

Studio Global AI2026年4月19日12 個來源

附引用的答案

Anthropic 官方明確說，Opus 4.7 相比 Opus 4.6 在「進階軟體工程」上有顯著進步，特別是在最困難的任務上更強，並且更能處理複雜、長時間執行的工作。^[5]
如果用公開基準看，最有代表性的證據是 SWE-bench。TNW 引述的數字顯示，Opus 4.7 在 SWE-bench Pro 為 64.3%，高於 Opus 4.6 的 53.4%、GPT-5.4 的 57.7%、Gemini 3.1 Pro 的 54.2%；在 SWE-bench Verified 為 87.6%，也高於 Opus 4.6 的 80.8% 與 Gemini 3.1 Pro 的 80.6%。^[3] TNW 同時說明，SWE-bench Pro 是測模型能否解決開源專案真實軟體問題的基準，這使它比一般程式題更接近真實除錯與修復工作。^[3]
在代理式寫程式場景，TNW 也寫到 CursorBench 從 Opus 4.6 的 58% 提升到 Opus 4.7 的 70%。^[3] 這表示它不只是單輪生成程式碼強，對需要多步驟操作的 coding workflow 也更強。^[3]
Anthropic 官方還聲稱，Opus 4.7 在複雜多步驟工作流上比 Opus 4.6 提升 14%，而且工具使用錯誤降到約三分之一。^[3] 如果這個數字在你的 IDE、CLI agent、CI/CD 流程裡也成立，那對除錯和大型重構會很有感。^[3]
但要注意：關於「找 bug、分析 log、提出修復」這類更貼近實務的描述，目前你能查到的很多證據其實來自 Anthropic 官方挑選的早期測試者回饋，不是完全獨立的第三方對照實驗。^[5] 例如官方頁面收錄了 Replit 對「分析 logs and traces、finding bugs、proposing fixes」更有效率與精準的評語，也有多家合作方說它更適合長時間、多步驟的工程工作。^[5]
關於「重構」本身，我目前沒看到公開、獨立、標準化的 refactoring benchmark 被清楚列出來。^[5]^[3] 所以比較嚴格的說法應該是：它在「修 issue、長流程工程任務、代理式 coding」上的證據很強，因而高度暗示它在重構也很強；但公開證據還不足以把「重構能力」單獨精確量化。^[5]^[3]
另一個重要事實是：Anthropic 與 CNBC 都說 Opus 4.7 雖然是 Anthropic「最強的一般可用模型」，但整體廣泛能力仍不如更高階、受限釋出的 Claude Mythos Preview。^[5]^[2] 所以如果你問的是「Anthropic 目前最強公開可買到的 coding 模型是不是它？」答案偏向是；但如果你問「Anthropic 全部模型裡絕對最強的是不是它？」答案不是。^[5]^[2]

大家也會問