Opus 4.8、GPT 5.5 等模型在真實後端軟體工程任務的效能比較:Opus 4.8 成為新一代程式碼領導者
對 Opus 4.8、Opus 4.7 和 GPT 5.5 在真實後端工程任務上的基準測試,提供了具體的模型效能比較,對選擇工具的開發者有參考價值。
- 本基準測試全面評估了 Opus 4.8、GPT 5.5、Opus 4.7 及 Composer 2.5 等前沿大型語言模型 (LLM) 在真實後端軟體工程任務上的表現。
- 測試選取了 Go (graphql-go-tools) 和 Rust (sqlparser-rs) 專案中 50 個實際任務,並透過多維度指標(包括程式碼品質、審查接受度、修改範圍風險等)進行細緻評級。
- 結果顯示,Opus 4.8 在 Go 和 Rust 兩項語言的程式碼品質方面均超越其他模型,確立了其作為新一代「程式碼領導者」的地位。
- 相較於 GPT 5.5,Opus 4.8 展現了 更好的程式碼品質、更精簡的 Token 使用,且在 Rust 任務中成本更低。
- Opus 4.8 即使在較低的推理層級,亦能匹配或超越前代 Opus 4.7 的效能,同時顯著提升了任務的完成度與可靠性。
- 儘管 Composer 2.5 的 價格 具有壓倒性優勢(約便宜 6.5 至 7 倍),但在程式碼品質方面則顯著落後於 Opus 4.8。
-
作者強調:「我期望模型能編寫出符合規範、易於維護且不引入細微錯誤的程式碼,並且能產出隊友願意審核並合併的高品質程式碼差異。」