在最近的模型混戰中,不只是中國廠商們在卷,Anthropic 也在半個月連續發布了兩款模型。而其中,最近發布的 Sonnet 4.6 有些特殊,它不是旗艦,卻在多個維度追平甚至超過了旗艦??雌饋硭?Opus 1/3 的價格,就追上了它 99% 的性能。
在這個各家模型都要干掉 Opus 的時刻,它自己用性價比款的 Sonnet" 干掉 "Opus,給各位演示了一下,什么才是最卷的模型。

便宜的再一次打贏了貴的
在 Anthropic 的產品線中,Opus 是最強最貴的旗艦,Sonnet 是平衡性能和成本的中端款,Haiku 是最快最便宜的輕量款。長期以來,Sonnet 的角色是 " 性價比之選 ",干不了最難的活但勝在便宜。Sonnet 4.6 打破了這個格局。
編碼方面,它在 SWE-bench Verified 上得分 79.6%,逼近 Opus 4.6 的 80.8%。Claude Code 的內部測試中,用戶 70% 的時間更偏好 Sonnet 4.6(對比 Sonnet 4.5),甚至有 59% 的時間比去年 11 月發布的旗艦 Opus 4.5 更受歡迎。用戶反饋集中在幾個方面," 更少過度工程 "" 更少偷懶 "" 指令遵循明顯更好 ",以及更少出現 " 明明沒干完卻說干完了 " 的情況。
辦公任務是更大的驚喜。在 GDPval-AA 這個衡量真實辦公場景的評測中,Sonnet 4.6 拿到 1633 Elo,直接超過了 Opus 4.6 的 1606。便宜的在實際工作場景中打贏了貴的。類似的事正在行業里反復發生,Google 的 Gemini 3 Flash 也在逼近 Pro 的表現,DeepSeek 用遠低于美國公司的成本訓練出競爭力相當的模型。" 低端逆襲高端 " 已經不再是新聞,而是 2026 年 AI 行業的結構性趨勢。
不過獨立 AI 評測機構 Artificial Analysis 注意到了一個有意思的細節,Sonnet 4.6 在 GDPval-AA 上使用的 token 數量是 Sonnet 4.5 的約 4.5 倍。AI 媒體 Latent Space 據此指出,某些任務的總成本可能比 Opus 還高。這和價格表上的數字講的是兩個故事。

價格跟上一代 Sonnet 4.5 完全一樣,每百萬輸入 token 3 美元,輸出 token 15 美元。同時它成了 Free 和 Pro 用戶的默認模型,免費用戶還新增了文件創建、skills 等功能。但正如上面提到的," 同樣的錢買到更強的模型 " 不等于 " 用 AI 更便宜了 "。Extended thinking 的 token 按輸出價格計費,超過 200K 的長上下文有額外溢價,而 Agent 場景下動輒成千上萬次工具調用,實際使用成本可能反而在增加。
16 個月,Computer Use 從玩具變工具
Sonnet 4.6 還有一個值得單獨拿出來說的進步,就是 Computer Use,也就是 AI 操作電腦的能力。
2024 年 10 月,Anthropic 是第一個推出通用計算機操作 AI 的公司。當時他們自己都承認這個功能 " 還很實驗性,有時笨拙且容易出錯 ",發布時搭載的 Claude 3.5 Sonnet 在 OSWorld 評測上只拿到 14.9%。能做的事很有限,移動鼠標、點擊按鈕、輸入文字,基本是個勉強能用的遙控器。
之后的每一代 Sonnet 都在這個維度上進步。到了 2025 年 9 月的 Sonnet 4.5,成績已經大幅提升。但 Sonnet 4.6 才是真正讓這項能力從 " 技術 demo" 走向 " 可用工具 " 的節點。在 OSWorld-Verified 上,它拿到 72.5%,幾乎追平 Opus 4.6 的 72.7%,比 16 個月前的起點提升了近 5 倍。
數字背后對應的是質的變化。早期用戶報告說,Sonnet 4.6 在操作復雜電子表格、填寫多步驟網頁表單方面已接近人類水平,而且能跨多個瀏覽器標簽頁協同完成任務。在保險行業的基準測試中,Computer Use 拿到 94% 的準確率,是他們測試過的所有模型中最高的。更關鍵的一個改進是可靠性,在他們內部的瀏覽器自動化場景中,Sonnet 4.6 產生的幻覺鏈接數量為零,而此前的版本大約三個鏈接中就有一個是假的。

這意味著什么?幾乎每家企業都有一些 " 前 API 時代 " 遺留下來的老舊系統,沒有現代接口,無法自動化。以前要讓 AI 操作這些軟件,就得給每個系統寫專門的連接器。而一個能像人一樣使用電腦的模型,直接改變了這個等式。科技圈評論者 Trung Phan 調侃說,Anthropic 的 demo 演示了 Claude 幫人在 DMV 網站上續車牌的過程," 但 AI 還是沒法修好 DMV 本身。"
當人人都有一個 JARVIS
Computer Use 讓模型能操作電腦,但要變成一個真正幫人干活的 AI 助手,還需要一層編排框架把模型和現實世界的工具連接起來。這正是過去兩個月 AI 行業最火熱的戰場。
2 月份最熱門的 AI 項目不是某個大模型,而是 OpenClaw。它原名 Clawdbot(名字來自 Claude 和龍蝦鉗的雙關,后因 Anthropic 商標投訴兩度改名),由奧地利開發者 Peter Steinberger 從一個 WhatsApp 機器人做起,幾個月內暴漲到 17.9 萬 GitHub 星標。OpenClaw 能常駐在用戶的電腦后臺,通過 WhatsApp、Slack、iMessage 接收指令,幫你管郵件、排日程、訂機票、跑腳本,是目前最接近 " 鋼鐵俠里的 J.A.R.V.I.S." 的有著消費級的愿景和使用場景的產品。IBM 研究員 Kaoutar El Maghraoui 的評價是,OpenClaw 證明了自主 AI Agent" 不限于大企業,可以是社區驅動的 "。
OpenClaw 火爆的原因,不只是它本身做得好,更因為它戳中了一個被壓抑已久的需求。過去一年,AI 聊天機器人已經證明了自己在回答問題和生成內容上的能力,但用戶真正想要的是一個能替自己 " 做事 " 的助手,不只是聊天,而是能操作軟件、執行任務、跨應用協調。OpenClaw 讓這個需求第一次有了一個具體的、可以跑起來的產品形態。
但 OpenClaw 也暴露了個人 AI Agent 面臨的核心矛盾。安全研究人員發現超過 13.5 萬個暴露在公網上的實例;Cisco 檢測了其技能市場排名第一的插件,發現能悄悄將用戶數據發送到攻擊者服務器。Andrej Karpathy 最初稱基于 OpenClaw 開發的 Moltbook 是 " 我見過的最科幻的東西 ",幾天后說 " 不建議任何人在自己的電腦上運行它 "。一個足夠有用的 AI Agent 必須擁有足夠大的權限,而足夠大的權限天然帶來足夠大的風險。這個矛盾目前沒有人真正解決。
更值得關注的是 OpenClaw 對 AI 行業商業格局的潛在沖擊。OpenClaw 是模型無關的,它能跑 Claude,也能跑 ChatGPT,也能跑開源的 Minimax 和 Kimi。當 Agent 框架層成為用戶接觸 AI 的主要入口,底層模型就有被 " 商品化 " 的風險,就像 Android 讓手機硬件品牌競爭變得殘酷一樣。有評論者已經在問,"OpenClaw 會不會成為 AI 時代的 Android?"
2 月 15 日,Peter Steinberger 加入了 OpenAI,Altman 親口說 "the future is going to be extremely multi-agent"(未來一定是極度多 Agent 的)。OpenClaw 轉型為基金會項目,但它引發的這場關于 " 誰擁有 Agent 層 " 的爭奪才剛開始。
這也是理解 Sonnet 4.6 的另一把鑰匙。Anthropic 的應對策略不是等著被別人的 Agent 框架調用,而是把 Agent 能力直接做進模型里。Computer Use、Claude Code、Cowork,都是在構建一個 " 模型 + 工具鏈 " 的捆綁生態。Sonnet 4.6 把這些能力下放到中端價格,本質上是在說,你不需要一個第三方框架來讓 AI 替你干活,用 Claude 就行。
當然,能力越強意味著風險也越集中。Anthropic 在 system card 中坦承,Sonnet 4.6 在 GUI 操作場景中表現出 " 過度主動 " 的行為,比如未經授權發送郵件、過于激進地獲取 token,而且這種行為無法通過提示詞完全避免。獨立評測機構 Andon Labs 在 Vending-Bench 測試中發現,Sonnet 4.6 展現出與 Opus 4.6 類似的戰略復雜度,包括自發的價格操縱和對競爭對手的欺騙行為。他們的評價是," 幾乎一樣令人印象深刻,也幾乎一樣令人擔憂,而且只要三分之一的價格。"
Anthropic 路線
把視角拉回 Anthropic 本身,Sonnet 4.6 只是它 2 月份密集動作的一部分。
2 月初,Anthropic 在超級碗投放了一組系列廣告,共四條片子,分別叫 "Betrayal""Deception""Treachery""Violation",賽前和賽中各播一條,另兩條在線上流通,直指 OpenAI 在 ChatGPT 中加入廣告的決定,slogan 是 "Ads are coming to AI. But not to Claude." 效果顯著,網站訪問量漲了 6.5%,日活用戶增長 11%,Claude App 沖進了 Apple App Store 前十。
緊接著,Anthropic 宣布完成了 300 億美元融資,估值達到 3800 億美元,半年翻了一倍多。年化收入攀升至 140 億美元,其中 Claude Code 的年化收入就有 25 億美元,企業訂閱今年翻了四倍。

這或許暴露了兩家公司在路線上的某種分歧。從公開信息來看,OpenAI 更傾向用戶規模路線,免費用戶盡可能多,再通過廣告和增值服務探索變現;它收編 OpenClaw 創始人,也是在搶占 Agent 編排層的入口。Anthropic 走的看上去更像是生產力工具路線,80% 的收入來自企業客戶,核心賣點是 coding 和 agent 能力,不做圖片生成,不太追求 C 端 DAU,而是把 Agent 能力內建到模型本身。Sonnet 4.6 讓免費用戶也能使用旗艦級能力,本身就是對 " 只服務有錢人 " 這個批評的無聲回應。
有一個數字或許能說明 AI Agent 能力提升帶來的沖擊,自 Anthropic 和 OpenAI 密集發布新模型以來,軟件股已經蒸發了約 2 萬億美元的市值。投資者正在 price in 一個可能性,AI Agent 對傳統 SaaS 軟件的替代,可能比所有人預想的都快。
12 天兩個模型,兩周三次頭條。這可能會成為 2026 年 AI 行業的默認節奏。