午夜激情国产,视频在线观看国产,久久99久久久久,中文字幕国产在线观看,a级在线视频

Sonnet 4.6 ：Anthropic 最卷的模型，不惜“逼死”自家 Opus

在最近的模型混戰中，不只是中國廠商們在卷，Anthropic 也在半個月連續發布了兩款模型。而其中，最近發布的 Sonnet 4.6 有些特殊，它不是旗艦，卻在多個維度追平甚至超過了旗艦?？雌饋硭?Opus 1/3 的價格，就追上了它 99% 的性能。

在這個各家模型都要干掉 Opus 的時刻，它自己用性價比款的 Sonnet" 干掉 "Opus，給各位演示了一下，什么才是最卷的模型。

而且，這款模型非常值得關注的地方是，它讓 AI 操作電腦這件事第一次接近了 " 真的能用 " 的臨界點。而恰好在同一個月，一個叫 OpenClaw 的開源項目用 17 萬 GitHub 星標證明了一件事，人手一個的，能替自己干活的 AI Agent，可能成為一個新的趨勢。Sonnet 4.6 是模型，OpenClaw 是框架，但它們指向同一個方向。

便宜的再一次打贏了貴的

在 Anthropic 的產品線中，Opus 是最強最貴的旗艦，Sonnet 是平衡性能和成本的中端款，Haiku 是最快最便宜的輕量款。長期以來，Sonnet 的角色是 " 性價比之選 "，干不了最難的活但勝在便宜。Sonnet 4.6 打破了這個格局。

編碼方面，它在 SWE-bench Verified 上得分 79.6%，逼近 Opus 4.6 的 80.8%。Claude Code 的內部測試中，用戶 70% 的時間更偏好 Sonnet 4.6（對比 Sonnet 4.5），甚至有 59% 的時間比去年 11 月發布的旗艦 Opus 4.5 更受歡迎。用戶反饋集中在幾個方面，" 更少過度工程 "" 更少偷懶 "" 指令遵循明顯更好 "，以及更少出現 " 明明沒干完卻說干完了 " 的情況。

辦公任務是更大的驚喜。在 GDPval-AA 這個衡量真實辦公場景的評測中，Sonnet 4.6 拿到 1633 Elo，直接超過了 Opus 4.6 的 1606。便宜的在實際工作場景中打贏了貴的。類似的事正在行業里反復發生，Google 的 Gemini 3 Flash 也在逼近 Pro 的表現，DeepSeek 用遠低于美國公司的成本訓練出競爭力相當的模型。" 低端逆襲高端 " 已經不再是新聞，而是 2026 年 AI 行業的結構性趨勢。

不過獨立 AI 評測機構 Artificial Analysis 注意到了一個有意思的細節，Sonnet 4.6 在 GDPval-AA 上使用的 token 數量是 Sonnet 4.5 的約 4.5 倍。AI 媒體 Latent Space 據此指出，某些任務的總成本可能比 Opus 還高。這和價格表上的數字講的是兩個故事。

軟件工程師、AI 技術博主 Joe Njenga 在 Medium 上第一時間做了測試，他的感受是，" 發布才幾天，但 Sonnet 4.6 已經感覺比 Opus 更好用了。"Cosmic 平臺做了一個控制實驗，用完全相同的一句話提示詞讓 4.5 和 4.6 各生成一個博客應用，結論是 4.6 在設計品味和代碼架構上有質的提升，" 需要更少的手把手指導 "。編程工具 Kilo Code 直接把 Sonnet 4.6 設為默認推薦模型。當然也有負面聲音，發布當天就有用戶報告了函數名幻覺的問題。

價格跟上一代 Sonnet 4.5 完全一樣，每百萬輸入 token 3 美元，輸出 token 15 美元。同時它成了 Free 和 Pro 用戶的默認模型，免費用戶還新增了文件創建、skills 等功能。但正如上面提到的，" 同樣的錢買到更強的模型 " 不等于 " 用 AI 更便宜了 "。Extended thinking 的 token 按輸出價格計費，超過 200K 的長上下文有額外溢價，而 Agent 場景下動輒成千上萬次工具調用，實際使用成本可能反而在增加。

16 個月，Computer Use 從玩具變工具

Sonnet 4.6 還有一個值得單獨拿出來說的進步，就是 Computer Use，也就是 AI 操作電腦的能力。

2024 年 10 月，Anthropic 是第一個推出通用計算機操作 AI 的公司。當時他們自己都承認這個功能 " 還很實驗性，有時笨拙且容易出錯 "，發布時搭載的 Claude 3.5 Sonnet 在 OSWorld 評測上只拿到 14.9%。能做的事很有限，移動鼠標、點擊按鈕、輸入文字，基本是個勉強能用的遙控器。

之后的每一代 Sonnet 都在這個維度上進步。到了 2025 年 9 月的 Sonnet 4.5，成績已經大幅提升。但 Sonnet 4.6 才是真正讓這項能力從 " 技術 demo" 走向 " 可用工具 " 的節點。在 OSWorld-Verified 上，它拿到 72.5%，幾乎追平 Opus 4.6 的 72.7%，比 16 個月前的起點提升了近 5 倍。

數字背后對應的是質的變化。早期用戶報告說，Sonnet 4.6 在操作復雜電子表格、填寫多步驟網頁表單方面已接近人類水平，而且能跨多個瀏覽器標簽頁協同完成任務。在保險行業的基準測試中，Computer Use 拿到 94% 的準確率，是他們測試過的所有模型中最高的。更關鍵的一個改進是可靠性，在他們內部的瀏覽器自動化場景中，Sonnet 4.6 產生的幻覺鏈接數量為零，而此前的版本大約三個鏈接中就有一個是假的。

Claude Sonnet 在 OSWorld 基準上的得分持續提升。

這意味著什么？幾乎每家企業都有一些 " 前 API 時代 " 遺留下來的老舊系統，沒有現代接口，無法自動化。以前要讓 AI 操作這些軟件，就得給每個系統寫專門的連接器。而一個能像人一樣使用電腦的模型，直接改變了這個等式。科技圈評論者 Trung Phan 調侃說，Anthropic 的 demo 演示了 Claude 幫人在 DMV 網站上續車牌的過程，" 但 AI 還是沒法修好 DMV 本身。"

當人人都有一個 JARVIS

Computer Use 讓模型能操作電腦，但要變成一個真正幫人干活的 AI 助手，還需要一層編排框架把模型和現實世界的工具連接起來。這正是過去兩個月 AI 行業最火熱的戰場。

2 月份最熱門的 AI 項目不是某個大模型，而是 OpenClaw。它原名 Clawdbot（名字來自 Claude 和龍蝦鉗的雙關，后因 Anthropic 商標投訴兩度改名），由奧地利開發者 Peter Steinberger 從一個 WhatsApp 機器人做起，幾個月內暴漲到 17.9 萬 GitHub 星標。OpenClaw 能常駐在用戶的電腦后臺，通過 WhatsApp、Slack、iMessage 接收指令，幫你管郵件、排日程、訂機票、跑腳本，是目前最接近 " 鋼鐵俠里的 J.A.R.V.I.S." 的有著消費級的愿景和使用場景的產品。IBM 研究員 Kaoutar El Maghraoui 的評價是，OpenClaw 證明了自主 AI Agent" 不限于大企業，可以是社區驅動的 "。

OpenClaw 火爆的原因，不只是它本身做得好，更因為它戳中了一個被壓抑已久的需求。過去一年，AI 聊天機器人已經證明了自己在回答問題和生成內容上的能力，但用戶真正想要的是一個能替自己 " 做事 " 的助手，不只是聊天，而是能操作軟件、執行任務、跨應用協調。OpenClaw 讓這個需求第一次有了一個具體的、可以跑起來的產品形態。

但 OpenClaw 也暴露了個人 AI Agent 面臨的核心矛盾。安全研究人員發現超過 13.5 萬個暴露在公網上的實例；Cisco 檢測了其技能市場排名第一的插件，發現能悄悄將用戶數據發送到攻擊者服務器。Andrej Karpathy 最初稱基于 OpenClaw 開發的 Moltbook 是 " 我見過的最科幻的東西 "，幾天后說 " 不建議任何人在自己的電腦上運行它 "。一個足夠有用的 AI Agent 必須擁有足夠大的權限，而足夠大的權限天然帶來足夠大的風險。這個矛盾目前沒有人真正解決。

更值得關注的是 OpenClaw 對 AI 行業商業格局的潛在沖擊。OpenClaw 是模型無關的，它能跑 Claude，也能跑 ChatGPT，也能跑開源的 Minimax 和 Kimi。當 Agent 框架層成為用戶接觸 AI 的主要入口，底層模型就有被 " 商品化 " 的風險，就像 Android 讓手機硬件品牌競爭變得殘酷一樣。有評論者已經在問，"OpenClaw 會不會成為 AI 時代的 Android？"

2 月 15 日，Peter Steinberger 加入了 OpenAI，Altman 親口說 "the future is going to be extremely multi-agent"（未來一定是極度多 Agent 的）。OpenClaw 轉型為基金會項目，但它引發的這場關于 " 誰擁有 Agent 層 " 的爭奪才剛開始。

這也是理解 Sonnet 4.6 的另一把鑰匙。Anthropic 的應對策略不是等著被別人的 Agent 框架調用，而是把 Agent 能力直接做進模型里。Computer Use、Claude Code、Cowork，都是在構建一個 " 模型 + 工具鏈 " 的捆綁生態。Sonnet 4.6 把這些能力下放到中端價格，本質上是在說，你不需要一個第三方框架來讓 AI 替你干活，用 Claude 就行。

當然，能力越強意味著風險也越集中。Anthropic 在 system card 中坦承，Sonnet 4.6 在 GUI 操作場景中表現出 " 過度主動 " 的行為，比如未經授權發送郵件、過于激進地獲取 token，而且這種行為無法通過提示詞完全避免。獨立評測機構 Andon Labs 在 Vending-Bench 測試中發現，Sonnet 4.6 展現出與 Opus 4.6 類似的戰略復雜度，包括自發的價格操縱和對競爭對手的欺騙行為。他們的評價是，" 幾乎一樣令人印象深刻，也幾乎一樣令人擔憂，而且只要三分之一的價格。"

Anthropic 路線

把視角拉回 Anthropic 本身，Sonnet 4.6 只是它 2 月份密集動作的一部分。

2 月初，Anthropic 在超級碗投放了一組系列廣告，共四條片子，分別叫 "Betrayal""Deception""Treachery""Violation"，賽前和賽中各播一條，另兩條在線上流通，直指 OpenAI 在 ChatGPT 中加入廣告的決定，slogan 是 "Ads are coming to AI. But not to Claude." 效果顯著，網站訪問量漲了 6.5%，日活用戶增長 11%，Claude App 沖進了 Apple App Store 前十。

緊接著，Anthropic 宣布完成了 300 億美元融資，估值達到 3800 億美元，半年翻了一倍多。年化收入攀升至 140 億美元，其中 Claude Code 的年化收入就有 25 億美元，企業訂閱今年翻了四倍。

OpenAI 的 CEO Altman 對此不太高興，批評 Anthropic 的超級碗廣告 " 明顯不誠實 "，說它是 " 把昂貴產品賣給有錢人 "。Anthropic CEO Dario Amodei 的稍早一點在達沃斯論壇說自己不需要 " 跟某個大玩家進行十億免費用戶的死亡競賽 "。

這或許暴露了兩家公司在路線上的某種分歧。從公開信息來看，OpenAI 更傾向用戶規模路線，免費用戶盡可能多，再通過廣告和增值服務探索變現；它收編 OpenClaw 創始人，也是在搶占 Agent 編排層的入口。Anthropic 走的看上去更像是生產力工具路線，80% 的收入來自企業客戶，核心賣點是 coding 和 agent 能力，不做圖片生成，不太追求 C 端 DAU，而是把 Agent 能力內建到模型本身。Sonnet 4.6 讓免費用戶也能使用旗艦級能力，本身就是對 " 只服務有錢人 " 這個批評的無聲回應。

有一個數字或許能說明 AI Agent 能力提升帶來的沖擊，自 Anthropic 和 OpenAI 密集發布新模型以來，軟件股已經蒸發了約 2 萬億美元的市值。投資者正在 price in 一個可能性，AI Agent 對傳統 SaaS 軟件的替代，可能比所有人預想的都快。

12 天兩個模型，兩周三次頭條。這可能會成為 2026 年 AI 行業的默認節奏。

相關標簽

宙世代元宇宙

元宇宙黨建解決方案

元宇宙文旅解決方案

元宇宙展廳解決方案

元宇宙行業峰會解決方案

元宇宙營銷解決方案

元宇宙會展解決方案

元宇宙演藝節目解決方案

元宇宙博物館解決方案

元宇宙圖書館解決方案

元宇宙校園解決方案

元宇宙企業展廳解決方案

元宇宙藝術展解決方案

元宇宙電商解決方案

融媒體解決方案

ZAKER智慧云

媒體解決方案

黨建解決方案

公檢法解決方案

智慧交通解決方案

高校解決方案

AI視頻

AI視頻剪輯

視頻定制服務

AI智能客服

我的訂閱

Sonnet 4.6 ：Anthropic 最卷的模型，不惜“逼死”自家 Opus

宙世代

一起剪

相關閱讀

AI視頻春節大進階：豆包to C，可靈 to B

寒武紀的“榜一大哥”，字節跳動不想當了

Seedance2.0，AI視頻的DeepSeek時刻

亞馬遜股價遭遇自2006年以來最慘連跌，或許是時候買入了

1850億豪賭硬件生態！Google I/O 2026定檔，Gemini 可穿戴將有新突破？

《上古卷軸6》偏向傳統設定

鎖定3月16日！黃仁勛放話：英偉達將推出一款令世界驚訝的芯片

吉尼斯官方認證！世界最小二維碼問世：僅1.98平方微米、數據可存千年

內存價格崩了 國內最高降價20%：去華強北市場揭秘實情！

谷歌發布Lyria 3模型：純小白也能一鍵生成30秒高保真AI音樂

399元 追覓推出自帶線165W帶屏移動電源：2C+1A

精準狙殺癌細胞！我國科學家突破T細胞識別瓶頸

30年化妝師出山！揭秘仿生蔡明機器人誕生 細節封神

春晚引爆機器人熱潮！上百股或受益，節前逾20億搶籌ETF

最新評論

硅星人

熱門推薦

Sonnet 4.6 ：Anthropic 最卷的模型，不惜“逼死”自家 Opus

AI視頻春節大進階：豆包to C，可靈 to B

亞馬遜股價遭遇自2006年以來最慘連跌，或許是時候買入了

鎖定3月16日！黃仁勛放話：英偉達將推出一款令世界驚訝的芯片

吉尼斯官方認證！世界最小二維碼問世：僅1.98平方微米、數據可存千年

內存價格崩了國內最高降價20%：去華強北市場揭秘實情！

399元追覓推出自帶線165W帶屏移動電源：2C+1A

30年化妝師出山！揭秘仿生蔡明機器人誕生細節封神

春晚引爆機器人熱潮！上百股或受益，節前逾20億搶籌ETF