五月婷视频,伊人久久久久久久久久久,欧美视频一二三区,欧美一区,二区,国产噜噜噜噜噜久久久久久久久,av一级在线观看,欧美三级在线不卡,中文字幕av影院
      關于ZAKER 合作
      硅星人 1小時前

      Sonnet 4.6 :Anthropic 最卷的模型,不惜“逼死”自家 Opus

      在最近的模型混戰中,不只是中國廠商們在卷,Anthropic 也在半個月連續發布了兩款模型。而其中,最近發布的 Sonnet 4.6 有些特殊,它不是旗艦,卻在多個維度追平甚至超過了旗艦??雌饋硭?Opus 1/3 的價格,就追上了它 99% 的性能。

      在這個各家模型都要干掉 Opus 的時刻,它自己用性價比款的 Sonnet" 干掉 "Opus,給各位演示了一下,什么才是最卷的模型。

      而且,這款模型非常值得關注的地方是,它讓 AI 操作電腦這件事第一次接近了 " 真的能用 " 的臨界點。而恰好在同一個月,一個叫 OpenClaw 的開源項目用 17 萬 GitHub 星標證明了一件事,人手一個的,能替自己干活的 AI Agent,可能成為一個新的趨勢。Sonnet 4.6 是模型,OpenClaw 是框架,但它們指向同一個方向。

      便宜的再一次打贏了貴的

      在 Anthropic 的產品線中,Opus 是最強最貴的旗艦,Sonnet 是平衡性能和成本的中端款,Haiku 是最快最便宜的輕量款。長期以來,Sonnet 的角色是 " 性價比之選 ",干不了最難的活但勝在便宜。Sonnet 4.6 打破了這個格局。

      編碼方面,它在 SWE-bench Verified 上得分 79.6%,逼近 Opus 4.6 的 80.8%。Claude Code 的內部測試中,用戶 70% 的時間更偏好 Sonnet 4.6(對比 Sonnet 4.5),甚至有 59% 的時間比去年 11 月發布的旗艦 Opus 4.5 更受歡迎。用戶反饋集中在幾個方面," 更少過度工程 "" 更少偷懶 "" 指令遵循明顯更好 ",以及更少出現 " 明明沒干完卻說干完了 " 的情況。

      辦公任務是更大的驚喜。在 GDPval-AA 這個衡量真實辦公場景的評測中,Sonnet 4.6 拿到 1633 Elo,直接超過了 Opus 4.6 的 1606。便宜的在實際工作場景中打贏了貴的。類似的事正在行業里反復發生,Google 的 Gemini 3 Flash 也在逼近 Pro 的表現,DeepSeek 用遠低于美國公司的成本訓練出競爭力相當的模型。" 低端逆襲高端 " 已經不再是新聞,而是 2026 年 AI 行業的結構性趨勢。

      不過獨立 AI 評測機構 Artificial Analysis 注意到了一個有意思的細節,Sonnet 4.6 在 GDPval-AA 上使用的 token 數量是 Sonnet 4.5 的約 4.5 倍。AI 媒體 Latent Space 據此指出,某些任務的總成本可能比 Opus 還高。這和價格表上的數字講的是兩個故事。

      軟件工程師、AI 技術博主 Joe Njenga 在 Medium 上第一時間做了測試,他的感受是," 發布才幾天,但 Sonnet 4.6 已經感覺比 Opus 更好用了。"Cosmic 平臺做了一個控制實驗,用完全相同的一句話提示詞讓 4.5 和 4.6 各生成一個博客應用,結論是 4.6 在設計品味和代碼架構上有質的提升," 需要更少的手把手指導 "。編程工具 Kilo Code 直接把 Sonnet 4.6 設為默認推薦模型。當然也有負面聲音,發布當天就有用戶報告了函數名幻覺的問題。

      價格跟上一代 Sonnet 4.5 完全一樣,每百萬輸入 token 3 美元,輸出 token 15 美元。同時它成了 Free 和 Pro 用戶的默認模型,免費用戶還新增了文件創建、skills 等功能。但正如上面提到的," 同樣的錢買到更強的模型 " 不等于 " 用 AI 更便宜了 "。Extended thinking 的 token 按輸出價格計費,超過 200K 的長上下文有額外溢價,而 Agent 場景下動輒成千上萬次工具調用,實際使用成本可能反而在增加。

      16 個月,Computer Use 從玩具變工具

      Sonnet 4.6 還有一個值得單獨拿出來說的進步,就是 Computer Use,也就是 AI 操作電腦的能力。

      2024 年 10 月,Anthropic 是第一個推出通用計算機操作 AI 的公司。當時他們自己都承認這個功能 " 還很實驗性,有時笨拙且容易出錯 ",發布時搭載的 Claude 3.5 Sonnet 在 OSWorld 評測上只拿到 14.9%。能做的事很有限,移動鼠標、點擊按鈕、輸入文字,基本是個勉強能用的遙控器。

      之后的每一代 Sonnet 都在這個維度上進步。到了 2025 年 9 月的 Sonnet 4.5,成績已經大幅提升。但 Sonnet 4.6 才是真正讓這項能力從 " 技術 demo" 走向 " 可用工具 " 的節點。在 OSWorld-Verified 上,它拿到 72.5%,幾乎追平 Opus 4.6 的 72.7%,比 16 個月前的起點提升了近 5 倍。

      數字背后對應的是質的變化。早期用戶報告說,Sonnet 4.6 在操作復雜電子表格、填寫多步驟網頁表單方面已接近人類水平,而且能跨多個瀏覽器標簽頁協同完成任務。在保險行業的基準測試中,Computer Use 拿到 94% 的準確率,是他們測試過的所有模型中最高的。更關鍵的一個改進是可靠性,在他們內部的瀏覽器自動化場景中,Sonnet 4.6 產生的幻覺鏈接數量為零,而此前的版本大約三個鏈接中就有一個是假的。

      Claude Sonnet 在 OSWorld 基準上的得分持續提升。

      這意味著什么?幾乎每家企業都有一些 " 前 API 時代 " 遺留下來的老舊系統,沒有現代接口,無法自動化。以前要讓 AI 操作這些軟件,就得給每個系統寫專門的連接器。而一個能像人一樣使用電腦的模型,直接改變了這個等式。科技圈評論者 Trung Phan 調侃說,Anthropic 的 demo 演示了 Claude 幫人在 DMV 網站上續車牌的過程," 但 AI 還是沒法修好 DMV 本身。"

      當人人都有一個 JARVIS

      Computer Use 讓模型能操作電腦,但要變成一個真正幫人干活的 AI 助手,還需要一層編排框架把模型和現實世界的工具連接起來。這正是過去兩個月 AI 行業最火熱的戰場。

      2 月份最熱門的 AI 項目不是某個大模型,而是 OpenClaw。它原名 Clawdbot(名字來自 Claude 和龍蝦鉗的雙關,后因 Anthropic 商標投訴兩度改名),由奧地利開發者 Peter Steinberger 從一個 WhatsApp 機器人做起,幾個月內暴漲到 17.9 萬 GitHub 星標。OpenClaw 能常駐在用戶的電腦后臺,通過 WhatsApp、Slack、iMessage 接收指令,幫你管郵件、排日程、訂機票、跑腳本,是目前最接近 " 鋼鐵俠里的 J.A.R.V.I.S." 的有著消費級的愿景和使用場景的產品。IBM 研究員 Kaoutar El Maghraoui 的評價是,OpenClaw 證明了自主 AI Agent" 不限于大企業,可以是社區驅動的 "。

      OpenClaw 火爆的原因,不只是它本身做得好,更因為它戳中了一個被壓抑已久的需求。過去一年,AI 聊天機器人已經證明了自己在回答問題和生成內容上的能力,但用戶真正想要的是一個能替自己 " 做事 " 的助手,不只是聊天,而是能操作軟件、執行任務、跨應用協調。OpenClaw 讓這個需求第一次有了一個具體的、可以跑起來的產品形態。

      但 OpenClaw 也暴露了個人 AI Agent 面臨的核心矛盾。安全研究人員發現超過 13.5 萬個暴露在公網上的實例;Cisco 檢測了其技能市場排名第一的插件,發現能悄悄將用戶數據發送到攻擊者服務器。Andrej Karpathy 最初稱基于 OpenClaw 開發的 Moltbook 是 " 我見過的最科幻的東西 ",幾天后說 " 不建議任何人在自己的電腦上運行它 "。一個足夠有用的 AI Agent 必須擁有足夠大的權限,而足夠大的權限天然帶來足夠大的風險。這個矛盾目前沒有人真正解決。

      更值得關注的是 OpenClaw 對 AI 行業商業格局的潛在沖擊。OpenClaw 是模型無關的,它能跑 Claude,也能跑 ChatGPT,也能跑開源的 Minimax 和 Kimi。當 Agent 框架層成為用戶接觸 AI 的主要入口,底層模型就有被 " 商品化 " 的風險,就像 Android 讓手機硬件品牌競爭變得殘酷一樣。有評論者已經在問,"OpenClaw 會不會成為 AI 時代的 Android?"

      2 月 15 日,Peter Steinberger 加入了 OpenAI,Altman 親口說 "the future is going to be extremely multi-agent"(未來一定是極度多 Agent 的)。OpenClaw 轉型為基金會項目,但它引發的這場關于 " 誰擁有 Agent 層 " 的爭奪才剛開始。

      這也是理解 Sonnet 4.6 的另一把鑰匙。Anthropic 的應對策略不是等著被別人的 Agent 框架調用,而是把 Agent 能力直接做進模型里。Computer Use、Claude Code、Cowork,都是在構建一個 " 模型 + 工具鏈 " 的捆綁生態。Sonnet 4.6 把這些能力下放到中端價格,本質上是在說,你不需要一個第三方框架來讓 AI 替你干活,用 Claude 就行。

      當然,能力越強意味著風險也越集中。Anthropic 在 system card 中坦承,Sonnet 4.6 在 GUI 操作場景中表現出 " 過度主動 " 的行為,比如未經授權發送郵件、過于激進地獲取 token,而且這種行為無法通過提示詞完全避免。獨立評測機構 Andon Labs 在 Vending-Bench 測試中發現,Sonnet 4.6 展現出與 Opus 4.6 類似的戰略復雜度,包括自發的價格操縱和對競爭對手的欺騙行為。他們的評價是," 幾乎一樣令人印象深刻,也幾乎一樣令人擔憂,而且只要三分之一的價格。"

      Anthropic 路線

      把視角拉回 Anthropic 本身,Sonnet 4.6 只是它 2 月份密集動作的一部分。

      2 月初,Anthropic 在超級碗投放了一組系列廣告,共四條片子,分別叫 "Betrayal""Deception""Treachery""Violation",賽前和賽中各播一條,另兩條在線上流通,直指 OpenAI 在 ChatGPT 中加入廣告的決定,slogan 是 "Ads are coming to AI. But not to Claude." 效果顯著,網站訪問量漲了 6.5%,日活用戶增長 11%,Claude App 沖進了 Apple App Store 前十。

      緊接著,Anthropic 宣布完成了 300 億美元融資,估值達到 3800 億美元,半年翻了一倍多。年化收入攀升至 140 億美元,其中 Claude Code 的年化收入就有 25 億美元,企業訂閱今年翻了四倍。

      OpenAI 的 CEO Altman 對此不太高興,批評 Anthropic 的超級碗廣告 " 明顯不誠實 ",說它是 " 把昂貴產品賣給有錢人 "。Anthropic CEO Dario Amodei 的稍早一點在達沃斯論壇說自己不需要 " 跟某個大玩家進行十億免費用戶的死亡競賽 "。

      這或許暴露了兩家公司在路線上的某種分歧。從公開信息來看,OpenAI 更傾向用戶規模路線,免費用戶盡可能多,再通過廣告和增值服務探索變現;它收編 OpenClaw 創始人,也是在搶占 Agent 編排層的入口。Anthropic 走的看上去更像是生產力工具路線,80% 的收入來自企業客戶,核心賣點是 coding 和 agent 能力,不做圖片生成,不太追求 C 端 DAU,而是把 Agent 能力內建到模型本身。Sonnet 4.6 讓免費用戶也能使用旗艦級能力,本身就是對 " 只服務有錢人 " 這個批評的無聲回應。

      有一個數字或許能說明 AI Agent 能力提升帶來的沖擊,自 Anthropic 和 OpenAI 密集發布新模型以來,軟件股已經蒸發了約 2 萬億美元的市值。投資者正在 price in 一個可能性,AI Agent 對傳統 SaaS 軟件的替代,可能比所有人預想的都快。

      12 天兩個模型,兩周三次頭條。這可能會成為 2026 年 AI 行業的默認節奏。

      相關標簽
      ai
      硅星人

      硅星人

      硅是創造未來的基礎,歡迎登陸硅星球。

      訂閱

      覺得文章不錯,微信掃描分享好友

      掃碼分享
      主站蜘蛛池模板: 国产视频精品久久| 激情久久一区二区| 岛国精品一区二区| 欧美髙清性xxxxhdvid| 久久激情影院| 国产目拍亚洲精品区一区| 日韩欧美国产高清91| 午夜av电影院| 一色桃子av大全在线播放| 国产精品入口麻豆九色| 午夜av影视| 亚洲精品国产一区| 国产在线一区观看| 国产精品第157页| 久久精品国产99| 精品久久久久久中文字幕大豆网| 性xxxxfreexxxxx交| 99精品视频一区二区| 免费精品一区二区三区视频日产| 中文字幕在线一区二区三区| 久久国产精品首页| 高清国产一区二区三区| 国产一区免费播放| 久久久久亚洲精品视频| 国产乱xxxxx97国语对白| 国产亚洲精品久久久久久网站| 欧美日韩一区不卡| 午夜色大片| 久久久综合香蕉尹人综合网| 麻豆91在线| 一区二区在线视频免费观看 | 午夜影院一区二区| 日本三级不卡视频| 一区二区免费播放| 亚洲精品乱码久久久久久高潮| 久久婷婷国产麻豆91天堂徐州| 色噜噜日韩精品欧美一区二区| 91午夜精品一区二区三区| 国产精品一区亚洲二区日本三区| 中文字幕一区二区三区又粗| 特级免费黄色片| 国产91视频一区二区| 国产精品入口麻豆九色| 日本一区免费视频| 亚洲精品少妇一区二区| 国内精品久久久久久久星辰影视| 97人人模人人爽人人喊0| 自拍偷在线精品自拍偷写真图片| 国产69精品久久久久999小说| 亚洲精品日韩色噜噜久久五月| 亚洲日韩欧美综合| 国产美女一区二区三区在线观看| 国产日本欧美一区二区三区| 日本精品一区二区三区在线观看视频 | 久久综合激情网| 在线国产二区| 少妇精品久久久久www蜜月| 欧美一级片一区| 991本久久精品久久久久| 国产99久久久久久免费看| 91精品视频一区二区| 大桥未久黑人强制中出| 国产精品久久久久免费a∨大胸 | www.日本一区| 国产日韩欧美亚洲| 97人人揉人人捏人人添| 欧美资源一区| 青苹果av| 日本一二三不卡| 午夜看片网址| 亚洲三区在线| 久久影院国产精品| 少妇高清精品毛片在线视频| 精品国产区一区二| 亚洲精品日韩色噜噜久久五月| 午夜电影一区二区三区| 国产精品女人精品久久久天天| 午夜情所理论片| 亚洲高清毛片一区二区| 日韩久久精品一区二区三区| 久久久久国产精品嫩草影院| 国产乱对白刺激视频在线观看| 99er热精品视频国产| 狠狠色噜噜狠狠狠狠米奇7777| 日韩精品在线一区二区三区| 色一情一乱一乱一区99av白浆| 国产精品乱码久久久久久久久| 性色av香蕉一区二区| 在线国产二区| 欧美高清性xxxxhdvideos| 国产97免费视频| 国产99久久九九精品免费| 99精品区| 亚洲乱视频| 久久久中精品2020中文| 日韩一区免费| 玖玖国产精品视频| 亚洲欧美国产日韩综合| 国产suv精品一区二区4| 日韩欧美一区二区久久婷婷| 亚洲一区二区三区加勒比| 高清欧美精品xxxxx在线看| 91久久精品在线| 精品国产乱码久久久久久久| 国产午夜精品一区二区三区视频| 欧美在线观看视频一区二区| 国产性生交xxxxx免费| xoxoxo亚洲国产精品| 亚洲欧洲日韩在线| 欧美精选一区二区三区| 国产女人和拘做受在线视频| 国产九九影院| 日本一区二区三区四区高清视频| 狠狠色狠狠色综合日日2019| 欧美3级在线| 狠狠躁夜夜| 久免费看少妇高潮a级特黄按摩| 大bbw大bbw巨大bbb| 狠狠色噜噜狠狠狠狠综合久| 国产1区2| 蜜臀久久精品久久久用户群体| 欧美日韩国产专区| 国产一区免费在线| 久久免费视频99| 国产日韩欧美自拍| 日本一二三区视频在线| 91亚洲精品国偷拍自产| 免费看农村bbwbbw高潮| 日韩精品一区三区| 国产又黄又硬又湿又黄| 国产欧美一区二区在线| 国产清纯白嫩初高生在线观看性色| 久久精品国语| 精品国产一区二区三区麻豆免费观看完整版| 国产午夜精品一区二区三区欧美| 久爱视频精品| 亚洲欧美日韩在线看| 日韩中文字幕亚洲精品欧美| 精品国产一区二| free性欧美hd另类丰满 | 99久久久久久国产精品| 国产日产精品一区二区三区| 久久久久亚洲| 国产一区二区资源| 亚欧精品在线观看| 91丝袜国产在线观看| 99国产精品99久久久久| 国产在线拍偷自揄拍视频| 九一国产精品| 午夜老司机电影| 91avpro| 国产精品99一区二区三区| 亚洲乱强伦| 大伊人av| 不卡在线一区二区| 91影视一区二区三区| 国产91麻豆视频| 高清欧美xxxx| 国内精品久久久久久久星辰影视| 国产69精品久久久久孕妇不能看| 国产精品中文字幕一区二区三区 | 亚洲高清国产精品| 久久精品视频3| 国产精品欧美日韩在线| 欧美日韩国产欧美| 91精品丝袜国产高跟在线| 日韩精品中文字幕一区二区三区| 欧美日韩一区电影| 中文字幕一区2区3区| 99日本精品| 一级久久久| 热re99久久精品国99热蜜月| 欧美一区二区三区四区五区六区| 97人人澡人人爽人人模亚洲| 午夜三级电影院| 波多野结衣女教师30分钟| 高清在线一区二区| 真实的国产乱xxxx在线91| 欧美一区二区性放荡片| 国产精品suv一区二区6| 免费看农村bbwbbw高潮| 一级久久精品| 亚洲欧洲日韩| 国产高清在线精品一区二区三区 | 久久精品综合视频| 欧美日韩国产精品综合| 国产欧美日韩一级大片| 欧美日韩一区二区高清| 国产麻豆精品一区二区| 美国三级日本三级久久99| 久久影院国产精品| 奇米色欧美一区二区三区| 中文字幕一区二区三区日韩精品| 免费a级毛片18以上观看精品| 亚洲精品乱码久久久久久蜜糖图片| 亚洲国产欧美一区二区三区丁香婷 | 色婷婷综合久久久久中文| 国产一区二区三区午夜| 午夜国产一区二区三区| 亚洲欧美一区二区三区不卡| 精品国产一区二区在线| 97国产精品久久久| 26uuu亚洲国产精品| 国产精品久久久久久久龚玥菲| 精品视频在线一区二区三区| 国产一区二区大片| 亚洲乱亚洲乱妇28p| 午夜一级免费电影| 久久精视频| 精品99免费视频| 国产精品对白刺激久久久| 国产一区二区极品| 久久中文一区| 国产精品美女久久久另类人妖| 欧美精品xxxxx| 一区二区久久精品66国产精品| 九九精品久久| 国产欧美精品一区二区三区小说| 欧美freesex极品少妇| 日韩午夜三级| 欧美一区免费| 97精品国产aⅴ7777| 欧美高清性xxxx| 一区二区国产精品| 扒丝袜pisiwa久久久久| 久久精品国产亚洲一区二区| 国产精品九九九九九九| 国产一级片一区二区| 电影91久久久| 日韩午夜毛片| 国产剧情在线观看一区二区| 日本亚洲国产精品| 国产精品久久久久久久龚玥菲 | 午夜爽爽爽男女免费观看| 国产一区网址| 国产大片一区二区三区| free性欧美hd另类丰满 | 99国精视频一区一区一三| 欧美日韩国产精品一区二区亚洲| 日本护士hd高潮护士| 国产一区免费在线观看| 麻豆国产一区二区三区| 亚洲欧美日韩另类精品一区二区三区 | 精品三级一区二区| 日韩精品一区二区三区不卡| 93久久精品日日躁夜夜躁欧美|