
作者 | 陳駿達
編輯 | 李水青
智東西 11 月 5 日報道,近日,騰訊微信 AI 團隊發布的一篇論文在海外 AI 圈引發廣泛關注。論文提出了一種名為 " 連續自回歸語言模型(CALM)" 的新穎架構。與傳統 Transformer 相比,CALM 直接將訓練大模型所用的計算量減少了 44%,推理時的計算量也減少了 34%。
CALM 的核心邏輯是,將連續的 K 個 token 壓縮成一個語義向量,并在生成時直接預測 " 下一個向量 " 而非 " 下一個 token"。假設 K=4,那么原本需要逐步生成 4 次的內容,現在只需 1 步即可完成,使其能在一次生成中輸出更多信息,大幅提升效率。
這項研究的相關討論在社交媒體平臺 X 的閱讀量累計已經超過 100 萬次,在評論區引起熱議。
提示詞分享網站 godofprompt.ai 的聯合創始人 Robert Youssef 認為,CALM 或許就是 AI 領域下一次大的范式轉變,徹底顛覆了所有大語言模型賴以構建的 " 下一個 token 預測 " 范式,讓大模型不再逐字思考,而是以想法為單位進行思考,簡直不可思議。這一方法如果能成功擴展,那么現有的 LLM 都將過時。

還有多位網友認為 CALM 提出的概念值得探討,但關鍵是需要在更大規模的 Scaling 過程中獲得驗證。

然而,也有人質疑 CALM 的前景。這位網友稱,CALM 只是楊立昆的一個老舊想法,訓練不穩定,基礎很薄弱,且無法擴展,是一種 " 有缺陷的方案 "。

CALM 論文的作者均在微信 AI 團隊任職,第一作者邵晨澤曾在中科院計算所智能信息處理實驗室完成博士學業。這篇論文的其他作者包括 Darren Li、Fandong Meng 和 Jie Zhou,其中,Darren Li 是清華大學求真學院的在讀學生。為方便后續研究,研究使用的預訓練 Autoencoder 以及 CALM 的檢查點均可供下載。

論文地址:
https://arxiv.org/abs/2510.27688
項目主頁:
https://github.com/shaochenze/calm?tab=readme-ov-file
01.
性能比肩同量級 Transformer
訓練計算量減少 44%
在與 Transformer 的對決中,CALM 究竟表現出了何種優勢?
在評估兩者的性能前,CALM 團隊首先需要打造適合的評估工具。過去業內用來衡量語言模型預測質量的一個指標是困惑度(Perplexity),直觀地說,它表示模型在面對真實語言數據時 " 有多困惑 " ——困惑度越低,說明模型越自信、預測越準確。
困惑度評估并不適用于 CALM 的架構。作者因此提出新的評價體系—— BrierLM 指標。這一指標源于經典的 Brier Score,由氣象學家 Glenn W. Brier 在 1950 年提出,用來評估天氣預報的好壞。
BrierLM 通過組合不同 n-gram 的 Brier 得分,提供了一個統一的、可比較的語言建模指標。它利用模型采樣結果即可無偏估計預測質量,既能衡量準確性,又能懲罰過度確定性。
實驗證明,BrierLM 與交叉熵幾乎線性相關,可作為困惑度的替代品,并適用于其他隱式生成模型。

CALM 團隊使用 The Pile 語料訓練了多款 CALM 架構的模型,然后用 WikiText-103 數據集來測試模型的性能。
訓練時,CALM 團隊分別打造了不同參數量的模型,分別為 0.371B 參數量的 CALM-M、0.735B 參數量的 CALM-L 和 1.82B 參數量的 CALM-XL。
當 K=4,也就是每個連續向量對應 4 個原始 token 時,CALM-M 的性能略遜于 0.281B 參數量的 Transformer-S 模型,但 CALM-M 的訓練計算量比 Transformer-S 少 44%,推理計算量少 34%,展現出更好的算力 - 性能平衡。隨著模型變大,性能也穩定提升,就像普通 Transformer 一樣。

CALM 團隊還研究了語義帶寬 K 的作用。隨著語義帶寬 K 增大,計算需求線性下降,而但性能下降并不明顯。
當 K 從 1 變為 2 時,模型所需的訓練算力大幅減少 50% 左右;當 K=4 時,CALM 實現了效率與性能的較好平衡;K=8 時,其性能出現一定下滑。
CALM 團隊認為這是模型尺寸導致的。以后,隨著模型尺寸的提升,CALM 架構或許可以一次性預測更多 token,從更大的語義帶寬中受益。

CALM 的作者們還比較了不同生成頭的性能。能量模型單步生成性能最高,而且不需要迭代采樣,一次就能生成結果。擴散與流匹配模型雖可行,但要么性能不佳,要么代價高昂。

02.
從離散 token 到連續向量
語言模型如何駛入語義 " 高速公路 "?
CALM 究竟為何要進行從 " 預測 token" 到 " 預測向量 " 的巨大轉變呢?這一轉變,又是如何讓 CALM 以更低的算力需求,實現比肩 Transformer 的生成效果?
CALM 的第一作者邵晨澤在其撰寫的博客中,解釋了打造 CALM 的原因。現代大語言模型好比一個 " 法拉利級 " 的引擎——它擁有數千億參數,能夠理解語義、執行復雜推理、生成高質量文本與代碼。
然而,這一引擎卻被限制在一條狹窄的鄉間小路上,永遠只能卡在第一檔。這條小路就是自回歸生成機制:模型一次只能預測一個離散 token,無論引擎多強,吞吐量都會受到限制,這導致了模型推理速度慢、計算成本高等問題。
過去,人們試圖通過擴大基本單位來 " 拓寬道路 "。從字符級到子詞級(subword token)的變化,確實提升了效率。
但如今,這條路徑已觸及 " 離散 token 的物理極限 ":在一個典型的 32K 詞表中,每個生成步驟的語義帶寬約為 15 位,要想將帶寬翻倍,詞表規模必須指數級增長——這使得模型在計算上幾乎不可行。換句話說,離散 token 的 Scaling 已經碰壁了。
如果離散 token 是瓶頸,那么我們就需要一種具有可擴展語義帶寬的新型文本單元。CALM 代表從離散到連續的變化,其核心思想就是讓模型不再預測下一個 token,而是預測下一個向量——一個壓縮了連續 K 個 token 的語義信息。

這一改變相當于為大模型開辟了一條多車道的高速公路——每次生成能攜帶更多語義,顯著減少自回歸步數,從而大幅提升效率。
CALM 的第一步是建立一個高保真自編碼器(Autoencoder),在離散 token 與連續向量之間建立雙向映射。
編碼器的作用是將一段 K 個 token 壓縮為一個連續向量,而解碼器從該向量中重建出原始 tokens。
通過交叉熵損失訓練后,該模型能以 99.9% 的精度重構文本片段。論文指出,這是可行的:一個浮點向量的比特容量遠高于一個離散 token,足以存儲多倍的信息。
然而,高精度重構并不代表模型的穩定性。若向量空間過于 " 脆弱 ",輕微噪聲就可能使解碼器輸出完全不同的文本。為此,作者引入了三項關鍵改進:
變分正則化(VAE):令編碼器輸出高斯分布,使潛空間更平滑;
KL 裁剪(KL Clipping):防止潛變量塌縮到無效維度;
雙重 Dropout:對輸入與潛向量加入噪聲,迫使模型學習冗余且穩定的表征。
結果是一個既緊湊又穩健的連續語義表示:當 K=4、潛向量維度為 128 時,模型在加入約 0.3 方差高斯噪聲的情況下,仍能保持 99.9% 的重構精度。
這一語義壓縮器為 CALM 奠定了堅實基礎——讓語言可以在一個可連續建模、可容錯的向量空間中流動。
03.
怎么讓模型預測下一個向量?
靠 " 無似然建模 "
有了向量化的語義序列,語言建模任務變成了預測下一個連續向量。然而,如何教會模型進行下一個向量預測,又成了新的挑戰。
如今,幾乎所有主流大模型都采用最大似然訓練(Maximum Likelihood Estimation)——即通過 softmax 計算出 " 每個 token 出現的概率 ",并最大化訓練數據的似然值的做法。
這樣的訓練方式要求模型能在一個離散的詞表中明確地為每個 token 給出概率分布,但在連續向量空間中,沒有有限詞表,softmax 無法定義概率分布。
因此,CALM 放棄了最大似然訓練,轉而采用無似然建模(likelihood-free modeling)。這種方法不再要求模型顯式計算概率,改用間接目標函數,讓模型學會生成與數據分布相似的樣本。
簡單來說,模型不再告訴你 " 這個詞的概率是多少 ",而是直接生成一個向量,讓它盡可能接近真實的語義向量分布。
CALM 的作者團隊嘗試了多種無似然方法(如 Diffusion、Flow Matching),但最終提出并驗證了最優方案——基于能量評分(Energy Score)的生成頭(generative head)。

這一生成頭接收 Transformer 的隱藏狀態和一個隨機噪聲向量作為輸入,在連續空間中預測下一個語義向量。通過優化能量得分,模型能夠在不計算顯式概率的情況下,學會生成既多樣又符合語義規律的向量序列。
能量得分是一種嚴格正確的評分規則,不依賴概率密度,而以樣本間距離衡量預測分布的好壞。它同時平衡兩種目標:
(1)多樣性項懲罰過度自信、鼓勵多樣化生成;
(2)保真項獎勵預測與真實向量接近。
模型通過最大化能量得分,使其隱式分布逼近真實數據分布。為了實現高效訓練,作者采用蒙特卡洛估計,僅需少量樣本即可獲得無偏梯度。
這種方法帶來了兩大優勢。首先,不同于擴散模型需上百次采樣,Energy Head 一步即可生成下一個向量;其次,這一方法的通用性強,只需能采樣即可訓練,無需顯式概率公式。
在推理時,CALM 將預測向量傳入預訓練的解碼器,還原出離散 token,再經輕量 MLP 壓縮輸入到 Transformer,實現完整的自回歸循環。
在傳統的 LLM 中,調整溫度(temperature)是控制生成 " 創造力 " 的關鍵手段。模型在生成時會輸出一組 logits ——也就是每個候選 token 的未歸一化得分。通過將這些 logits 除以溫度參數 T,再經過 softmax,就能得到新的概率分布。
然而,CALM 沒有 logits。因此,其背后團隊提出了基于拒絕采樣與 Bernoulli Factory 理論的全新算法:
(1)當溫度 T=1/n 時,只需抽取 n 個樣本,若全相同則接受;
(2)對任意 T,可分解為整數與小數部分并通過二階段采樣實現。
CALM 團隊還設計了批量近似算法,可顯著提升效率且在理論上無偏差。這使得 CALM 及其他隱式模型能夠像普通大語言模型一樣實現可控生成。
04.
結語:大模型探索 Scaling 新路徑
未來,CALM 的作者團隊計劃繼續在架構和算法方面進行更多優化,包括設計更優的自編碼器、開發更強大的架構以及提出更輕量級的采樣技術。
他們還希望探索 CALM 的 Scaling 特性,驗證一大關鍵假設:更大模型是否具備支撐更高語義帶寬的必需容量。CALM 的作者們認為," 語義帶寬 K" 已成為繼參數規模與數據量之后,大模型性能的第三個可擴展維度。