Google TurboQuant 技術解析:KV 快取壓縮 6 倍、效能提升 8 倍,大摩稱為另一個 DeepSeek 時刻

事件總覽:自輝達(NVIDIA)率先公開 KV 快取壓縮技術 KVTC 之後,Google 研究院隨即發表名為 TurboQuant 的全新量化演算法,宣稱可在不犧牲模型準確度的前提下,將 KV 快取記憶體占用降低至少 6 倍、執行速度提升最高 8 倍,並預計於 ICLR 2026 正式發表。此消息引發業界廣泛討論,摩根士丹利(大摩)更以「另一個 DeepSeek 時刻」定性這項技術對 AI 成本曲線的潛在衝擊。

📅 技術背景:KV 快取為何成為 AI 擴展的核心瓶頸

在大型語言模型(LLM)的推論階段,KV 快取扮演著關鍵角色。它可視為一種高速「數位速查表」,以簡單標籤儲存常用資訊,使模型能即時存取,而不需反覆搜尋龐大且緩慢的資料庫。然而,高維向量(High-dimensional vectors)雖能捕捉複雜語意與影像特徵,卻也消耗大量記憶體,導致 KV 快取成為制約算力效率的主要瓶頸。

傳統的「向量量化」(Vector quantization)技術雖可縮減高維向量的大小,理論上能加速向量搜尋並降低記憶體成本,但實務上卻存在一個隱患:每個壓縮後的小區塊仍需存取額外的量化參數,導致每個數值反而增加 1 至 2 個位元(bit),抵銷了原本的壓縮效益。這正是 Google 研究院著手開發 TurboQuant 的直接動機。

📅 技術發布:Google 研究院提出 TurboQuant 三項核心演算法

Google 研究院研究科學家 Amir Zandieh 與副總裁暨研究員 Vahab Mirrokni 在官方部落格中,正式介紹了這套以理論為基礎的量化框架。TurboQuant 的壓縮流程分為兩個主要階段,並以 QJL 與 PolarQuant 兩項子技術作為核心組件。

第一階段:高品質壓縮(PolarQuant 方法)

PolarQuant 技術捨棄傳統以 X、Y、Z 等標準座標描述向量的方式,改採「極座標」(Polar coordinates)進行儲存與處理。以日常比喻說明:過去需要描述「向東走 3 個街區、向北走 4 個街區」,PolarQuant 則改為描述「以 37 度角走總共 5 個街區」,以更精簡的方式表達相同資訊。這種轉換產生半徑(代表核心資料強度)與角度(代表資料方向或語意)兩種資訊,且角度模式具有高度集中的特性,使模型無需執行耗費資源的資料標準化(normalization)步驟,從而消除傳統方法必然承擔的記憶體額外負擔。

第二階段:消除隱藏誤差(QJL 演算法)

Quantized Johnson-Lindenstrauss(QJL)演算法採用 Johnson-Lindenstrauss Transform 數學方法,能在壓縮高維資料的同時,保留資料點之間的距離與相對關係。具體而言,QJL 可將每個向量數值簡化為單一符號位元(+1 或 -1),建立一種高速「速記形式」,且不產生額外記憶體負擔。在第一階段壓縮完成後,TurboQuant 僅需使用極少的剩餘位元(僅 1 bit),透過 QJL 對殘留的微小誤差進行修正,消除偏差(bias),從而提升注意力分數(attention score)的計算準確性。

📅 實驗驗證:在多項基準測試中達到最佳效能

Google 以開源大型語言模型 Gemma 與 Mistral 為測試對象,在 LongBench、Needle In A Haystack、ZeroSCROLLS、RULER 及 L-Eval 等多個標準長上下文基準測試上,對 TurboQuant、PolarQuant 及基準方法 KIVI 進行嚴謹評估。

實驗結果顯示,TurboQuant 在「點積失真」(dot product distortion)與「召回率」(recall)兩項核心指標上均達到最佳表現,同時顯著降低 KV 記憶體占用。在長上下文的「大海撈針」任務中,TurboQuant 在所有基準測試中均達到完美的下游任務表現,KV 記憶體大小至少降低 6 倍以上。此外,在 H100 GPU 加速器上,4 位元 TurboQuant 相較於 32 位元未量化鍵值,執行速度提升最高可達 8 倍。

值得關注的是,TurboQuant 能在無需訓練或微調的情況下,將 KV 鍵值快取量化至僅 3 位元,且執行時幾乎不產生額外負擔,這代表其實作效率相當出色。在向量搜尋任務中,與目前最先進的 PQ、RabbiQ 方法相比,TurboQuant 持續呈現更優異的召回率,驗證了其在高維搜尋任務中的穩健性。

📅 業界反應:大摩以「另一個 DeepSeek 時刻」定性其影響

摩根士丹利在 Google 發布 TurboQuant 後隨即提出分析,認為目前 AI 服務擴展最大的瓶頸正在於 KV 快取。若模型能在顯著降低記憶體需求的情況下維持效能,每次查詢的服務成本可大幅下降,進而提升 AI 部署的整體獲利能力。

大摩進一步指出,就短期影響而言,TurboQuant 主要針對推論階段的 KV 快取進行壓縮,對模型權重與訓練工作負載並無直接影響。然而,它可讓相同硬體支援 4 至 8 倍更長的上下文,或在不耗盡記憶體的情況下處理更大的批次大小(batch size),本質上是「效率提升」而非硬體需求的等比例縮減。

就長期影響而言,大摩援引「傑文斯悖論」(Jevons Paradox)效應,指出效率提升往往反而推動總需求增加。從這個角度來看,TurboQuant 與其說是漸進式優化,不如說是從根本上「改變 AI 部署的成本曲線」,這也是大摩以「另一個 DeepSeek 時刻」來定性這項技術的核心理由。

至今影響與未來展望

TurboQuant 目前確認的應用場景,包括解決大型語言模型中的 KV 快取瓶頸,以及大規模向量索引的建立與查詢。Google 預期,在極低記憶體使用量、幾乎為零的前處理時間,以及最先進準確度的條件下,TurboQuant 將有助於 Google 語意搜尋系統變得更快速且更高效。

與此同時,NVIDIA 亦持續推進其 KVTC 技術路線,兩大科技巨頭在 KV 快取壓縮領域的競相投入,預期將進一步促使相關成本持續下降,加速 AI 推論技術的普及化進程。TurboQuant 的完整研究成果將於 ICLR 2026 正式發表,PolarQuant 則預計於 AISTATS 2026 亮相,業界對其後續實際部署表現持續高度關注。

常見問題解答

TurboQuant 是什麼技術?

TurboQuant 是 Google 研究院開發的一種先進量化壓縮演算法,能在不損失模型準確度的情況下,大幅縮減大型語言模型的 KV 快取記憶體占用,並提升向量搜尋效率。其核心由 PolarQuant 與 QJL 兩項子技術組成,預計於 ICLR 2026 正式發表。

TurboQuant 能達到多少壓縮效果?

根據 Google 的實驗數據,TurboQuant 可將 KV 快取記憶體大小至少降低 6 倍以上,同時在 H100 GPU 上執行速度相較於 32 位元未量化鍵值最高可提升 8 倍,且不犧牲模型的下游任務準確度。

為什麼大摩稱 TurboQuant 為「另一個 DeepSeek 時刻」?

摩根士丹利認為,TurboQuant 並非漸進式優化,而是從根本上改變了 AI 部署的成本曲線。透過大幅提升 KV 快取效率,相同硬體可支援更長的上下文或更大的批次處理,長期將觸發「傑文斯悖論」效應,推動 AI 總需求進一步增加,對整個 AI 產業具有結構性影響。

Categories: