
當大模子試圖處理一段包含 100 萬 token 的超長文檔時,會發生什么?謎底是:內存爆炸,瞎想崩潰。
不管是分析通盤代碼庫、處理萬字研報,也曾進行超長多輪對話,LLM 的"長文本能力"王人是其走向更高階智能的環節。有關詞,Transformer 架構的固有瓶頸──與高下文長度成平日相關的瞎想復雜度和線性增長的 KV Cache,使其在靠近超長序列時力不從心,造成了一個既"算不動"也"存不下"的"吞金巨獸"。
為了"續命",現存決議要么遴薦高下文壓縮,但這本色上是有損的,信息丟失不成幸免;要么襲取輪回機制,但這類模子又時時"忘記",難以保留歸并全文的環節信息,也記不清剛剛發生的細節。

來自阿里巴巴往日生涯本質室的商酌團隊瞻念察出問題的中樞在于:模子難題一套能同期兼顧"遠距離中樞馳念"和"近距離高清細節"的協同系統。基于此,他們推出了一種全新的即插即用架構──協同馳念 Transformer(CoMeT),讓 LLM 領有了高效處理無盡長高下文的能力。
CoMeT令東談主偶然的施展是:一個僅在 32k 高下文上微調的模子,竟能在 100 萬 token 的文本中,精確無誤地找到任何位置的"密碼",的確收尾了"大海撈針"!況且,通盤經過的推理時辰和內存占用王人得到了權臣的優化。

△? CoMeT 在 32k 高下文磨練后,可在 1M token 中精確大海撈針,且推理速率和內存占用遠優于全耀觀點模子魚與熊掌兼得:"協同馳念"架構
{jz:field.toptypename/}CoMeT 的奧秘之處在于,它莫得試圖用單一機制處分悉數問題,而是瞎想了一套雙軌并行的協同馳念系統,讓模子既能"謹記牢",又能"看得清"。
1. 全局馳念(Global Memory):一個帶"門禁"的馳念保障箱
為了處分恒久漸忘問題,CoMeT 引入了一個固定大小的全局馳念。它的中樞是一個小巧的門控更新機制(Gated Update)。當模子處理新的文本塊時,這個"門禁"會智能判斷新信息的重要性:要是信息至關重要,門控大開,將其寫入恒久馳念;要是信息不那么重要,門控保抓關閉,保護已有的環節馳念不被沖刷。這套機制就像一個馳念的"保障箱",金沙電玩城app確保那些歸并全文的中樞痕跡梗概被恒久、結識地保存下來。
2. 臨時馳念(Temporary Memory):一條高保的確"事件流"
為了保留近期細節,CoMeT 引入了由先進先出(FIFO)部隊約束的臨時馳念。它像一條流動的傳送帶,抓續將最近處理過的文本塊信息進行高保真壓縮并暫存。這保證了模子在作念決策時,能隨時拜謁到最周邊、最詳備的高下文信息,幸免因信息丟失而導致的"斷片"。這種瞎想優雅地均衡了恒久馳念的結識性與近期馳念的鮮嫩性。

△? CoMeT 架構概覽:全局馳念與臨時馳念協同職責
通過全局和臨時馳念的協同,CoMeT 在處理每個文本塊時,王人能同期"轉頭"恒久中樞信息和"疑望"近期詳備內容,最終收尾了恒定的內存占用和線性的時辰復雜度,從根底上防止了 Transformer 的性能瓶頸。
推論出真知:SOTA 性能與驚東談主效果
CoMeT 的堅決不單是停留在表面上,本質抵制更是令東談主印象深遠。
1. ? 泰斗基準全面突出,登頂 SOTA
在公認的長文本評測基準 SCROLLS 上,CoMeT 在同等內存預算下,平均性能突出了悉數主流的高效長文本智力(如高下文壓縮、其他輪回機制模子),并在需要全局流暢的綱目任務上,達到了與全耀觀點基線(Full Attention)相忘形的性能。

△? CoMeT 在 SCROLLS 基準上突出其他高效智力 2. ? 效果翻新:21 倍加快,10 倍顯存簡約
相較于圭臬的 Full Attention 模子,CoMeT 在處理 1M 長度的文本時,收尾了21 倍的推理加快和10 倍的峰值顯存簡約。這意味著,本來需要頂級算力才能湊合啟動的任務,當今在鄙俚硬件上也能高效完成,為長文本哄騙的落地掃清了頑固。

△? CoMeT 在推理時辰和內存占用上展現出廣博上風 3. ? 環節瞻念察:1+1>2,不同馳念各司其職
商酌團隊的消融本質揭示了一個深遠的瞻念察:全局馳念和臨時馳念并非神圣重疊,而是各司其職,統籌兼顧。全局馳念是模子"看得遠"的環節:只消依賴帶門控的全局馳念,模子才能在遠超磨練長度的文本中保抓馳念,收尾堅決的長度外推能力。臨時馳念是模子"看得清"的保障:高保的確近期信息流是模子在處理復雜任務時,取得優異性能的基礎。恰是這種精妙的協同瞎想,才栽培了 CoMeT 的不凡性能。

△? CoMeT 的臨時馳念有助于普及磨練長度內的性能。

△? CoMeT 的全局馳念有助于長度外推總結
CoMeT 的職責為大模子長文本處理范圍帶來了里程碑式的突破。
它通過創新的"協同馳念"架構,優雅地處分了困擾業界已久的"馳念窘境",在恒定內存和線性時辰的約束下,收尾了 SOTA 級別的性能和驚東談主的長度外推能力。這項商酌講明,為 LLM 瞎想更相宜分解科學的馳念機制,是通往更堅決、更實用通用東談主工智能的環節一步。
論文標題:
CoMeT: Collaborative Memory Transformer for Efficient Long Context Modeling
論文鄰接:
https://arxiv.org/abs/2602.01766
名堂代碼:
https://anonymous.4open.science/r/comet-B00B/
一鍵三連「點贊」「轉發」「謹防心」
寬容在評述區留住你的思法!
— ?完? —
咱們正在招聘又名眼疾手快、關切 AI 的學術裁剪實習生? ? ?
感敬愛的小伙伴寬容關切 ? ? ?了解確定

? ? 點亮星標 ? ?
科技前沿進展逐日見

備案號: