承德万能胶 32k微调处理百万Token：21倍的理加速，10倍的峰值显存节省，实现恒定内存消耗

当大模型试图处理段包含 100 万 token 的长文档时承德万能胶，会发生什么？答案是：内存爆炸，计崩溃。

论是分析整个代码库、处理万字研报，还是进行长多轮对话，LLM 的"长文本能力"都是其走向阶智能的关键。然而，Transformer 架构的固有瓶颈──与上下文长度成平关系的计复杂度和线增长的 KV Cache，使其在面对长序列时力不从心，变成了个既"不动"也"存不下"的"吞金巨兽"。

为了"续命"，现有案要么选择上下文压缩，但这本质上是有损的，信息丢失不可避；要么采用循环机制，但这类模型又常常"健忘"，难以保留贯穿全文的关键信息，也记不清刚刚发生的细节。

来自阿里巴巴未来生活实验室的研究团队洞察出问题的核心在于：模型缺乏套能同时兼顾"远距离核心记忆"和"近距离清细节"的协同系统。基于此，他们出了种全新的即插即用架构──协同记忆 Transformer（CoMeT），让 LLM 拥有了处理限长上下文的能力。

CoMeT令人意外的表现是：个仅在 32k 上下文上微调的模型，竟能在 100 万 token 的文本中，误地找到任何位置的"密码"，真正实现了"大海捞针"！并且，整个过程的理时间和内存占用都得到了显著的优化。

△ CoMeT 在 32k 上下文训练后，可在 1M token 中大海捞针，且理速度和内存占用远优于全注意力模型鱼与熊掌兼得："协同记忆"架构

CoMeT 的巧妙之处在于，它没有试图用单机制解决所有问题，而是设计了套双轨并行的协同记忆系统，让模型既能"记得牢"，又能"看得清"。

1. 全局记忆（Global Memory）：个带"门禁"的记忆保险箱

为了解决长期遗忘问题，CoMeT 引入了个固定大小的全局记忆。它的核心是个精巧的门控新机制（Gated Update）。当模型处理新的文本块时，这个"门禁"会智能判断新信息的重要：如果信息至关重要，门控开，将其写入长期记忆；如果信息不那么重要，门控保持关闭，保护已有的关键记忆不被冲刷。这套机制就像个记忆的"保险箱"，确保那些贯穿全文的核心线索能够被长期、稳定地保存下来。

2. 临时记忆（Temporary Memory）：条保真的"事件流"承德万能胶

为了保留近期细节，万能胶厂家CoMeT 引入了由先出（FIFO）队列管理的临时记忆。它像条流动的传送带，持续将近处理过的文本块信息进行保真压缩并暂存。这保证了模型在做决策时，能随时访问到临近、详细的上下文信息，避因信息丢失而致的"断片"。这种设计优雅地平衡了长期记忆的稳定与近期记忆的鲜活。

△ CoMeT 架构概览：全局记忆与临时记忆协同工作

通过全局和临时记忆的协同，CoMeT 在处理每个文本块时，都能同时"回顾"长期核心信息和"审视"近期详细内容，终实现了恒定的内存占用和线的时间复杂度，从根本上破了 Transformer 的能瓶颈。

实践出真知：SOTA 能与惊人率

CoMeT 的强大不仅仅停留在理论上，实验结果是令人印象刻。

1. 基准越，登顶 SOTA

在公认的长文本评测基准 SCROLLS 上，CoMeT 在同等内存预下，平均能越了所有主流的长文本法（如上下文压缩、其他循环机制模型），并在需要全局理解的摘要任务上，达到了与全注意力基线（Full Attention）相媲美的能。

△ CoMeT 在 SCROLLS 基准上越其他法 2. 率革命：21 倍加速，10 倍显存节省

相较于标准的 Full Attention 模型，CoMeT 在处理 1M 长度的文本时，实现了21 倍的理加速和10 倍的峰值显存节省。这意味着，原本需要顶力才能勉强运行的任务，现在在普通硬件上也能完成承德万能胶，为长文本应用的落地扫清了障碍。

△ CoMeT 在理时间和内存占用上展现出巨大优势 3. 关键洞察：1+1>2，不同记忆各司其职

研究团队的消融实验揭示了个刻的洞察：全局记忆和临时记忆并非简单叠加，而是各司其职，缺不可。全局记忆是模型"看得远"的关键：只有依赖带门控的全局记忆，模型才能在远训练长度的文本中保持记忆，实现强大的长度外能力。临时记忆是模型"看得清"的保障：保真的近期信息流是模型在处理复杂任务时，获得优异能的基础。正是这种精妙的协同设计，才造就了 CoMeT 的卓越能。

△ CoMeT 的临时记忆有助于提训练长度内的能。

△ CoMeT 的全局记忆有助于长度外总结

CoMeT 的工作为大模型长文本处理域带来了里程碑式的突破。

它通过创新的"协同记忆"架构，优雅地解决了困扰业界已久的"记忆困境"，在恒定内存和线时间的约束下，实现了 SOTA 别的能和惊人的长度外能力。这项研究证明，为 LLM 设计符认知科学的记忆机制，是通往强大、实用通用人工智能的关键步。

论文标题：

CoMeT: Collaborative Memory Transformer for Efficient Long Context Modeling

论文链接：

奥力斯万能胶生产厂家联系人：王经理手机：13903175735（微信同号）地址：河北省任丘市北辛庄乡南代河工业区

https://arxiv.org/abs/2602.01766

项目代码：

https://anonymous.4open.science/r/comet-B00B/

键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

我们正在招聘名眼疾手快、关注 AI 的学术编辑实习生 � �

感兴趣的小伙伴欢迎关注 � � 了解详情

� � 点亮星标 � �

科技前沿进展每日见承德万能胶

承德万能胶 32k微调处理百万Token：21倍的理加速，10倍的峰值显存节省，实现恒定内存消耗

新闻资讯

友情链接：

任丘市奥力斯涂料厂