栏目分类云开体育一众盘问者也赶来祝福 ~那么-开云平台皇马赞助商(中国)官方入口

你的位置：开云平台皇马赞助商(中国)官方入口 > 新闻动态 >

云开体育一众盘问者也赶来祝福 ~那么-开云平台皇马赞助商(中国)官方入口

发布日期：2025-09-09 12:35 点击次数：82

曾撼动 Transformer 统率地位的 Mamba 作家之一Tri Dao云开体育，刚刚带来新作——

提倡两种专为推理"量身定制"的把稳力机制。

在保捏模子性能不变的情况下，将解码速率和隐隐量最高升迁 2 倍，大大优化了模子的长高下文推理武艺。

这项盘问的三位作家均来自普林斯顿大学，论文主要有两大孝顺：

其一，提倡 Grouped-Tied Attention（GTA），与已集成到 LLaMA 3 的把稳力机制 GQA 质料绝顶，但 KV 缓存用量减少约 50%。

其二，提倡 Grouped Latent Attention（GLA），与 DeepSeek 所使用的把稳力机制 MLA 质料匹配，但解码速率更快，某些情况下比 FlashMLA 快 2 倍。

按照作家之一 Ted Zadouri 的回归：

GTA 是 GQA 的有用替代品，而 GLA 是 MLA 的实用替代品。

综上所述，通过优化把稳力机制的内存使用和筹备逻辑，在不放胆模子生成质料的前提下，可显赫升迁大道话模子的推理遵守和硬件资源应用率，尤其在长高下文场景中上风更为凸起。

有关论文公布后，一众盘问者也赶来祝福 ~

那么，这项盘问具体讲了些啥？

引入推理感知把稳力机制

空洞而言，论文中枢引入了推理感知把稳力机制，即针对模子推理阶段的内存冗余、筹备低效、长高下文瓶颈等问题，从头联想把稳力机制。

据 Tri Dao 先容，这项盘问的起初始于一个见地：

在推理运行 AI 发展的期间，"理想"架构应该是什么方法？

尤其在触及长高下文推理时，刻下的大道话模子（LLM）濒临内存造访瓶颈和并行性截至两浩劫题。

即是说，模子生成翰墨时，每次齐要从内存里调取多数"历史记载"，不仅导致每个字生成变慢，而且只可按法例生成、没法让多个芯片同期干活。

对此，团队盘算从两个标的从头联想把稳力机制：

更高的硬件遵守：通过增多 "每字节内存加载的筹备量"（算术强度），减少对内存带宽的依赖；

保捏并行可扩张性：在不放胆模子并行锻真金不怕火 / 推理武艺的前提下优化解码速率。

而最终提倡的 GTA 和 GLA，在减少 KV 缓存用量的同期，模子质料保捏与现存决策绝顶，且解码速率显赫升迁。

这里提到的"现存决策"，主要指早已有名学术界的两种要领：

一是分组查询把稳力（GQA）机制，它通过分组分享 KV 缓存减少内存占用，在视觉 Transformer（ViT）等任务中发扬邃密，适用于大界限数据处分，当今已应用于 Llama 3 等开源模子。

二是多头潜在把稳力（MLA）机制，最早可追猜度《Attention Is All You Need》这篇论文，后被 DeepSeek 再次带火。它体恤的是在不同层之间何如和会把稳力信息，能减少每一层的冗余筹备。

不外，由于 GQA 仍需为每组查询头存储清静 KV、MLA 并行优化不及，故仍需进一步转变。

底下分辩张开团队提倡的新要领 GTA 和 GLA。

分组绑定把稳力机制 GTA

GTA 的中枢联想想路是：将不同查询头的键（Key）和值（Value）景色进行组合与重用，减少内存传输次数。

具体而言（右图），它将多头把稳力的头分为几许组（Group），每组内的头分享疏导的 Key 和 Value 参数。筹备时，兼并组内的头使用疏导的 KV 缓存，仅查询（Query）参责怪寞。

比较之下，中间传统的多头把稳力机制（MHA）每个查询头齐有清静的键和值，由于莫得分享，导致它需要更多的内存来存储通盘的键和值。

再对比 GQA 来看（左图），GQA 分组分享 KV 但每组仍清静存储，而 GTA 通过参数绑定收尾了更透澈的 KV 访佛应用。

分组潜在把稳力机制 GLA

而 GLA 的联想则聘任了双层结构：

潜在层（Latent Layer）：引入固定数目的潜在 Tokens，行为全局高下文的压缩示意，替代部分原始 Token 的 KV 缓存；

分组头机制：将查询头分组，每组头分享潜在 Token 的 KV，同期保留与原始 Token 的交互。

在解码流程中，对比 MLA（左图），GLA 通过分享聚拢潜在示意减少了每个诞生需要加载的 KV 缓存量，从而减少了内存造访量。

何况由于每个诞生上的 KV 缓存量减少了，更多的肯求也不错同期处分。

「GQA 和 MLA」的有用替代品

那么，GTA 和 GLA 的后果究竟何如呢？

团队在四种界限的模子上进行了履行，包括袖珍（183M）、中型（433M）、大型（876M）和 XL（1471M）。这些模子基于 FineWeb-Edu-100B 数据集锻真金不怕火，聘任 GPT-3 架构和 Llama 3 分词器。

测试的探讨主要分为两大类：

质料探讨：困惑度（Perplexity）、下流任务准确率（Winogrande、SciQ 等 7 个基准）；

遵守探讨：每 Token 解码蔓延、隐隐量、KV 缓存占用量。

履行对比了 GQA、MLA、FlashMLA、传统 MHA 等多种把稳力机制。

困惑度履行线路，GTA 在中大型模子上优于 GQA，诠释GTA 可能更相宜模子的进一步扩张；而 GLA 在多数场景下与 MLA 绝顶，诠释GLA 的联想是合理的，它能在并行筹备和模子质料之间找到一个较好的平衡点。

几种决策不才游任务中（涵盖典型学问推理、逻辑推理和知识问答等场景）的全体发扬差距不大。

但从变化趋势来看（下图为从中型到大型），GTA 和 GLA不错保捏或提高从中型到 XL 尺寸的下流任务性能。

KV 缓存方面，不放胆模子质料的前提下，GTA 比较 GQA 减少约 50% 的 KV 缓存，考据了 "参数绑定 + 分组重用" 的有用性。

同期，针对查询长度为 1 的情况，MLA 已接近筹备瓶颈（达到 610 TFLOPS/s ），而 GLA 尚未使筹备资源足够（360 TFLOPS/s ）。

且跟着序列长度从 1K 增多到 64K ，GLA 的解码速率比 FlashMLA 快 2 倍。

此外，在及时劳动器性能测试中，关于 64 个并发肯求的输出隐隐量（越高越好），疏导并行决策下 GLA 的发扬均优于 MLA。

接下来，团队还在 DeepSeek Coder V2 Base （236B）模子上，当使用 FP8 精度时，对比了二者在不同预填充长度息争码长度下的输出隐隐量。

结束线路，在预填充长度为 32K 和 64K 时，GLA-8 的输出隐隐量赫然高于 MLA。这标明在处分长高下文时，GLA 在隐隐量上优于 MLA。

在处分不平衡负载时，GLA-8 相同展现出更高的输出隐隐量。这标明 GLA 在处分不同长度的肯求时，大略更有用地应用资源，提高全体性能。

以上履行均考据了论文作家的说法，「GTA 和 GLA」是「GQA 和 MLA」的有用替代品。

论文作家均来自普林斯顿大学

论文作家包括 Tri Dao 在内一共三位，均来自普林斯顿大学。

Ted Zadouri，当今是普林斯顿大学博士生，盘问标的为机器学习。

之前曾在英特尔有过两段实习资格（盘问深度学习），还片晌在 AI 创企 Cohere 担任盘问员。

Hubert Strauss，普林斯顿大学盘问工程师，盘问标的为机器学习和模子深度学习。

本科毕业于法国著明工程学校 Arts et M é tiers，之后在佐治亚理工学院赢得运筹学硕士学位。

毕业后曾有多段实习和职责资格，成为普林斯顿大学工程师之前曾在一家公司担任机器学习工程师，厚爱模子锻真金不怕火和 Transformer 优化。

Tri Dao，当今是普林斯顿大学筹备机科学助理闇练，照旧生成式 AI 初创公司 Together AI 的首席科学家。

他因提倡一系列优化 Transformer 模子把稳力机制的职责而有名学界。

其中最有影响力的，是其行为作家之一提倡了Mamba 架构，这一架构在道话、音频和基因组学等多种模态中齐达到了 SOTA 性能。

尤其在道话建模方面，不管是预锻真金不怕火照旧下流评估，Mamba-3B 模子齐优于同等界限的 Transformer 模子，并能与两倍于其界限的 Transformer 模子相比好意思。

另外他还参与发表了FlashAttention1-3 版块，FlashAttention 被庸碌用于加快 Transformers，也曾使把稳力速率提高了 4-8 倍。

Anyway，回到这项盘问，论文作家 Ted Zadouri 直言：

这仅仅迈向 test-time 推理"理想"架构的第一步！

论文：

https://arxiv.org/abs/2505.21487

代码：

https://github.com/Dao-AILab/grouped-latent-attention

参考勾搭：

[ 1 ] https://x.com/tri_dao/status/1928170648863473892

[ 2 ] https://x.com/gm8xx8/status/1927572103806554262

[ 3 ] https://x.com/tedzadouri/status/1928167296821854363

— 完 —

� � 量子位 AI 主题筹划正在征会聚！迎接参与专题365 行 AI 落地决策，一千零一个 AI 应用，或与咱们分享你在寻找的 AI 产物，或发现的AI 新动向。

� � 也迎接你加入量子位逐日 AI 交流群，一齐来畅聊 AI 吧～

一键体恤 � � 点亮星标

科技前沿进展逐日见

一键三连「点赞」「转发」「谨防心」

迎接在驳倒区留住你的见地！云开体育

上一篇：开yun体育网十分是数据样本的偏差带来的风险更值得防护-开云平台皇马赞助商(中国)官方入口
下一篇：开yun体育网还在被误会4.东谈主到中年容易胖-开云平台皇马赞助商(中国)官方入口

首页

关于我们

智慧教育

服务支持

解决方案

新闻动态

投资者关系

栏目分类云开体育一众盘问者也赶来祝福 ~那么-开云平台皇马赞助商(中国)官方入口

云开体育一众盘问者也赶来祝福 ~那么-开云平台皇马赞助商(中国)官方入口

友情链接：