栏目分类云开体育一众盘问者也赶来祝福 ~那么-开云平台皇马赞助商(中国)官方入口
你的位置:开云平台皇马赞助商(中国)官方入口 > 新闻动态 >云开体育一众盘问者也赶来祝福 ~那么-开云平台皇马赞助商(中国)官方入口
发布日期:2025-09-09 12:35 点击次数:71曾撼动 Transformer 统率地位的 Mamba 作家之一Tri Dao云开体育,刚刚带来新作——
提倡两种专为推理"量身定制"的把稳力机制。
在保捏模子性能不变的情况下,将解码速率和隐隐量最高升迁 2 倍,大大优化了模子的长高下文推理武艺。
这项盘问的三位作家均来自普林斯顿大学,论文主要有两大孝顺:
其一,提倡 Grouped-Tied Attention(GTA),与已集成到 LLaMA 3 的把稳力机制 GQA 质料绝顶,但 KV 缓存用量减少约 50%。
其二,提倡 Grouped Latent Attention(GLA),与 DeepSeek 所使用的把稳力机制 MLA 质料匹配,但解码速率更快,某些情况下比 FlashMLA 快 2 倍。
按照作家之一 Ted Zadouri 的回归:
GTA 是 GQA 的有用替代品,而 GLA 是 MLA 的实用替代品。
综上所述,通过优化把稳力机制的内存使用和筹备逻辑,在不放胆模子生成质料的前提下,可显赫升迁大道话模子的推理遵守和硬件资源应用率,尤其在长高下文场景中上风更为凸起。
有关论文公布后,一众盘问者也赶来祝福 ~
那么,这项盘问具体讲了些啥?
引入推理感知把稳力机制
空洞而言,论文中枢引入了推理感知把稳力机制,即针对模子推理阶段的内存冗余、筹备低效、长高下文瓶颈等问题,从头联想把稳力机制。
据 Tri Dao 先容,这项盘问的起初始于一个见地:
在推理运行 AI 发展的期间,"理想"架构应该是什么方法?
尤其在触及长高下文推理时,刻下的大道话模子(LLM)濒临内存造访瓶颈和并行性截至两浩劫题。
即是说,模子生成翰墨时,每次齐要从内存里调取多数"历史记载",不仅导致每个字生成变慢,而且只可按法例生成、没法让多个芯片同期干活。
对此,团队盘算从两个标的从头联想把稳力机制:
更高的硬件遵守:通过增多 "每字节内存加载的筹备量"(算术强度),减少对内存带宽的依赖;
保捏并行可扩张性:在不放胆模子并行锻真金不怕火 / 推理武艺的前提下优化解码速率。
而最终提倡的 GTA 和 GLA,在减少 KV 缓存用量的同期,模子质料保捏与现存决策绝顶,且解码速率显赫升迁。
这里提到的"现存决策",主要指早已有名学术界的两种要领:
一是分组查询把稳力(GQA)机制,它通过分组分享 KV 缓存减少内存占用,在视觉 Transformer(ViT)等任务中发扬邃密,适用于大界限数据处分,当今已应用于 Llama 3 等开源模子。
二是多头潜在把稳力(MLA)机制,最早可追猜度《Attention Is All You Need》这篇论文,后被 DeepSeek 再次带火。它体恤的是在不同层之间何如和会把稳力信息,能减少每一层的冗余筹备。
不外,由于 GQA 仍需为每组查询头存储清静 KV、MLA 并行优化不及,故仍需进一步转变。
底下分辩张开团队提倡的新要领 GTA 和 GLA。
分组绑定把稳力机制 GTA
GTA 的中枢联想想路是:将不同查询头的键(Key)和值(Value)景色进行组合与重用,减少内存传输次数。
具体而言(右图),它将多头把稳力的头分为几许组(Group),每组内的头分享疏导的 Key 和 Value 参数。筹备时,兼并组内的头使用疏导的 KV 缓存,仅查询(Query)参责怪寞。
比较之下,中间传统的多头把稳力机制(MHA)每个查询头齐有清静的键和值,由于莫得分享,导致它需要更多的内存来存储通盘的键和值。
再对比 GQA 来看(左图),GQA 分组分享 KV 但每组仍清静存储,而 GTA 通过参数绑定收尾了更透澈的 KV 访佛应用。
分组潜在把稳力机制 GLA
而 GLA 的联想则聘任了双层结构:
潜在层(Latent Layer):引入固定数目的潜在 Tokens,行为全局高下文的压缩示意,替代部分原始 Token 的 KV 缓存;
分组头机制:将查询头分组,每组头分享潜在 Token 的 KV,同期保留与原始 Token 的交互。
在解码流程中,对比 MLA(左图),GLA 通过分享聚拢潜在示意减少了每个诞生需要加载的 KV 缓存量,从而减少了内存造访量。
何况由于每个诞生上的 KV 缓存量减少了,更多的肯求也不错同期处分。
「GQA 和 MLA」的有用替代品
那么,GTA 和 GLA 的后果究竟何如呢?
团队在四种界限的模子上进行了履行,包括袖珍(183M)、中型(433M)、大型(876M)和 XL(1471M)。这些模子基于 FineWeb-Edu-100B 数据集锻真金不怕火,聘任 GPT-3 架构和 Llama 3 分词器。
测试的探讨主要分为两大类:
质料探讨:困惑度(Perplexity)、下流任务准确率(Winogrande、SciQ 等 7 个基准);
遵守探讨:每 Token 解码蔓延、隐隐量、KV 缓存占用量。
履行对比了 GQA、MLA、FlashMLA、传统 MHA 等多种把稳力机制。
困惑度履行线路,GTA 在中大型模子上优于 GQA,诠释GTA 可能更相宜模子的进一步扩张;而 GLA 在多数场景下与 MLA 绝顶,诠释GLA 的联想是合理的,它能在并行筹备和模子质料之间找到一个较好的平衡点。
几种决策不才游任务中(涵盖典型学问推理、逻辑推理和知识问答等场景)的全体发扬差距不大。
但从变化趋势来看(下图为从中型到大型),GTA 和 GLA不错保捏或提高从中型到 XL 尺寸的下流任务性能。
KV 缓存方面,不放胆模子质料的前提下,GTA 比较 GQA 减少约 50% 的 KV 缓存,考据了 "参数绑定 + 分组重用" 的有用性。
同期,针对查询长度为 1 的情况,MLA 已接近筹备瓶颈(达到 610 TFLOPS/s ),而 GLA 尚未使筹备资源足够(360 TFLOPS/s )。
且跟着序列长度从 1K 增多到 64K ,GLA 的解码速率比 FlashMLA 快 2 倍。
此外,在及时劳动器性能测试中,关于 64 个并发肯求的输出隐隐量(越高越好),疏导并行决策下 GLA 的发扬均优于 MLA。
接下来,团队还在 DeepSeek Coder V2 Base (236B)模子上,当使用 FP8 精度时,对比了二者在不同预填充长度息争码长度下的输出隐隐量。
结束线路,在预填充长度为 32K 和 64K 时,GLA-8 的输出隐隐量赫然高于 MLA。这标明在处分长高下文时,GLA 在隐隐量上优于 MLA。
在处分不平衡负载时,GLA-8 相同展现出更高的输出隐隐量。这标明 GLA 在处分不同长度的肯求时,大略更有用地应用资源,提高全体性能。
以上履行均考据了论文作家的说法,「GTA 和 GLA」是「GQA 和 MLA」的有用替代品。
论文作家均来自普林斯顿大学
论文作家包括 Tri Dao 在内一共三位,均来自普林斯顿大学。
Ted Zadouri,当今是普林斯顿大学博士生,盘问标的为机器学习。
之前曾在英特尔有过两段实习资格(盘问深度学习),还片晌在 AI 创企 Cohere 担任盘问员。
Hubert Strauss,普林斯顿大学盘问工程师,盘问标的为机器学习和模子深度学习。
本科毕业于法国著明工程学校 Arts et M é tiers,之后在佐治亚理工学院赢得运筹学硕士学位。
毕业后曾有多段实习和职责资格,成为普林斯顿大学工程师之前曾在一家公司担任机器学习工程师,厚爱模子锻真金不怕火和 Transformer 优化。
Tri Dao,当今是普林斯顿大学筹备机科学助理闇练,照旧生成式 AI 初创公司 Together AI 的首席科学家。
他因提倡一系列优化 Transformer 模子把稳力机制的职责而有名学界。
其中最有影响力的,是其行为作家之一提倡了Mamba 架构,这一架构在道话、音频和基因组学等多种模态中齐达到了 SOTA 性能。
尤其在道话建模方面,不管是预锻真金不怕火照旧下流评估,Mamba-3B 模子齐优于同等界限的 Transformer 模子,并能与两倍于其界限的 Transformer 模子相比好意思。
另外他还参与发表了FlashAttention1-3 版块,FlashAttention 被庸碌用于加快 Transformers,也曾使把稳力速率提高了 4-8 倍。
Anyway,回到这项盘问,论文作家 Ted Zadouri 直言:
这仅仅迈向 test-time 推理"理想"架构的第一步!
论文:
https://arxiv.org/abs/2505.21487
代码:
https://github.com/Dao-AILab/grouped-latent-attention
参考勾搭:
[ 1 ] https://x.com/tri_dao/status/1928170648863473892
[ 2 ] https://x.com/gm8xx8/status/1927572103806554262
[ 3 ] https://x.com/tedzadouri/status/1928167296821854363
— 完 —
� � 量子位 AI 主题筹划正在征会聚!迎接参与专题365 行 AI 落地决策,一千零一个 AI 应用,或与咱们分享你在寻找的 AI 产物,或发现的AI 新动向。
� � 也迎接你加入量子位逐日 AI 交流群,一齐来畅聊 AI 吧~
一键体恤 � � 点亮星标
科技前沿进展逐日见
一键三连「点赞」「转发」「谨防心」
迎接在驳倒区留住你的见地!云开体育