云开体育一众盘问者也赶来祝福 ~那么-开云平台皇马赞助商(中国)官方入口

栏目分类云开体育一众盘问者也赶来祝福 ~那么-开云平台皇马赞助商(中国)官方入口

你的位置:开云平台皇马赞助商(中国)官方入口 > 新闻动态 >

云开体育一众盘问者也赶来祝福 ~那么-开云平台皇马赞助商(中国)官方入口

发布日期:2025-09-09 12:35    点击次数:71

曾撼动 Transformer 统率地位的 Mamba 作家之一Tri Dao云开体育,刚刚带来新作——

提倡两种专为推理"量身定制"的把稳力机制。

在保捏模子性能不变的情况下,将解码速率和隐隐量最高升迁 2 倍,大大优化了模子的长高下文推理武艺。

这项盘问的三位作家均来自普林斯顿大学,论文主要有两大孝顺:

其一,提倡 Grouped-Tied Attention(GTA),与已集成到 LLaMA 3 的把稳力机制 GQA 质料绝顶,但 KV 缓存用量减少约 50%。

其二,提倡 Grouped Latent Attention(GLA),与 DeepSeek 所使用的把稳力机制 MLA 质料匹配,但解码速率更快,某些情况下比 FlashMLA 快 2 倍。

按照作家之一 Ted Zadouri 的回归:

GTA 是 GQA 的有用替代品,而 GLA 是 MLA 的实用替代品。

综上所述,通过优化把稳力机制的内存使用和筹备逻辑,在不放胆模子生成质料的前提下,可显赫升迁大道话模子的推理遵守和硬件资源应用率,尤其在长高下文场景中上风更为凸起。

有关论文公布后,一众盘问者也赶来祝福 ~

那么,这项盘问具体讲了些啥?

引入推理感知把稳力机制

空洞而言,论文中枢引入了推理感知把稳力机制,即针对模子推理阶段的内存冗余、筹备低效、长高下文瓶颈等问题,从头联想把稳力机制。

据 Tri Dao 先容,这项盘问的起初始于一个见地:

在推理运行 AI 发展的期间,"理想"架构应该是什么方法?

尤其在触及长高下文推理时,刻下的大道话模子(LLM)濒临内存造访瓶颈和并行性截至两浩劫题。

即是说,模子生成翰墨时,每次齐要从内存里调取多数"历史记载",不仅导致每个字生成变慢,而且只可按法例生成、没法让多个芯片同期干活。

对此,团队盘算从两个标的从头联想把稳力机制:

更高的硬件遵守:通过增多 "每字节内存加载的筹备量"(算术强度),减少对内存带宽的依赖;

保捏并行可扩张性:在不放胆模子并行锻真金不怕火 / 推理武艺的前提下优化解码速率。

而最终提倡的 GTA 和 GLA,在减少 KV 缓存用量的同期,模子质料保捏与现存决策绝顶,且解码速率显赫升迁。

这里提到的"现存决策",主要指早已有名学术界的两种要领:

一是分组查询把稳力(GQA)机制,它通过分组分享 KV 缓存减少内存占用,在视觉 Transformer(ViT)等任务中发扬邃密,适用于大界限数据处分,当今已应用于 Llama 3 等开源模子。

二是多头潜在把稳力(MLA)机制,最早可追猜度《Attention Is All You Need》这篇论文,后被 DeepSeek 再次带火。它体恤的是在不同层之间何如和会把稳力信息,能减少每一层的冗余筹备。

不外,由于 GQA 仍需为每组查询头存储清静 KV、MLA 并行优化不及,故仍需进一步转变。

底下分辩张开团队提倡的新要领 GTA 和 GLA。

分组绑定把稳力机制 GTA

GTA 的中枢联想想路是:将不同查询头的键(Key)和值(Value)景色进行组合与重用,减少内存传输次数。

具体而言(右图),它将多头把稳力的头分为几许组(Group),每组内的头分享疏导的 Key 和 Value 参数。筹备时,兼并组内的头使用疏导的 KV 缓存,仅查询(Query)参责怪寞。

比较之下,中间传统的多头把稳力机制(MHA)每个查询头齐有清静的键和值,由于莫得分享,导致它需要更多的内存来存储通盘的键和值。

再对比 GQA 来看(左图),GQA 分组分享 KV 但每组仍清静存储,而 GTA 通过参数绑定收尾了更透澈的 KV 访佛应用。

分组潜在把稳力机制 GLA

而 GLA 的联想则聘任了双层结构:

潜在层(Latent Layer):引入固定数目的潜在 Tokens,行为全局高下文的压缩示意,替代部分原始 Token 的 KV 缓存;

分组头机制:将查询头分组,每组头分享潜在 Token 的 KV,同期保留与原始 Token 的交互。

在解码流程中,对比 MLA(左图),GLA 通过分享聚拢潜在示意减少了每个诞生需要加载的 KV 缓存量,从而减少了内存造访量。

何况由于每个诞生上的 KV 缓存量减少了,更多的肯求也不错同期处分。

「GQA 和 MLA」的有用替代品

那么,GTA 和 GLA 的后果究竟何如呢?

团队在四种界限的模子上进行了履行,包括袖珍(183M)、中型(433M)、大型(876M)和 XL(1471M)。这些模子基于 FineWeb-Edu-100B 数据集锻真金不怕火,聘任 GPT-3 架构和 Llama 3 分词器。

测试的探讨主要分为两大类:

质料探讨:困惑度(Perplexity)、下流任务准确率(Winogrande、SciQ 等 7 个基准);

遵守探讨:每 Token 解码蔓延、隐隐量、KV 缓存占用量。

履行对比了 GQA、MLA、FlashMLA、传统 MHA 等多种把稳力机制。

困惑度履行线路,GTA 在中大型模子上优于 GQA,诠释GTA 可能更相宜模子的进一步扩张;而 GLA 在多数场景下与 MLA 绝顶,诠释GLA 的联想是合理的,它能在并行筹备和模子质料之间找到一个较好的平衡点。

几种决策不才游任务中(涵盖典型学问推理、逻辑推理和知识问答等场景)的全体发扬差距不大。

但从变化趋势来看(下图为从中型到大型),GTA 和 GLA不错保捏或提高从中型到 XL 尺寸的下流任务性能。

KV 缓存方面,不放胆模子质料的前提下,GTA 比较 GQA 减少约 50% 的 KV 缓存,考据了 "参数绑定 + 分组重用" 的有用性。

同期,针对查询长度为 1 的情况,MLA 已接近筹备瓶颈(达到 610 TFLOPS/s ),而 GLA 尚未使筹备资源足够(360 TFLOPS/s )。

且跟着序列长度从 1K 增多到 64K ,GLA 的解码速率比 FlashMLA 快 2 倍。

此外,在及时劳动器性能测试中,关于 64 个并发肯求的输出隐隐量(越高越好),疏导并行决策下 GLA 的发扬均优于 MLA。

接下来,团队还在 DeepSeek Coder V2 Base (236B)模子上,当使用 FP8 精度时,对比了二者在不同预填充长度息争码长度下的输出隐隐量。

结束线路,在预填充长度为 32K 和 64K 时,GLA-8 的输出隐隐量赫然高于 MLA。这标明在处分长高下文时,GLA 在隐隐量上优于 MLA。

在处分不平衡负载时,GLA-8 相同展现出更高的输出隐隐量。这标明 GLA 在处分不同长度的肯求时,大略更有用地应用资源,提高全体性能。

以上履行均考据了论文作家的说法,「GTA 和 GLA」是「GQA 和 MLA」的有用替代品。

论文作家均来自普林斯顿大学

论文作家包括 Tri Dao 在内一共三位,均来自普林斯顿大学。

Ted Zadouri,当今是普林斯顿大学博士生,盘问标的为机器学习。

之前曾在英特尔有过两段实习资格(盘问深度学习),还片晌在 AI 创企 Cohere 担任盘问员。

Hubert Strauss,普林斯顿大学盘问工程师,盘问标的为机器学习和模子深度学习。

本科毕业于法国著明工程学校 Arts et M é tiers,之后在佐治亚理工学院赢得运筹学硕士学位。

毕业后曾有多段实习和职责资格,成为普林斯顿大学工程师之前曾在一家公司担任机器学习工程师,厚爱模子锻真金不怕火和 Transformer 优化。

Tri Dao,当今是普林斯顿大学筹备机科学助理闇练,照旧生成式 AI 初创公司 Together AI 的首席科学家。

他因提倡一系列优化 Transformer 模子把稳力机制的职责而有名学界。

其中最有影响力的,是其行为作家之一提倡了Mamba 架构,这一架构在道话、音频和基因组学等多种模态中齐达到了 SOTA 性能。

尤其在道话建模方面,不管是预锻真金不怕火照旧下流评估,Mamba-3B 模子齐优于同等界限的 Transformer 模子,并能与两倍于其界限的 Transformer 模子相比好意思。

另外他还参与发表了FlashAttention1-3 版块,FlashAttention 被庸碌用于加快 Transformers,也曾使把稳力速率提高了 4-8 倍。

Anyway,回到这项盘问,论文作家 Ted Zadouri 直言:

这仅仅迈向 test-time 推理"理想"架构的第一步!

论文:

https://arxiv.org/abs/2505.21487

代码:

https://github.com/Dao-AILab/grouped-latent-attention

参考勾搭:

[ 1 ] https://x.com/tri_dao/status/1928170648863473892

[ 2 ] https://x.com/gm8xx8/status/1927572103806554262

[ 3 ] https://x.com/tedzadouri/status/1928167296821854363

—  完  —

� �  量子位 AI 主题筹划正在征会聚!迎接参与专题365 行 AI 落地决策,一千零一个 AI 应用,或与咱们分享你在寻找的 AI 产物,或发现的AI 新动向。

� � 也迎接你加入量子位逐日 AI 交流群,一齐来畅聊 AI 吧~

一键体恤 � � 点亮星标

科技前沿进展逐日见

一键三连「点赞」「转发」「谨防心」

迎接在驳倒区留住你的见地!云开体育