1000000000！微软改进Transformer一次能记住这么多token了-- 迪族网

1000000000！微软改进Transformer一次能记住这么多token了

来源：量子位　2023-07-08 13:43:38

丰色发自凹非寺
量子位 | 公众号 QbitAI

微软亚研院最新研究，有点震撼：

【资料图】

他们开发了一个Transformer变体，居然将其token拓展到了 10亿 。

什么概念？

目前最强的GPT-4也才最大支持一次处理 32k token，相当于50页文字。

而能够只用1分钟看完一本数万字小说的Claude，其token数也不过“才” 100k （10万）。

一次性扩展到10亿，并且这个数字理论上其实还是无限的，这不就意味着：

不久的将来， 整个语料库甚至互联网 都能视为一个序列？

若真如此，简直不敢想象。

大预言模型时代，扩展序列长度已成为一大关键需求。

然而，现有的方法要么难以解决计算复杂性，要么搞不定模型表达力，导致长度很受限。

在此，作者提出一个Transformer变体：LongNet，它应用了一种叫做“膨胀注意力（dilated attention） ”的机制，可以随着距离的增长，让注意力场（模型感知范围）呈指数级扩展。

具体而言， dilated attention 替代了普通Transformer中的注意力机制的，其一般的设计原则是：

让注意力的分配随着token之间距离的增长，呈指数级下降。

如下图构建块所示，dilated attention由一系列用于建模短期和长期依赖关系的注意力pattern组成。pattern的数量可以根据序列长度进行扩展。

实验证明，dilated attention能够产生线性计算复杂度和token之间的 对数依赖性 ，从而解决了注意力资源有限，但每一个token都可访问的矛盾。

除此之外，作者还引入了多头dilated attention。如下图所示，不同头之间的注意力pattern会因位置的连续变化而不同。

在最终实现中，LongNet可转换为密集的Transformer，从而 无缝集成 Transformer现有的优化方法（比如内核融合、量化和分布式训练）。

而利用线性复杂度，LongNet还可以 跨节点并行训练 ，利用分布式算法打破计算和内存的限制。

如下图所示，LongNet通过划分序列维度在两个GPU上进行并行化训练。随着设备数量的增长，计算和通信成本几乎仍然是不变的。

因此，这使得LongNet可以在几乎恒定的运行时间内有效地将序列长度扩展到10亿token （同时无需牺牲较短序列的性能）。

相比之下，普通Transformer还在受困于二次复杂度带来的影响。

作者将LongNet与普通Transformer和稀疏Transformer进行了比较。

三者之间的体系结构差异只体现在注意力层，模型的序列长度都从2K扩展到 32K ，同时减少batch size以保持每个batch的token数量不变。

对于LongNet，作者使用w＝{2048,4096,8192,16384,32768}的分段长度，同时扩张比率为r＝{1,2,4,6,12}，并实现了稀疏注意力的固定模式，再将稀疏比进行调整为匹配LongNet的计算flops，从而使实验公平。

（由于计算限制，只能将LongNet扩展到32K序列长度）。

下表为以上三个模型在Stack数据集上的结果，衡量指标是困惑度，测试了每个模型不同的序列长度。

当输入长度超过模型支持的最大长度时，作者就使用一种最先进的语言模型推理外推方法：分块因果注意（BCA）。

此外，还去除了绝对位置编码。

结果表明：

首先，在训练过程中增加序列长度一般会得到效果更好的语言模型。

其次，在长度远大于模型支持的情况下，序列长度外推法（推理时）并不适用。

最后，可以看到，LongNet的每一项数据都优于其他两个基线，证明了它在语言建模方面的有效性。

除此之外，作者还证明，在扩展语言模型上下文长度时，LongNet也是一种更有效的方法。

不少人看完这项成果总结道，说来说去，还是“memery is all you need” （手动狗头）

有点厉害！非常希望它是真的且可复现。

不过，也不乏争议。

比如有人吐槽实验只将LongNet扩展到了32k长度，离10亿还差的远呢。

还有不少人称，方法不算很创新，其实就跟稀疏注意力模式差不多。

本论文作者7位，全部来自微软亚研院。

两位共同一作：

Jiayu Ding ，微软亚研院实习生，本硕毕业于北京邮电大学计算机科学专业；

马树铭 ，微软亚研院自然语言计算组研究员，2019年加入，本硕毕业于北京大学。

通讯作者为 Furu Wei ，微软亚研院自然语言计算组全球研究合伙人，博士毕业于武汉大学，曾任IBM中国研究院研究员、香港理工大学电子计算系研究助理。

论文地址： /abs/

参考链接： [1]/arankomatsuzaki/status/1676765133362675712 [2]/AlphaSignalAI/status/1677009901334192143?s=20 [3]/r/LocalLLaMA/comments/14rym30/longnet_scaling_transformers_to_1000000000_tokens/

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一时间获知前沿科技动态

关键词：

推荐DIY文章

主机存在磨损或划痕风险 PICO4便携包宣布召回

穿越湖海！特斯拉Cybertruck电动皮卡可以当“船”用

vivoXFold+折叠旗舰开售配备蔡司全焦段旗舰四摄

飞凡R7正式上市全系标配换电架构

中兴Axon30S开售拥有黑色蓝色两款配色

荣耀MagicBookV14 2022正式开售搭载TOF传感器

华硕无双上新新增指纹识别模块和键盘背光

曝爱彼迎联合创始人加入特斯拉董事会自愿放弃现金薪酬

联想YOGAPro14si9版将开启预售搭载i9-12900H处理器

RTX4090发布：性能提升高达2倍功耗保持450W

一加NordWatch智能手表官宣采用矩形表盘

小米米家智能枕开启众筹内置智能压电传感器可捕捉心跳

1000000000！微软改进Transformer一次能记2023-07-08
参观北大图书馆北华大学图书馆举办两个重2023-07-08
蚂蚁链发布零知识证明技术架构可满足数据2023-07-08
京津冀旅游集团签署协议！旅游酒店复苏可期2023-07-08
科学家揭示“野火烧不尽，春风吹又生”自然2023-07-08
俄乌冲突，北约与联合国立场分歧：乌克兰“2023-07-08
外媒：ASML光刻机上演“大结局”！2023-07-08
不是小米14 MIUI 15将由Redmi Note13首发2023-07-08
NewOrigin大模型：一键定制蛋白药物！2023-07-08
LCK网友讨论LPL，各战队数据图公布，JDG和B2023-07-08
壁仞科技系统架构副总裁丁云帆曾获百度技术2023-07-08
记忆大脑放松学习官网在哪下载最新官方下2023-07-08
巴法络官网（巴法络）2023-07-08
加拿大森林火灾过火面积已达9万平方公里2023-07-08
扎哈罗娃：法国援乌武器出现在法抗议者手中2023-07-08
马刺夏联主帅：文班要应对场外的事&只是首2023-07-08
饮用水锰超标可以通过煮沸（饮用水锰超标怎2023-07-08
我们如何感知时间？2023-07-08
坤鹏论：苏格拉底学派（四）2023-07-08
荣耀Magic V2对战iPhone152023-07-08
不同定位不同需求，荣耀新机饰演完美影音手2023-07-08
行业首例！太平洋保险与OceanBase完成全险2023-07-08
洋河股份总裁钟雨59岁离法定退休年龄还有12023-07-08
卓著卓越创造天翼数字生活2.0新精彩2023-07-08
达安基因副总张斌当过车间工人去年年薪5332023-07-08
7月8日晚7点，全国大学生数学建模竞赛20222023-07-08
多家头部公募宣布旗下主动权益产品管理费率2023-07-08
我的世界工业时代2mod铱钻头有什么用2023-07-08
我的世界工业时代2mod风力计有什么用2023-07-08
我的世界工业时代2mod拟态板有什么用2023-07-08

1000000000！微软改进Transformer一次能记住这么多token了

新闻排行

精彩推荐

综合信息