念念挑战 Transformer 的新架构有许多在线av 无码,来自谷歌的"正宗"秉承者 Titan 架构更受柔和。
英伟达把测试时刻筹划(Test-time Computing)称为大模子的第三个 Scaling Law。
OpenAI 把它用在推理(Reasoning),谷歌此次把它用在了牵记(Memory)。
一作Ali Behrouz默示:
Titans 比 Transformers 和当代线性 RNN 更高效,况且可以有用地延迟到擢升 200 万高下文窗口,性能比 GPT4、Llama3 等大模子更好。
他还解释了这篇盘考的动机,团队觉得 Transformer 中的把稳力机制弘扬为短期牵记,因此还需要一个能记着很久以前信息的神经牵记模块。
提到牵记,全球可能会念念到 LSTM、Transformer 等经典模子,它们从不同角度模拟了东谈主脑牵记,但仍有局限性:
要么将数据压缩到固定大小的隐气象,容量有限
要么可以捕捉长程依赖,但筹划支出随序列长度闲居级增长
况且,只是记着教养数据在实践使用时可能莫得匡助,因为测试数据可能在散播外。
为此,Titans 团队筹划将往常信息编码到神经采集的参数中,教养了一个在线元模子(Online meta-model),该模子学习如安在测试时记着 / 健忘特定数据。
他们从神精神气学中收受灵感,想象了一个神经永久牵记模块,它鉴戒了东谈主脑旨趣:
猜测除外的事件(即"惊喜")更容易被记着。
惊喜进度由牵记模块对输入的梯度来推断,梯度越大线路输入越出东谈主猜测。
引入动量机制和渐忘机制,前者将短期内的惊喜积攒起来酿成永久牵记,后者可以擦除不再需要的旧牵记,驻防牵记溢出。
牵记模块由多层 MLP 构成,可以存储深档次的数据概述,比传统的矩阵牵记更雄壮。
这种在线元学习范式,幸免了模子记着毋庸的教养数据细节在线av 无码,而是学到了怎么把柄新数据调度我方,具有更好的泛化才气。
另外,团队还考证了这个模块可以并行筹划。
怎么将这个雄壮的牵记模块融入深度学习架构中呢?
为此,Titans 建议了三种变体:
MAC,牵记算作高下文
将永久牵记和握久牵记(编码任务知识的不变参数)算作面前输入的高下文,一谈输入给 attention。
MAG,牵记算作门
在牵记模块和滑动窗口 attention 两个分支上进行门控和会。
MAL,牵记算作层
2018国内自拍在线视观看将牵记模块算作寂然的一层,压缩历史信息后再输入给 attention。
在实验中,发现每种法式皆有我方的优盘曲。
Titans 在讲话建模、学问推理、时刻序列推断等任务上全面非凡 Transformer 和 Mamba 等各路架构的 SOTA 模子。
况且仅靠永久牵记模块(LMM,Long-term Memory Module)自身,就在多个任务上打败基线。
解释了即使莫得短期牵记(也即是 Attention),该机制也具备寂然学习的才气。
在长文本中寻找细粒度痕迹的"大海捞针"测试中,序列长度从 2k 增多到 16k,准确率保握在 90% 傍边。
但团队觉得,这些通用的测试依然体现不出 Titans 在长文本上的上风。
在另一项需要对散播在极长文档中的事实作念推理的任务中,Titans 弘扬擢升了 GPT4 、Mamba 等,以及 Llama3.1 + RAG 的系统。
另外皮时刻序列推断、DNA 序列建模等特定任务中,Titans 也获得可以的弘扬。
三位作家来自 Google Research NYC 算法和优化团队,当今还没被统一到 Google DeepMind。
一作是 Ali Behrouz 来自康奈尔大学的实习生。
钟沛林是清华姚班学友,博士毕业于哥伦比亚大学,2021 年起加入谷歌任盘考科学家。
2016 年,钟沛林本科工夫的一作论文被顶会 STOC 2016 给与,是初度有中国脉科生在 STOC 上发表一作论文。
领队的 Vahab Mirrokni 是 Google Fellow 以及 VP。
团队默示 Titians 是用 Pytorch 和 Jax 中完了的,筹划很快提供用于教养和评估模子的代码。
论文地址:
https://arxiv.org/abs/2501.00663v1
参考蚁集:
[ 1 ] https://x.com/behrouz_ali/status/1878859086227255347在线av 无码