威廉希尔WilliamHill·足球(中国)体育官方网站
搜索 猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

清华、上海AI Lab等提出傅里叶位置编码,多项任务远超RoPE

2025-05-12 16:05:52
来源:

猫眼电影

作者:

牛汝极

手机查看

  猫眼电影记者 姬烨 报道w3u7903ejky2ywls

长文本能力对语言模型(LM,Language Model)尤为重要,试想,如果 LM 可以处理无限长度的输入文本,我们可以预先把所有参考资料都喂给 LM,或许 LM 在应对人类的提问时就会变得无所不能。

但是,LM 通常只在较短窗长下进行训练,可能产生过拟合,只学习到指定范围内的位置关系,但是无法理解没学习过的位置关系。为了缓解这个问题,当下最流行的便是引入具有周期性的旋转位置编码(Rotary Position Embedding,RoPE)。由于周期性编码每间隔一定距离就会出现数值重复,所以 LM 可以使用在少数几个周期内学习到的经验泛化到更多的周期当中。

但奇怪的是,使用 RoPE 的 LM 依然难以直接在训练长度之外起效,必须依靠其他算法(如 YARN)来辅助其进行外推。 那么,到底是什么限制了 RoPE 的周期延拓,进而限制了 LM 的长度外推呢?

于是,清华大学讲席教授、上海AI Lab主任/首席科学家周伯文教授的团队对这一问题进行了深入探索,使用傅里叶分析工具解读了使用 RoPE 的 Transformer 模型长文本泛化能力不足的原因之一是 RoPE 带来的周期性延拓受到了频谱破坏的影响。进一步地,该文章提出的傅里叶位置编码(Fourier Position Embedding,FoPE)大幅提升了Transformer的长文本泛化能力。

论文标题:Fourier Position Embedding: Enhancing Attention’s Periodic Extension for Length GeneralizationarXiv 链接:https://arxiv.org/pdf/2412.17739代码链接:https://github.com/TsinghuaC3I/Fourier-Position-Embedding

研究亮点

发现 —— 频谱损坏限制周期延拓

作者们通过观察 RoPE 的公式可以发现,它为 Hidden States 的每一维都指定了单一的频率,并假设这一维度的语义信息按照这个波长影响其他位置的语义。所以,RoPE 周期延拓性的起效前提是 “Hidden States 的每一维只存在单一频率的语义”。如果每一维明明存在不同频率的语义,却仍然按照单一频率的波长来估计这部分语义的传递规律,RoPE 所带来的周期延拓将产生混乱,进而无法实现长文本泛化。

遗憾的是,在使用 RoPE 的 LM 中,这个假设只在 LM 的第一层中成立,但在后面的所有层中都不成立。因为后面的所有层中,每一维中都掺杂了除主频之外的其他频率分量,这个现象可以被称作频谱损坏(Spectrum Damage)。频谱损坏主要有三个来源:① 线性函数;②激活函数;③时域截断。

线性函数

激活函数

这个结论可以通过泰勒展开进行简单证明,也可以任意地推广到存在更多频率的情况。可以看到,经过线性层之后,每一维本就掺杂了多种频率。在经过激活函数之后,这种掺杂会变得更加严重。

时域截断

给定一个被截断为长度N的单频率函数

通过傅里叶变换可以得到(详见文末)这个函数的频谱是:

算法 —— 频域鲁棒性是长文本泛化关键

在以往的研究中,大家普遍认为只有 Attention 才会影响长度外推。但从上面的分析可以看出,整个模型中的线性层、激活函数和时域截断也都会对长度外推产生影响,并且是不利影响(也就是上文提到的频谱损坏)。为了改善频谱损坏对长文本泛化的不利影响,这篇论文提出了傅里叶位置编码(FoPE,Fourier Position Embedding)来提升模型的频域鲁棒性和周期延拓性,进而提升长文本泛化。

FoPE 的核心思想是 “打不过就加入”。考虑到线性层和激活函数可以带来更强的表征能力,时域截断又是受到硬件限制无法改变,FoPE 索性就仍然保留了各层中的频谱损坏,转而提出了对于频谱损坏更加鲁棒的位置编码。鲁棒性的提升主要源于两方面:① 既然每一维中不可避免的混杂其他频率的分量,那就干脆在一开始就把每一维都建模成一个傅里叶级数(Fourier Series)。即使这样的建模不会避免频谱破坏,FoPE 却可以在每一维中解码出更多频率的信息(利用三角函数的正交性);② 既然极低频的分量周期过长,会导致这些频率分量的周期特性无法被学习到,那就将他们裁剪成频率为 0 的直流分量。考虑到直流分量的良好性质(既可以看作周期无限短,又可以看作周期无限长),这个新加入的频率既保证了周期性,又可以让每个词汇的信息向无限远的词汇传递;

综上,FoPE 的公式可以写作:

实验

进一步地,文章在困惑度、大海捞针准确率以及很多下游任务 Benchmark 对不同方法进行了对比,实验发现 FoPE 在这些任务上都有稳定的表现,在绝大多数远超过使用 RoPE 的模型。

潜在影响

论文中使用傅里叶工具得到的分析结论和算法可能存在更广泛的潜在价值,有潜力应用在更多的领域和任务:① AI 领域内:长视频生成、kv-cache 压缩、多模型协同等;② AI 领域外:语义通信、光计算和脑机接口。

作者简介:华尔默,清华大学博士生,研究方向是基础模型的架构设计与训练算法设计,在 ICML、ICLR、NeurIPS、ACL、EMNLP、COLM、AAAI 等顶级会议上发表过论文。

 时事1:白洁与大狼姁1~5TXT下载

  05月12日,(乡村行·看振兴)浙江景宁“红绿融合”生“金” 为乡村幸福生活加码,

  族长大声询问,它是否真的要将子嗣留在这里,结果那头青鳞鹰竟点了点头,而后以目光示意,看向三枚蛋,又看向老柳树。

,纲手裸乳被爆❌白浆AGG。

  05月12日,广西南宁电信网络诈骗立案数同比下降37%浙江立法激励劳动者:高质量发展的“技能点”何以练就?,

  不久后,管事回到一座殿中,坐在了靠椅上,揉了揉太阳穴,气势又盛了,喝道:“来人!”

,流萤被❌黄漫视频,原神仆人裸身被❌羞羞照片,西西人艺体7777777毛茸茸。

 时事2:成人🔞高潮片免费视频喝酒醉

  05月12日,“亲情中华”欢聚约翰内斯堡 庆祝南非华人警民合作中心成立20周年,

  二、狠抓落实,推动农村低保工作全面开展

,小🐔🐔伸进🈲🔞🔞54,杨紫张开腿让我❌了一夜,腹肌裤子拉低看到几几。

  05月12日,上海中小企业成长“秘笈”:深耕“专精特新”、渴望“耐心资本”,  香港《南华早报》6月12日报道称,疫情后,中国兴起出境游热潮。现在,有大批中国游客涌向阿联酋、沙特阿拉伯、埃及、摩洛哥、伊朗、卡塔尔等中东和北非国家,孙伊恩只是其中一员。,小受扒开🍑让人c视频,男人洗澡㊙️露蛋,eseoa雅。

 时事3:脱了邓紫棋内裤猛烈进入小说

  05月12日,特写:近2.3万人在鄂尔多斯“星空”下奔跑,  在缤纷的世界中,无论是个人、群体还是国家,都会面对别人对我们的定义。我们要认真对待“被定义”,明辨是非,去芜存真,为自己的提升助力;也要勇于通过“自定义”来塑造自我,彰显风华,用自己的方式前进。,姬小满被强行张开腿❌,叶山小百合最美丈母娘完整版在线观看,两女双腿交缠激烈磨豆腐在线观看。

  05月12日,【两会30秒】全国人大代表王旭:尊重差异、相信孩子,才能鼓舞孩子的梦想,

  一群人哑然。

,张柏芝被揉摸到高潮下不了床,❤仙桃ck韩国女主播金艺贞,4p嗯啊巨肉寝室调教男男视频。

 时事4:♥免费版本子♥网站太中

  05月12日,山东高温天气持续“在线” 各地多措并举应对“烤”验,

  “噗”的一声,那根宝藤直接炸开,燃成了一片灰烬,这种强势手段惊的一群人目瞪口呆,通体发凉。

,进撃の巨人h版,女仆扒开腿㊙️让男人玩,色情性黄片涩涩涩的视频。

  05月12日,“中华先锋人物故事汇”系列丛书累计推出100种,

  远行的你们请记得一中给你们注入的一切,简单说就是“健康、成长”,也就是希望你们在积极寻求理解他人的文化规范和期望的同时,保持开放向上的心态,即使离开了自身熟悉的环境,也能用所获得的知识有效地进行互动、沟通、学习和工作。

,伊莉雅调教受辱h文,爽死了……舒服死了……好大……好多水……网站,王语纯被❌喷水视频。

责编:张坤

审核:玛丽·安德拉德

责编:林小楠

相关推荐 换一换