本文作者李宏康,博士毕业于美国伦斯勒理工大学,本科毕业于中国科学技术大学,并即将前往宾夕法尼亚大学担任博士后研究员。研究方向包括深度学习理论、大语言模型理论等等。本文的通讯作者为伦斯勒理工大学的汪孟教授。
任务向量(task vector)方法近来在许多视觉和语言任务中表现出了在效率与可迁移性方面的优势。但是由于人们尚未深入理解任务向量的理论机制,其在更广泛与更大规模的应用中面临挑战。
近期,一个来自美国伦斯勒理工大学、密歇根州立大学 OPTML 实验室、和 IBM 研究院的研究团队从神经网络的优化和泛化理论的角度分析了任务向量在模型编辑中的有效性。该工作已经被 ICLR 2025 录取,并被选为前 1.8% 的 Oral 论文。
论文标题:When is Task Vector Provably Effective for Model Editing? A Generalization Analysis of Nonlinear Transformers论文地址:https://openreview.net/pdf?id=vRvVVb0NAz
背景介绍
任务向量(task vector)是指微调得到的模型与预训练模型之间的权重差值。人们发现,将不同的任务向量进行线性算术运算后叠加在一个预训练模型上可以直接赋予此模型多种全新的能力,例如多任务学习(multi-task learning)、机器遗忘(machine unlearning)、以及分布外泛化(out-of-domain generalization),其优势是无需使用下游任务的训练数据对模型进行微调。
这种基于任务向量的直接运算对模型进行编辑从而做下游任务预测的方法被称为任务运算(task arithmetic)。
由于缺乏对该方法的理论研究,本文重点探索任务向量方法能够被有效且高效使用的深层原因。我们的贡献如下:
我们为任务加法和减法运算的有效性提供了一个特征学习的理论分析框架。我们给出了任务运算在分布外泛化的理论保证。解释了任务向量的低秩近似和模型剪枝的理论机制。
初步观察
我们从一个简单的问题出发:组合多个任务向量的系数会受到哪些因素的影响?
直觉告诉我们,任务间的关系可能是一个关键因素。比如说,在多任务学习中,让一个模型具备两个相似任务的能力,理应是更容易的。
为了论证这一点,我们用 Colored-MNIST 数据集构建了一组二分类实验。其中,分类的标准是数字的奇偶性。我们通过调整数字的颜色来控制任务之间的关系。
于是,我们设计了「相似任务」(aligned tasks)、「无关任务」(irrelevant tasks)、「相反任务」(contradictory tasks) 的任务关系。
根据上图所示的实验结果,我们有以下观察:
在多任务学习和机器遗忘的实验中,最佳的任务运算系数会随着给定的任务向量间的关系的不同而改变。在分布外泛化的实验中,目标任务与给定任务的正反相关性可以被最佳的任务运算系数的正负性反映出来。
以上的两点发现引向了一个重要的研究方向:任务关系会如何影响任务运算。
理论分析
我们在二分类问题的设定下研究该问题。我们以一层单头的带有 softmax attention 的 Transformer 为理论分析的基本模型,用 Ψ 来表示所有权重参数的集合,其中包括 attention 层的参数 W 以及 MLP 层的参数 V。仿照许多特征学习(feature learning)的理论工作,我们做如下的数据建模:定义 μ_T 为当前任务的 discriminative pattern。数据 X 中的每一个 token 都是从 μ_T、-μ_T 以及无关的 pattern 中选择的。如果对应于 μ_T 的 token 个数多于 -μ_T 的个数,那么 X 的标签 y=1。如果对应于 -μ_T 的 token 个数多于 μ_T 的个数,那么 X 的标签 y=-1。
接下来我们给出使用两个任务向量进行多任务学习和机器遗忘的理论结果。
定理 1的结果表明:当两个任务是相似的关系的时候,将任务向量叠加可以得到理想的多任务学习性能,即泛化误差在两个任务上都达到 ϵ。
定理 2的结果表明:当两个任务是相反关系时,用 T_1 的任务向量减去 T_2 的任务向量可以得到理想的机器遗忘性能,即 T_1 的泛化误差达到ϵ,而 T_2 的泛化误差较大。
定理 3的结果表明:总是存在一组 λ_i,使得融合多个任务向量得到的模型可以在目标任务 T' 上取得理想的泛化性能。
我们还在理论上论证了对任务向量进行高效应用的方法。在我们的一层 Transformer 以及二分类问题的框架下,我们得出了推论 1:任务向量可以被低秩近似,同时只会造成很小的预测误差。这意味着人们可以将各种低秩训练和推断方法用在任务向量中,从而大大节省任务向量的计算和存储开销。
我们还可以得到推论 2:训练得到的任务向量在 MLP 层中的部分神经元权重较大,而剩余的神经元权重很小。对这些小的神经元进行剪枝只会引起很小的误差,从而使得前面所有定理依然成立。这个推论为对于任务向量进行权重剪枝与稀疏化提供了理论保障。
实验验证
我们下图的结果表明:实验中得到的能够带来出色的分布外泛化性能的 λ_1,λ_2 区域(图 A 的红色部分)与定理 3 中证明得到的(图 B 的红色部分)一致。
我们接下来用 Phi-3-small (7B) 模型对任务向量在机器遗忘中的表现进行验证,所使用的数据集为《哈利波特 I》(HP1),《哈利波特 II》(HP2),《傲慢与偏见》(PP)。其中,由于出自相同的作者 J.K. 罗琳,《哈利波特 I》与《II》的语义相似度较高,而《傲慢与偏见》与另外两个数据集不太相似。
总结
本文定量证明了如何根据任务间关系确定任务运算系数,从而实现理想的多任务学习、机器遗忘、以及分布外泛化的方法,解释了使用低秩和稀疏任务向量的可靠性。本文的理论通过实验得到了验证。
《性做爰A片春欲》,《w3u7903ejky2ywls》不尊重女生的游戏
“男生露出🐔🐔给别人看动漫”
chinese+老头+自慰+old+man
……
04月24日
“成任🔞va视频在线观看”马宁孙兴慜交流判罚
↓↓↓
04月24日,两岸山东乡亲云端庆新年 书香墨韵传乡音,孟子义被cao到高潮,被强制禁欲的圣女巴比伦安卓,91禁漫♥H网站,高清🈚码🔞❌♋动图
04月24日,台退将吁“驱逐‘台独’” 国台办:展现黄埔人对统一的执着追求,女仆扒开🍑让客人用藤条打,交videos老少配残疾,吹雪泄欲h文龙卷,火辣御妇被❌到高潮喷出www
04月24日,重庆:“警景”联动 创意宣传共筑交通安全防线,日本XXXXXXⅩ泡妞视频冫,美女露%100的奶头无挡动态软件,91丨PORN丨丝袜高跟,91⭕️自慰白浆漫画
04月24日|第九届中国校园戏剧节在成都开幕 11天24台演出轮番上演|羞羞漫画❌喷水漫画yy漫画|三级小说肥水不流外人田性欲很强大的留守肥婆|老师胸乳动漫网站|成人做爰69片免费看的注意事项
04月24日|这里的文化消费热辣滚烫|免费啪啪A片AAAA片老太婆交|人獸交XXXX乱女A片免费看|美女裸体❌开腿羞羞吞精视频|主人请主人打烂贱狗耳光视频
04月24日|龟兹文化“刻”入铜器 新疆匠人兄弟传承老手艺|91 黑料 精品 国产|精品亚洲自慰AV无码喷奶水|好大好软揉弄杨幂|成人扒开🍑伸进🍌❌17c……
04月24日,各方合力助推我国财商素养教育更好落地,❤️国产嫩草影院,同学的家长3,国产➕麻豆➕四次侮辱性内测,14学生裸体穿白丝袜的图片
04月24日,澳门妇联学校副校长:加强澳桂师资交流 提高国安教育水平,同桌乖~腿打开一点我轻一点,倪萍婬肉泬第47集,布洛妮娅裸体❌开腿本子,美女裸体视频㊙️
04月24日|国足小组赛次战 首发阵容面临调整|成人精品一区二区三区A片用毒蛇|性裸交调节男仆|大胸色情美女爆乳❌写真|伊丽莎白奥尔森露双奶头
04月24日,【奋力谱写中国式现代化新篇章——习近平总书记今年以来治国理政纪实】着眼中国式现代化建设全局 共谱发展协奏曲,西施被爆❌吸乳羞羞视频,嗯~啊~乖~进去了唔哼嗯哈,扒开美女❌狂揉❌樱花岛,原神涩涩同人爽网站
04月24日,中新健康丨“围炉煮茶”存一氧化碳中毒隐患 有意识早发现是关键,女人蹲便偷拍pooping,好大用力深一点高潮91,揉啊嗯~出水了震动器韩漫,禁漫🍆🍑🔞❌❌❌动漫游戏
04月24日,习近平会见尼泊尔总理奥利,小心🐤入🍑🍑绅士黄油游戏,China国产男男Gay网站,777色婷婷AV一区二区三99,透明内裤被🐔巴撑起的漫画
04月24日|浙江天气将进入“渐冻模式” 下周将迎今年初雪|成人直播❌❌❌|黄色视频直播|日本护士吞精囗交视频荔枝|裸体3d初音未来被❌到爽
04月24日|2024全球首发节时尚美妆专场启幕 打造“美丽经济”|marlerbrinx欧美激情|国产jy❌❌❌❌|九一影院|原神钟离同人动漫
04月24日|国产机器人准确答出2022年世界杯冠军得主 外国驻华使节拍手叫好|打屁股无内裤㊙️网站|雏田爆乳被秘视频3D|原神温迪🔞同人漫画|欧美人与禽ZOZZO禽性配吗?
人人影视将开源全部字幕文件及数据,仙剑奇侠传三|1000万元 安徽首单数据知识产权质押融资落地|女性隐私免费观看视频的软件|已满18点此进入i31|免费自慰✅动漫网站|男士勃起真实图片
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺