威廉希尔WilliamHill·足球(中国)体育官方网站
搜索 猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

微软发布首个开源、原生1-bit LLM;再试一次,即可提高LLM搜索能力|今日热门论文

2025-04-22 18:01:48
来源:

猫眼电影

作者:

郭昊瑜

手机查看

  猫眼电影记者 刘成友 报道w3u7903ejky2ywls

速览热门论文

1. 微软发布首个开源、原生 1-bit 大语言模型

2. 再试一次,即可提高 LLM 搜索能力

3. Cobra:利用 200 张参考图像实现高效线条着色

4. ActPRM:通过主动学习高效训练 PRM

5. 综述:高效推理模型

1. 微软发布首个开源、原生 1-bit 大语言模型

在这项工作中,微软研究院团队提出了 BitNet b1.58 2B4T——首个开源、原生 1-bit 大语言模型(LLM),参数规模为 20 亿。该模型在包含 4 万亿 token 的语料库中进行了训练,并在语言理解、数学推理、编码能力和会话能力等方面进行了基准评估。

结果表明,BitNet b1.58 2B4T 的性能与同等规模的领先开放权重、全精度 LLM 不相上下,同时在计算效率方面具有显著优势,包括大幅减少内存占用、能耗和解码延迟。

为了促进进一步的研究和应用,他们发布了模型权重以及 GPU 和 CPU 架构的开源推理实现。

论文链接:https://arxiv.org/abs/2504.12285

2. 再试一次,即可提高 LLM 搜索能力

检索增强生成(RAG)提高了大语言模型(LLM)在知识密集型任务中的性能,但这在很大程度上取决于初始搜索查询的质量。当前方法通常使用强化学习,侧重于查询表述或结果推理,而不会明确鼓励在搜索失败后继续搜索。

在这项工作中,Menlo Research 团队提出了一个新的强化学习框架——ReZero(Retry-Zero),其直接奖励初次尝试失败后重试搜索查询的行为。这激励 LLM 探索其他查询,而不是过早地停止。

与 25% 的基线相比,ReZero 取得了 46.88% 的准确率,增强了 LLM 在复杂信息搜索场景中的鲁棒性,在这种场景中,最初的查询可能被证明是不够的。

论文链接:https://arxiv.org/abs/2504.11001

3. Cobra:利用 200 张参考图像实现高效线条着色

漫画制作行业需要基于参考资料的线稿着色,要求精确度高、效率高、上下文一致、控制灵活。漫画页面通常涉及不同的人物、物体和背景,这使得着色过程变得复杂。用于图像生成的扩散模型在线描着色中的应用依然有限,面临着处理大量参考图像、推理耗时和灵活控制等挑战。

在这项工作中,来自清华大学、香港中文大学和腾讯的联合团队研究了大量上下文图像引导对线稿着色质量的必要性。为了应对这些挑战,他提出了一种高效、多用途的方法 Cobra,其支持色彩提示,可利用 200 多张参考图像,同时保持较低的延迟。

Cobra 的核心是因果稀疏 DiT 架构,该架构利用专门设计的位置编码、因果稀疏注意力和键值缓存来有效管理长上下文参考,并确保色彩身份的一致性。结果表明,Cobra 通过广泛的上下文参考实现了准确的线条美着色,提高了推理速度和交互性,从而满足了关键的工业需求。

论文地址:https://arxiv.org/abs/2504.12240

4. ActPRM:通过主动学习高效训练 PRM

过程奖励模型(PRM)为大语言模型(LLMs)提供了阶段级监督,但对于人类和 LLM 来说,扩大训练数据标注仍然是一项挑战。

为了解决这一局限性,来自新加坡国立大学和 Sea AI Lab 的研究团队提出了一种主动学习方法 ActPRM,它可以主动选择最不确定的样本进行训练,从而大大降低标注成本。在训练过程中,他们使用 PRM 估算前向传播后的不确定性,只保留高度不确定的数据。随后,功能更强的推理模型会对这些数据进行标注。然后,他们计算与标注相关的损失,并更新 PRM 的权重。

他们在基于池的主动学习设置中比较了 ActPRM 和 vanilla 微调,结果表明 ActPRM 减少了 50% 的标注,但却实现了相当甚至更好的性能。除了标注效率之外,他们还利用 ActPRM 过滤了 100 多万条数学推理轨迹,保留了 60% 的数据,从而进一步提高了主动训练 PRM 的性能。与同等规模的模型相比,在这一选定数据集上进行的后续训练在 ProcessBench(75.0%)和 PRMBench(65.5%)上产生了 SOTA PRM。

论文链接:https://arxiv.org/abs/2504.10559

5. 综述:高效推理模型

推理模型通过在得出最终答案之前生成扩展的“思维链”(CoT),在解决复杂的逻辑密集型任务方面取得了很大的进展。然而,这种“慢思考”模式的出现,以及依次生成的大量 token,不可避免地带来了大量计算开销。这凸显了对有效加速的迫切需求。

在这项工作中,新加坡国立大学团队旨在全面概述高效推理的新进展,将现有工作分为三个主要方向:(1)更短--将冗长的 CoT 压缩成简洁而有效的推理链;(2)更小--通过知识蒸馏、其他模型压缩和强化学习等技术,开发具有强推理能力的紧凑语言模型;(3)更快--设计高效的解码策略以加速推理。

论文链接:https://arxiv.org/abs/2504.10903

整理:学术君

如需转载或投稿,请直接在公众号内留言

 时事1:女人A一级

  04月22日,23人被问责 山西公布增子坊煤矿一般机电事故调查报告,

  这是一幅可怕的画面,这头蛟能有水缸那么粗,长达数十米,浑身鳞片密布,长有一对巨翅,雄壮而武猛,但是却被一条纤细的柳枝钉在半空,一动不能动,很诡异!

,美女又爽又黄免费蘑菇。

  04月22日,蓝厅观察丨英国学者力证中国对南海诸岛拥有无可争辩的主权,

  最后,他承受不住,什么都说了,如实道来。

,小🐔🐔伸进🈲🔞🔞原神,18禁茉莉成人久久,三男一女囗交三A片。

 时事2:95久久久久精品无码一区二区

  04月22日,江西南昌迎2024年初雪 全城银装素裹美如画,

  他有足够的底气,因为族中那头金色的神狼来了,这是五万里内最强大的一头祭灵,活了很漫长的岁月。族主也许不是这片土地上的第一高手,但是这头金色的神狼却可以在各大族的祭灵中称尊!

,敌伦交换一区二区三区的背景故事,男人的🍌伸到🍑里www,AnnyWallker在线视频。

  04月22日,全国充电基础设施保有量达1188.4万台,

  在其身边,有一个二十几岁的年轻人,英气逼人,也有两名十几岁的少女,美的如同画卷中走出的一般,还有两个很幼小的男童,大眼很灵动。

,嗯∽啊~轻点禁🔞视频下载,青楼唐舞桐撅起屁股求调教图片,军训教官解开裤裆吃我j男男视频。

 时事3:天体舞全集在线播放

  04月22日,“我想交些法国朋友”——中国童声合唱团赴法交流 体验法国音乐风情,

  兽潮淹没小孤山镇,一群凶兽冲向前去,撕咬那块密布有符文的巨石,铿锵作响,石屑纷飞。巨石发光,震出一股磅礴大力,接连冲撞,噗噗声传来,转眼间一片猛兽被砸成了肉泥,鲜血飞溅。

,戴着口球和分腿器被C小说,动漫男被❌c🐻扒衣服做小电影,国精产品㊙️福利姬。

  04月22日,重庆姐弟坠亡案两名罪犯被执行死刑 母亲“心中石头终落地”,

  神,这个词可不能乱用,对于一般的部族来说,代表了无所不能,至高无上!

,蒂法被爆❌羞羞,性无尽3d❌❌❌❌同人,竹菊影视一二三四www。

 时事4:成人免费ppt网站

  04月22日,30名“匠心杯”优胜选手获“全国技术能手”称号,

  (四)促进景区与城区的互动,解决好城市产业体系培育的问题。景区建设为城市建设增添动力,城镇建设为景区建设提供保障,这是未来张掖城镇化发展的鲜明特色。我们把景区建好了,来的游客多了,观光在景区,消费在城市,服务业也就发展起来了。城市基础设施搞好了,酒店、餐饮、娱乐等产业配套了,就可以为游客提供更好的环境和服务。各县区在景区建设中既要考虑通过景区来促进城区,又要考虑通过城区来服务景区,让城区建设为景区发展提供保障。要考虑景区与城区的功能互补、景区与城区的交通连接、景区与城区发展的相互促进,通过景区与城区的互动,把宜居宜游的产业发展起来。

,动漫👅奶头张开腿被❌的小说,小三又大又骚弄得好爽,二次元cos被❌到爽羞小说。

  04月22日,焦点访谈:微改造 让城市更精致,

  “难道是那群人……危机来了。”族长咳嗽,手抚胸口,想到了当年的事,一群兄弟一起去外面闯荡,结果只有他一个人活着逃回来。

,S双主调∨k,www.www🉐吃,18已经准备好卫生纸。

责编:唐方方

审核:佟丽华

责编:韩娜

相关推荐 换一换