威廉希尔WilliamHill·足球(中国)体育官方网站

首页 >新闻 >社会新闻

微软发布首个开源、原生1-bit LLM；再试一次，即可提高LLM搜索能力｜今日热门论文

2025-04-23 01:22:18

来源：

猫眼电影

作者：

马林金

手机查看

　　猫眼电影记者高晓平报道w3u7903ejky2ywls

速览热门论文

1. 微软发布首个开源、原生 1-bit 大语言模型

2. 再试一次，即可提高 LLM 搜索能力

3. Cobra：利用 200 张参考图像实现高效线条着色

4. ActPRM：通过主动学习高效训练 PRM

5. 综述：高效推理模型

1. 微软发布首个开源、原生 1-bit 大语言模型

在这项工作中，微软研究院团队提出了 BitNet b1.58 2B4T——首个开源、原生 1-bit 大语言模型（LLM），参数规模为 20 亿。该模型在包含 4 万亿 token 的语料库中进行了训练，并在语言理解、数学推理、编码能力和会话能力等方面进行了基准评估。

结果表明，BitNet b1.58 2B4T 的性能与同等规模的领先开放权重、全精度 LLM 不相上下，同时在计算效率方面具有显著优势，包括大幅减少内存占用、能耗和解码延迟。

为了促进进一步的研究和应用，他们发布了模型权重以及 GPU 和 CPU 架构的开源推理实现。

论文链接：https://arxiv.org/abs/2504.12285

2. 再试一次，即可提高 LLM 搜索能力

检索增强生成（RAG）提高了大语言模型（LLM）在知识密集型任务中的性能，但这在很大程度上取决于初始搜索查询的质量。当前方法通常使用强化学习，侧重于查询表述或结果推理，而不会明确鼓励在搜索失败后继续搜索。

在这项工作中，Menlo Research 团队提出了一个新的强化学习框架——ReZero（Retry-Zero），其直接奖励初次尝试失败后重试搜索查询的行为。这激励 LLM 探索其他查询，而不是过早地停止。

与 25% 的基线相比，ReZero 取得了 46.88% 的准确率，增强了 LLM 在复杂信息搜索场景中的鲁棒性，在这种场景中，最初的查询可能被证明是不够的。

论文链接：https://arxiv.org/abs/2504.11001

3. Cobra：利用 200 张参考图像实现高效线条着色

漫画制作行业需要基于参考资料的线稿着色，要求精确度高、效率高、上下文一致、控制灵活。漫画页面通常涉及不同的人物、物体和背景，这使得着色过程变得复杂。用于图像生成的扩散模型在线描着色中的应用依然有限，面临着处理大量参考图像、推理耗时和灵活控制等挑战。

在这项工作中，来自清华大学、香港中文大学和腾讯的联合团队研究了大量上下文图像引导对线稿着色质量的必要性。为了应对这些挑战，他提出了一种高效、多用途的方法 Cobra，其支持色彩提示，可利用 200 多张参考图像，同时保持较低的延迟。

Cobra 的核心是因果稀疏 DiT 架构，该架构利用专门设计的位置编码、因果稀疏注意力和键值缓存来有效管理长上下文参考，并确保色彩身份的一致性。结果表明，Cobra 通过广泛的上下文参考实现了准确的线条美着色，提高了推理速度和交互性，从而满足了关键的工业需求。

论文地址：https://arxiv.org/abs/2504.12240

4. ActPRM：通过主动学习高效训练 PRM

过程奖励模型（PRM）为大语言模型（LLMs）提供了阶段级监督，但对于人类和 LLM 来说，扩大训练数据标注仍然是一项挑战。

为了解决这一局限性，来自新加坡国立大学和 Sea AI Lab 的研究团队提出了一种主动学习方法 ActPRM，它可以主动选择最不确定的样本进行训练，从而大大降低标注成本。在训练过程中，他们使用 PRM 估算前向传播后的不确定性，只保留高度不确定的数据。随后，功能更强的推理模型会对这些数据进行标注。然后，他们计算与标注相关的损失，并更新 PRM 的权重。

他们在基于池的主动学习设置中比较了 ActPRM 和 vanilla 微调，结果表明 ActPRM 减少了 50% 的标注，但却实现了相当甚至更好的性能。除了标注效率之外，他们还利用 ActPRM 过滤了 100 多万条数学推理轨迹，保留了 60% 的数据，从而进一步提高了主动训练 PRM 的性能。与同等规模的模型相比，在这一选定数据集上进行的后续训练在 ProcessBench（75.0%）和 PRMBench（65.5%）上产生了 SOTA PRM。

论文链接：https://arxiv.org/abs/2504.10559

5. 综述：高效推理模型

推理模型通过在得出最终答案之前生成扩展的“思维链”（CoT），在解决复杂的逻辑密集型任务方面取得了很大的进展。然而，这种“慢思考”模式的出现，以及依次生成的大量 token，不可避免地带来了大量计算开销。这凸显了对有效加速的迫切需求。

在这项工作中，新加坡国立大学团队旨在全面概述高效推理的新进展，将现有工作分为三个主要方向：（1）更短--将冗长的 CoT 压缩成简洁而有效的推理链；（2）更小--通过知识蒸馏、其他模型压缩和强化学习等技术，开发具有强推理能力的紧凑语言模型；（3）更快--设计高效的解码策略以加速推理。

论文链接：https://arxiv.org/abs/2504.10903

整理：学术君

如需转载或投稿，请直接在公众号内留言

时事1：女被❌c🐻黄扒衣服一区二区

04月23日,黄河壶口瀑布迎来2024年首场降雪,

　　大家心里应当明白，这些行为是不对的。古人说：“人无德不立”。一个小学生是否爱护公共设施，从小处反映了一个人的良好品质，从大处反映了国家的礼貌程度。为了使我们的国家更加美丽，为了使我们的孝义更加美丽。期望同学们作到：看见赃物捡起来，看见踩踏草坪的去阻止，不破坏公物……从我做起，从此刻做起，从小事做起。

,把下面扒开我教你自慰。

04月23日,美国学者：创新活力十足中国经济增长前景“非常乐观”,

　　“祖爷爷，我是当年的那个孩子，看你来了！”小不点哽咽，通过柳神看到了当年的事，知道几名被放逐在这里的老人对他们一家极好，旁边那个孩子就是他们弄出来代替他的。

,王心凌AV裸体无码,美女被猛网站VR,扒开雏田❌狂揉naruto堂。

时事2：小哈宝调mvk

04月23日,湖南祁阳种粮农户青睐智能农机备春耕,

　　“走吧，不然那头大虫子又要杀来了。”小不点翻身上马，他相信，这样连续几日，那头大虫不眠不睡的追赶，早晚会疲倦而放弃。

,15男生下面发育图片,小武与妈妈1~9节,最美情侣视频的免费观看。

04月23日,新雪季邀请您来吉林赴一场冰雪之约,

　　它双翅一展，狂风呼啸，许多射过来的重箭与铁矛都被崩飞了，当当作响，火星乱冲，而后它昂首长鸣，眼中凶光大盛，振翅而飞，向着众人扑杀了过去。

,小南光着屁股撅起来被打图片,欧美专干大屁股眼A片,美女挤奶㊙️。

时事3：frisk被强行扒开双腿玩弄漫画

04月23日,“等墟”买年货侨乡台山旧俗迎新年,

　　“赶紧带着蛋走吧！”有人大呼，像是送瘟神一般。

,国产TS系列变性TS阿茶,虽然很笨但是很擅长动漫在线观看,欲漫涩入口免费❤网站。

04月23日,重庆一教师在餐馆酒后咬伤学生耳朵警方：行拘10日,

　　“这死孩子！”中年人愤愤，差点暴走。

,扒掉乳罩㊙️露出奶头原神,火影忍者天天被强❌图网站,无码人妻一区二区三区。

时事4：国产❌❌❌高潮

04月23日,习近平对云南昭通市镇雄县山体滑坡作出重要指示要求全力搜救失联人员防范发生次生灾害切实保障人民群众生命财产安全,

　　黄金狮子般的老人猛力掷出，将少妇摔在了对面的墙上，发出一声巨响，震落下很多石块，让她好半天都没站起身来。

,美女的私密㊙️视频偷拍,windows18-HD-20,白丝疯狂❌️自慰爽18禁。

04月23日,李家超携香港特区政府两名新任局长会见媒体,

　　他像是一个魔神，催动各种骨文与宝术，前方尸体成片大倒下，各种生灵的血溅起很高，落在其身上，早已成为了一个血人。

,美女的拉屎隐私㊙️网站,罗宾巨胸爆乳露双奶头被❌,adn384。

【广东省广物控股集团有限公司党委书记、董事长方启超被查】

【中国气象局：多手段保证国家温室气体观测站网提质增效】

责编：安晓光

审核：孔星隆

责编：于青山