威廉希尔WilliamHill·足球(中国)体育官方网站
搜索 猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

字节新推理模型逆袭DeepSeek,200B战胜671B,豆包史诗级加强_

2025-04-21 09:22:12
来源:

猫眼电影

作者:

鲁新红

手机查看

  猫眼电影记者 王庆林 报道w3u7903ejky2ywls

梦晨 发自 凹非寺量子位 | 公众号 QbitAI

字节最新深度思考模型,在数学、代码等多项推理任务中超过DeepSeek-R1了?而且参数规模更小。

同样是MoE架构,字节新模型Seed-Thinking-v1.5有200B总参数和20B激活参数。

对比DeepSeek-R1的671B总参数和37B激活参数,可以算得上轻量级了。

目前,完整的技术报告已公开发布,其中揭示了诸多秘诀。

字节Seed团队聚焦大规模强化学习,并从三个角度提升了推理表现:数据、RL算法和RL基础设施。

可验证与不可验证问题

从数据开始说起,字节团队把RL训练数据分为两个部分,具有明确答案的可验证问题和没有明确答案的不可验证问题,采用不同的奖励建模方法。

这其中,模型的推理能力主要来自可验证问题,并可以推广到不可验证问题。

可验证问题包括问题与答案配对的STEM问题、附带单元测试的代码问题,以及适合自动验证的逻辑推理问题(24点、迷宫、数独等)。

不可验证问题主要包括根据人类偏好评估的非推理任务,如创意写作、翻译、知识QA、角色扮演等。

对于不可验证问题,字节团队丢弃了样本分数方差低、难度低的数据。此类数据可能过于简单或已在数据集中大量表示。离线实验表明,过度优化此类样本会导致模型的探索空间过早崩溃并降低性能。

此外,团队还打造了全新数学推理评测集BeyondAIME。

当前的推理模型通常使用AIME作为评估数学推理能力的首选基准,但该基准每年只发布30个问题,有限的规模可能会导致高方差的评估结果,难以有效区分最先进的推理模型。

字节与数学专家合作,根据既定的比赛形式开发原创问题。通过结构修改和情景重新配置来系统地调整现有的比赛问题,确保不会发生直接重复。此外还确保答案不是容易猜的数值(例如问题陈述中明确提到的数字),以减少模型在没有适当推理的情况下猜出正确答案的机会。

RL算法

强化学习虽然强大,但训练起来也很不稳定,经常崩溃。

字节在技术报告中提到”有时,两次运行之间的分数差异可能高达10分”。

针对这个问题,团队提出了VAPO和DAPO两个RL框架,分别从基于价值和无价值的RL范式出发来稳定训练。

VAPO和DAPO两篇论文都已单独发布。

此外,在Seed-Thining-v1.5中,还借鉴了之前学术界工作中的很多关键技术:

价值预训练(Value-Pretraining),保证价值网络和策略网络一致解耦的GAE(Decoupled-GAE),让两个网络更独立高效长度自适应GAE(Length-adaptive GAE),更好处理不同长度序列解耦PPO损失(Clip-Higher),为低概率token的增长创造,了更多空间鼓励模型探索新方案Token级损失(Token-level Loss),平衡每个token对训练过程的影响。正例增强(Postive Example LM Loss),提高RL训练过程中正样本的利用效率,从而提高模型整体性能

RL基础设施

在Long-CoT生成过程中,字节团队观察到各种提示词之间的响应长度差异较大,在生成过程中出现大量GPU空闲时间。

为了缓解长尾响应生成的滞后问题,提出了SRS(流式Rollout系统),一种资源感知型调度框架,可战略性地部署独立的流式计算单元,将系统约束从内存绑定转换为计算绑定。

为了有效地大规模训练,团队还设计了一个混合分布式训练框架,集成高级并行策略、动态工作负载平衡和内存优化:

并行机制:将TP (张量并行)/EP (专家并行)/CP (上下文并行)与全分片数据并行 (FSDP) 组合在一起,具体来说,将TP/CP 应用于注意力层,将EP应用于 MoE 层。序列长度平衡:DP等级之间的有效序列长度可能不平衡,导致计算工作量不平衡和训练效率低下。利用KARP算法在一个mini-batch内重新排列输入序列,使它们在micro-batch之间保持平衡。内存优化:采用逐层重新计算、激活卸载和优化器卸载来支持更大micro-batch的训练,以覆盖FSDP引起的通信开销。自动并行:为了实现最佳系统性能,开发了AutoTuner 自动调整系统,按照基于配置文件的解决方案 对内存使用情况进行建模。然后估计各种配置的性能和内存使用情况以获得最优配置。检查点:使用ByteCheckpoint支持从不同的分布式配置中以最小的开销恢复检查点,弹性训练以提高集群效率。

最终,在多项自动评估中,Seed-Thinking-v1.5在AIME 2024基准测试中取得86.7,与OpenAI的o3-mini-high模型的性能相当。但在最近的AIME 2025和BeyondAIME中,Seed-Thinking-v1.5仍然落后于o3级别的性能。

对于GPQA任务,Seed-Thinking-v1.5达到77.3%的准确率,接近o3-mini-high的性能。

在Codeforces等代码生成场景中,Seed-Thinking-v1.5的性能与Gemini 2.5 Pro 的性能相当,但仍落后于o3-mini-high。

Seed-Thinking-v1.5在SimpleQA上的表现不太理想。但团队认为,该基准测试预训练模型规模的相关性更强,而不是考验推理能力。

许多人看完这篇技术报告,都很感兴趣,不过找了一圈也没找到模型在哪发布。

从技术报告的口径来看,该模型与目前豆包中的Doubao-1.5 Pro并不是一回事。

但从作者名单看,这是由字节Seed团队负责人吴永辉带队,主要成员都参与的大项目。

那么是否将来会部署到豆包APP,可以期待一波了。

论文地址:https://github.com/ByteDance-Seed/Seed-Thinking-v1.5/

 时事1:少妇人妻无套进入

  04月21日,天津古文化街“换装”迎新春,

  村人沿着这些裂开的伤口,挥动洗净的巨斧,艰难地将它劈开。

,国产成年妇视频。

  04月21日,国羽健儿与成都市民互动 点燃蓉城羽球氛围,

  “唔,近些年来,还有一些秘闻传出,据说他是天生至尊,拥有无敌骨!”

,乌兰图雅特级毛片免费看,贱狗总裁的私教日常免费阅读小说,无套内谢人妻A片毛片。

 时事2:国产黑鬼多P媚黑婊HD

  04月21日,2023年辽宁农村居民人均可支配收入同比增长7.9%,

  我们也发现,当前还存在着一些不良现象:乱写,乱画,乱说,乱做。

,黄昏和约尔洗澡无删减,古装舒淇五点全开,初高中打屁股♥网站。

  04月21日,央行再推新工具,市场别担心年底缺钱!,

  高一的学弟学妹,军训场上的飒爽英姿告诉我,你们已告别无知无畏的懵懂少年,成为激情满怀、斗志昂扬的真心英雄;演武场上的声声呐喊,正如你们的人生畅想,恰似雷霆万钧,定可石破天惊。走进一中,你们选择了勤勉与奋斗,也就选择了希望与收获;走进一中,你们选择了纪律与约束,也就选择了理智与自由;走进一中,你们选择了痛苦和艰难,也就选择了练达与成熟;走进一中,你们选择了拼搏与超越,也就选择了辉煌与成功。一中是你们梦圆的场所,也必将是你们明智而无悔的选择。

,雷电将军裸体被❌羞羞网站,日本动漫无码🔞漫画视频,捆绑草草18🈲调教女仆。

 时事3:被扒开腿猛戳流出白色液体

  04月21日,广东北江干流全线出现洪峰 飞来峡水利枢纽有序控泄运行,  宁德时代强调,公司建立了严格的采购内部管控,确保采购过程完全符合相关要求,并部署了“CREDIT”审计工具包,评估电池供应链上企业的可持续发展绩效,并加入联合国全球契约,推动全球能源转型和绿色发展。,国产鲁一鲁一熟女区一区2区,御手洗红豆同人本子,裸体美女开被躁流白。

  04月21日,“愤怒的小鸟”创始人盛赞“黑神话:悟空”:让世界了解中华文化,

  “小道尔,你们这一脉的人,挡我者死!”石子陵大喝。

,千仞雪强❌乳喷本子网站,被鬼子玩高潮了女兵成人小说,加微信看AV片。

 时事4:婬荡妺妺用身体满足了我观看

  04月21日,人民领袖|“古建筑守护人”习近平,

  突然,金光大盛,光辉扩散,整片山林都一片璀璨,林木、山石等皆呈现淡金色,任谁都没有想到,那头狻猊一跃而起,凶威滔天!

,索尼子本子,火影同人黄片免费观看在线,jzjzjzjzj亚洲成熟少妇。

  04月21日,医保“按待遇找人”后 这些政策都可以“免申即享”,

  “再来!”小不点上前,再次出手,他想试试对方的鳞甲是不是宝具,有没有作用。

,成人毛片18女人毛片免费看网站,windows18-HD-20,自慰啊嗯~出水了明星。

责编:蔡晓野

审核:钱发民

责编:贝可勒尔

相关推荐 换一换