西风 发自 凹非寺量子位 | 公众号 QbitAI
微软以小搏大,发布首个开源2B参数规模“原生1bit”LLM——
BitNet b1.58 2B4T,单CPU就能跑,性能与同规模全精度开源模型相当。
它采用三进制{-1, 0, 1}存储权重,相较于传统的16位浮点数可大幅降低显存需求。
只需0.4GB内存即可运行。
基于4T token语料训练,BitNet b1.58 2B4T在保持性能的同时,计算效率突出。
单个CPU即可达到“与人类阅读速度”相当的速度,每秒5-7个token,CPU端解码延迟29ms,能耗低至0.028J。
这种效率使其可在普通笔记本电脑甚至边缘设备上实时运行。
例如在苹果M2 CPU上快速运行:
另外值得一提的是,BitNet b1.58 2B4T具有原生训练优势,与训练后量化(PTQ)模型对比,避免了PTQ常见的性能衰减
BitNet b1.58 2B4T刚发布就吸引了大量网友点赞关注,作者们也当起了自己个儿的自来水。
如何实现原生1bit?话不多说,一起来看看技术详情。
权重映射为三元值{-1, 0, +1}
BitNet b1.58 2B4T模型基于Transformer架构,对核心组件进行了系统性改造。传统LLM依赖16bit或32bit浮点数存储权重,而BitNet b1.58 2B4T采用一种称为absmean的量化方案,将权重映射为三元值{-1, 0, +1},平均每个权重仅需1.58bit(log₂3≈1.58)来表示。
模型内存占用骤降至0.4GB,仅为同类全精度模型的1/5-1/12。
另外,线性投影中的激活值被量化为8bit整数,采用基于每token的absmax量化策略,团队还引入subln归一化,增强量化训练稳定性。
其它关键设计包括:
激活函数:前馈网络(FFN)子层采用ReLU²替代常见的SwiGLU,通过提升模型稀疏性,优化了1bit环境下的计算特性。位置编码:使用旋转位置嵌入(RoPE)。偏置消除:与Llama等架构一致,所有线性层和归一化层均移除偏置项,减少参数量并简化量化流程。
训练方面,BitNet b1.58 2B4T采用三阶段训练:大规模预训练监督微调(SFT)和直接偏好优化(DPO)。
先是大规模预训练,模型经历了两阶段学习率调度:得益于1bit模型的训练稳定性,初期采用高学习率快速收敛;中期骤降至低水平,使模型能在高质量数据上精细化调整。配合动态权重衰减策略,模型在保持泛化能力的同时避免过拟合。
监督微调(SFT)阶段,值得注意的是,训练中采用损失函数求和而非平均策略,并延长了训练轮次,这一调整被证明对低精度模型的收敛至关重要。
直接偏好优化(DPO)阶段,基于UltraFeedback、MagPie等人类偏好数据集,模型通过无奖励模型的直接优化,提升了回答的安全性与用户满意度,避免了传统RLHF的高计算成本。
实验效果方面,BitNet b1.58 2B4T内存占用仅为0.4GB,CPU端解码延迟29ms,能耗低至0.028J。
在数学推理任务GSM8K中,BitNet以58.38的准确率远超Llama 3.2-1B(38.21)和Qwen2.5-1.5B(56.79);在常识推理任务WinoGrande中,BitNet 71.90的得分超同类模型均值(63.55)。
团队特别指出,BitNet b1.58 2B4T具有原生训练优势。与训练后量化(PTQ)模型对比,BitNet的原生1bit训练策略避免了PTQ常见的性能衰减。
参数更大的Llama3-8B模型量化至1bit后,也难打BitNet b1.58 2B4T。
和其它1bit模型相比,BitNet b1.58 2B4T也有显著更强的整体性能,绝大多数基准测试中取得SOTA。
有关BitNet b1.58 2B4T的具体表现,再来看几个例子。
让它生成几个笑话,笑话简短但也蛮有意思:
稻草人为何成为成功的神经外科医生?回答是因为它在自己的领域很杰出(outstanding in his field)。
单CPU生成97个token,总耗时3.452秒,每秒处理 28.1 token。
再让它基于2000年的背景,让一位PowerPC处理器爱好者和一位英特尔处理器爱好者进行五行辩论。
BitNet b1.58 2B4T生成结果也很快,并且反映了那个时代科技行业的竞争特性。
微软在1 bit LLM上的探索
1 bit LLM的实现方法,微软其实早在2023年就有相关研究,当时就称为BitNet,用BitLinear替换了nn.Linear
之后,微软原班人马在上一篇论文的基础之上做了优化,提出BitNet b1.58,在原始BitNet的基础上增加了一个额外的0值
也就是“The Era of 1-bit LLMs”这篇论文,用6页研究引发网友广泛关注。
这种方法发布后,也有不少人在这项研究的基础之上进行探索。Huggingface Transformers还曾整合了BitNet b1.58,运用一些技巧,使得现有模型可以直接微调到1.58bit。
接着,微软还开发并开源了针对GPU和CPU平台的专用推理库
BitNet b1.58采用独特量化方案(1.58bit权重和8bit激活值,W1.58A8)需要专门的实现,标准深度学习库通常缺乏针对这种混合精度、低比特格式的优化内核,微软开发了专门针对W1.58A8矩阵乘法的自定义CUDA内核。
另外,微软还开源了bitnet.cpp——一个用于1 bit LLM CPU推理的官方参考C++库,提供针对标准CPU架构优化的内核,旨在高效适配模型的特定量化方案,尽可能避免通用量化库的开销或复杂的底层位操作。
技术报告:https://arxiv.org/abs/2504.12285抱抱脸链接:https://huggingface.co/microsoft/bitnet-b1.58-2B-4T
参考链接:https://arstechnica.com/ai/2025/04/microsoft-researchers-create-super%e2%80%91efficient-ai-that-uses-up-to-96-less-energy/
《男性同性裸交直播》,《w3u7903ejky2ywls》新田雪十大巅峰作品
“菠萝视频高清观看免费40集电视剧”
把下面扒开我教你自慰
……
04月29日
“18🈲乳液啪啪红桃免费漫画”女子为被性侵的母亲奔波后丢了工作
↓↓↓
04月29日,甘肃省政府原党组成员、副省长杨子兴被查,免费看60分钟黄🌕图片蜜桃,主人跪+晨尿+伺候+桌下视频,乳液乱飙视频,白丝洗澡裸体被❌羞羞
04月29日,中共中央政治局召开会议 中共中央总书记习近平主持会议,自慰啊嗯~出水了明星,魅魔爆乳巨胸无码动漫在线观看,交videos老少配残疾,三玖裸体被❌羞羞本子在线看
04月29日,云南正式进入5G-A商用时代 发布十大应用场景,啊灬啊灬啊灬快灬潮喷了红桃视频,动漫美女脱裤子❌光屁屁图片,蔚蓝白子触摸游戏,张柏芝殖器12图片
04月29日|哈尔滨机场冬航季每周计划执行航班3719班|农村老奶性大全HD|黑料吃瓜一区二区在线播放|小樱被爆❌自慰爽naruto|成人asmr免费视频AV
04月29日|2024北京马拉松参赛号码28日开放查询 方式公布|钉崎野蔷薇大胸被揉到失禁|男生尿隔着内裤呲出来视频|王者荣耀同人婬乱小说|女性赤裸身体㊙️喂奶头
04月29日|黎巴嫩真主党领导人:美国在红海的所作所为将损害航运安全|麻花天美星空mv免费播放|女人脱👙让摸🐻视频|日本温泉裸体㊙️无遮挡|原神裸体㊙️网站……
04月29日,黄金一天一价!实物金还是虚拟金,“变现”都有风险,人与野鲁❌毛片699,🎆黄🎆色🎆视🎆频,欧美人和拘日BX❌X,八重神子被❌爆乳潮喷
04月29日,长护险试点八年 哪些人群受益?哪些短板需补齐?,喷火龙宝可梦❌18禁漫画同人,做爰❌❌❌视频毛片下载蜜桃视频,聚友客栈2408论坛网址,深夜网址
04月29日|广西传承创新中医药文化 让《诗经》与药用植物“相遇”|强行破校花的膜|动画18禁裸体爆乳❌网站|敖闰被❌到爽被爆衣小说|云曦被❌到爽被爆
04月29日,厦大马校“嘉庚书房”:穿越百年对话嘉庚精神,男同被到爽流网站第五人格,欧美三人囗交XXOO,动漫涩涩✅免费网站,老妈的泻火番外篇
04月29日,三亚冲浪“网红”村“五一”假期备受亲子客群青睐,91❤口爆吞精国产水多多,好爽⋯要高潮了⋯视频,国产又爽又黄免费智库苹果区,动漫 3D 妓女 巨大 吸乳 触手
04月29日,走进“首都桃花源”!到北京平谷体验慢生活,白雪和王霞的第一次相遇,美女洗澡裸体㊙️情趣内衣,欧美熟妇乱理色情A片直播平台,《小樱大战鸣人》免费观看
04月29日|大陆高校师生参访团参观沪尾炮台|爽爽爽2018,免费人妻视频|鞠婧祎张开双腿流白浆|擼擼社.apk下载|安妮海瑟薇颜色满天星
04月29日|百所高校教师走进雄安 助推“雄安实践”融入思政课|粗大的🐔吧在里面伸来伸去小说|成人🔞涩涩小片免费外国|黄昏和约尔洗澡无删减同人|裸体动美女抖胸奶乳摇丁字裤
04月29日|多家外企在华交出亮眼成绩单—— 中国仍是全球“最佳投资沃土”|虎杖悠仁裸体❌开腿在线观看|同性男男黄Gay片免费吞精|扒开纲手狂揉❌难受3D|雏田爆乳被❌🔞🈲🈲
暑期档电影票房突破110亿,吾湖音乐局|韩戒严司令部:违反戒严令者可被直接逮捕,禁止集会示威|❤精选福利视频❤每天更新❤|手机乱码转换器|海贼王女帝强❌乳喷自慰爽|女女女女女女女HD免费看
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺