
催眠调教震动棒h2025官方最新版本下载
详情介绍
催眠调教震动棒h官方版下载是一款模拟经营策略游戏,该版本玩家可以直接通过安卓模拟器在电脑上安装体验。该游戏采用唯美的水墨画风,将中国风元素融入游戏场景,为玩家带来极致的视觉享受,让您沉浸其中,感受w3u7903ejky2ywls之美。在游戏中,玩家将扮演一位祖师,开宗立派,培养一众有趣的弟子,帮助他们渡劫成仙。每位弟子都拥有独特的命格和属性,个性迥异,让您体验到千奇百怪的修仙生活。
与此同时,催眠调教震动棒h2025官方最新版本下载还拥有独特的挂机机制,您可以将游戏放置在后台,解放双手,让弟子们自动修炼、渡劫,贴心呵护您的修仙门派。宗门地产建设也是游戏的重要内容,您可以自由摆放,打造属于自己的修仙宗门,创造仙门人的理想家园。从山海异兽到一石一木,处处充满着古韵仙风,让您仿佛置身于修仙小说般的仙境之中。
微软再放LLM量化大招!原生4bit量化,成本暴减,性能几乎0损失特色
新智元报道
编辑:KingHZ
【新智元导读】原生1bit大模型BitNet b1.58 2B4T再升级!微软公布BitNet v2,性能几乎0损失,而占用内存和计算成本显著降低。
还没过几天,原班人马带着第二代BitNet v2来了!
这次性能几乎0损失,但占用内存和计算成本显著降低!
论文链接:https://arxiv.org/abs/2504.18415
先前的开创性研究,如BitNet b1.58,已经证明:
即使将权重量化到1.58位,也能在极大降低推理成本(延迟、内存占用、吞吐量、能耗)的同时,保持与全精度模型相当的性能。
然而,激活值异常点让1比特大语言模型部署变得复杂。
BitNet v2框架,首次实现对1比特LLMs的原生4比特激活值量化。
针对注意力机制和前馈网络中激活值的异常分布问题,在激活值量化前,H-BitLinear模块施加在线Hadamard变换(Hadamard transformation)。
图1上半部分:BitNet v2整体架构以及H-BitLinear模块的概览
这种变换能将尖锐的激活值分布转化为更接近高斯形态的平滑分布,从而适配低比特表示。
原生4比特计算
得益于下一代GPU(如GB200)等硬件的进步,深度学习领域正迅速采用量化和低比特推理技术。
新硬件原生支持4比特计算,为大规模模型带来显著的效率提升。
计算机中32、16、8比特浮点数不同的表示方法
然而,尽管BitNet b1.58将权重量化为1.58比特,缓解了内存带宽瓶颈,但它的激活值仍保持8比特精度。
模型无法充分利用新硬件的4比特计算能力。
实现更低比特宽度的激活值对于最大化硬件利用率至关重要,尤其是在批处理推理场景中,高效的内核设计尤为重要。
关键问题在于LLM内部激活值的不均匀分布。
虽然注意力机制和前馈网络(FFN)层的输入通常呈现类高斯分布,适合量化,但中间状态(最终投影前的输出)往往包含显著的离群值,阻碍了激进的低比特量化。
图1下半部分:注意力层中输出投影Wo和前馈网络中下投影Wdown的激活分布情况
对输入采用4比特量化和对中间状态使用8比特稀疏化,可以解决这一问题。
尽管性能损失较小,但稀疏化并不适合批处理推理场景的最大吞吐量需求,因为硬件更倾向于密集计算以提升效率。
为弥合这一差距并充分发挥1.58比特LLM在4比特计算中的潜力,研究团队提出了BitNet v2框架,实现了模型全流程的原生4比特激活值,框架核心创新是H-BitLinear。
BitNet v2:原生4位激活
BitNet v2模型基于类似LLaMA的组件构建,包括RMS归一化、SwishGLU激活函数,并完全移除了偏置项(bias)。
BitNet v2的整体架构
与先前的BitNet相比,BitNet v2在注意力模块的输出投影Wo和前馈网络(FFN)的下投影Wdown中,引入了H-BitLinear模块,以专门处理中间状态中出现的异常通道(outlier channels)。
BitNet v2的训练流程分为两阶段:
首先,从零开始使用1.58位权重和8位激活(INT8)进行预训练;
随后,在保持权重量化不变的基础上,将所有线性层(除输入/输出embedding外)进一步微调为4位激活(INT4)。
H-BitLinear模块
BitNet v2采用逐张量平均绝对值量化(per-tensor absmean)策略对权重进行三值量化(也就是{-1, 0, 1}):
关于低比特激活的问题,已有研究指出:
注意力层和前馈网络中前置线性变换的输入激活,通常呈现高斯分布,较适合量化;
而注意力输出(Wo)和FFN下投影(Wdown)的中间状态激活,则往往包含大量离群通道(outlier channels),且大部分值集中于0附近,严重影响低位量化精度。
H-BitLinear可以取代注意力机制输出投影和FFN下投影的标准线性层。
H-BitLinear在激活量化前应用在线哈达玛变换),把中间状态中尖锐、易产生离群值的分布重塑为更易处理的类高斯分布,显著减少1.58比特模型中离群值的影响。
Hadamard变换定义如下:
其中的矩阵乘法采用快速Hadamard变换算法(Fast Hadamard Transform,FHT),其计算复杂度为O(nlogn)。
Hadamard矩阵是一类特殊的正交矩阵。
它的特点是每个元素只能是+1或-1,并且每行(或每列)之间的内积为0,表示彼此正交。
阿达马矩阵的命名来自于法国数学家Jacques Solomon Hadamard。
法国数学家:Jacques Solomon Hadamard
如图2和图3所示,引入Hadamard变换后,中间状态的分布更加接近高斯形态。
这显著减少了离群值数量,使其更适合进行4位激活量化(INT4)。
图2:在使用8位激活时,BitNet b1.58与BitNet v2的激活分布对比。
图3:采用8比特激活值时,BitNet b1.58与BitNet v2在前馈网络Wdown层和注意力机制Wo层的激活值分布对比。
对于8位激活(INT8)和4位激活(INT4)量化策略,分别采用下列策略:
综上,H-BitLinear层的整体矩阵运算可表示为:
其中,LN(⋅)表示层归一化(LayerNorm)。
研究团队从头开始使用8比特激活值训练BitNet v2,与BitNet b1.58相比性能损失微乎其微。
随后,通过少量数据高效微调,模型即可适配原生4比特激活值。
实验结果
实验表明,4比特BitNet v2变体在性能上与BitNet a4.8相当,但在批处理推理场景中提供更高的计算效率。
此外,与后训练量化方法SpinQuant和QuaRot,则几乎全面领先。
比BitNet b1.58更快
BitNet V2与BitNet b1.58比,性能几乎0损失。
BitNet v2及其基线模型的详细实验结果,如表1所示。
在注意力机制和前馈网络(FFN)层的量化前引入哈达玛变换后,模型的困惑度(perplexity)下降极小。
对于8比特激活值,BitNet v2相较于BitNet b1.58表现出更高的性能,在1.3B、3B和7B模型规模上,终端任务的平均准确率分别提升了0.16%、0.49%和0.61%。
此外,BitNet v2支持所有线性层的原生4比特激活值,从而显著提升了批处理推理的效率。
在使用INT4(4比特整数)激活值时,BitNet v2的困惑度与BitNet a4.8相当,同时在3B和7B模型的下游任务中展现出更优的性能。
表1:BitNet v2、BitNet a4.8与BitNet b1.58在终端任务上的困惑度及性能表现
表2和表3分别总结了BitNet v2(8比特激活,a8)和BitNet v2(4比特激活,a4)在低比特注意力机制下的详细结果。
研究人员对QKV状态采用了RoPE(旋转位置编码)后的量化方法。
QKV头通过absmax函数直接量化为无符号整数,无需任何校准数据集。
如表2和表3所示,采用3比特KV缓存的BitNet v2在3B和7B模型上的准确率与使用全精度KV缓存的模型相当。
表2:BitNet v2在终端任务上的零样本准确率,其中激活使用8位,而QKV状态的位宽则有所不同。
表3:BitNet v2在终端任务上的零样本准确率,其中激活使用4位,而QKV状态的位宽则有所不同。
与其他后训练量化方法的对比
BitNet v2 (a4)与主流的后训练量化基线方法进行了对比,包括SpinQuant和QuaRot,在1.3B参数规模的模型上进行了评测。
QuaRot通过引入随机Hadamard变换以缓解特征离群问题,SpinQuant则使用了可学习的旋转矩阵(rotary matrix)。
随后,这两种方法分别采用GPTQ和absmax策略,将权重和激活量化到4位。
由于BitNet b1.58沿用训练时使用的absmean函数进行权重量化,而非使用GPTQ。
在各项指标上,BitNet v2稳拿第一,具体结果见表4。
表4:BitNet v2、QuaRot和SpinQuant在各项下游任务上的困惑度(Perplexity)与零样本准确率(Zero-shot Accuracy)对比
另外,在Hadamard变换对不同模型尺寸(1.3B和3B)影响的实验(见表5)中,研究者发现:
没有旋转处理(No rotation)时,模型直接发散,无法正常训练;
引入Hadamard旋转(无论是权重+激活,还是仅激活),都能显著稳定低位训练,并提高最终准确率。
表5:不同规模下H-BitLinear的Hadamard变换的消融研究。
模型训练、消融实验等其他内容和细节,请参阅原文。
参考资料:
https://arxiv.org/abs/2504.18415
游戏亮点
1、丰富多彩的修仙玩法
除了培养弟子和建设仙门外,游戏还包含了炼丹、炼器、仙田等多种修仙玩法,让玩家体验到修仙的方方面面。
2、自由建设的仙门地产
玩家可以自由摆放修仙宗门的建筑,打造属于自己的修仙家园,创造仙门人的理想世界。
3、精美细腻的游戏画面
游戏的画面精致细腻,每一个场景都充满了古典美感,让玩家仿佛身临其境,感受到修仙之美。
4、社交互动的乐趣
游戏内置丰富的社交系统,玩家可以与其他玩家组成联盟,共同对抗强敌,体验多人合作的乐趣,增加了游戏的可玩性和趣味性。
游戏评测
1、游戏玩法丰富,内容深度十足,给玩家带来了极佳的游戏体验。2、画面精美,场景设计唯美,让玩家沉浸其中,感受到了修仙世界的奇幻美感。
3、挂机系统的设置贴心实用,解放了玩家的双手,让玩家更轻松地享受游戏乐趣。
4、弟子个性化塑造突出,每个弟子都有自己独特的故事和特点,增加了游戏的趣味性和可玩性。
更新日志
v6.749.182119版本
1.1调整问鼎苍穹席位赛的防守阵容设置规则,现在任何时候都可以调整防守阵容
1.2优化天道树领悟道果时道果数量不足的获取提示,现在会自动打开道果宝箱,方便祖师快捷获取
1.3优化新增仙法问道投资活动的购买提示,现在休赛期购买投资时,如果无法拿满奖励则会有二次确认提示
1.4修复连续炼制同种丹药时,炼制材料的数量显示异常的错误
下载地址
- 电脑版
- /安卓版
- 本地下载通道:
- 仅下载APK文件
同类游戏
网友评论
共0条评论类似游戏
-
6月电子厂沟厕今日最新消息 v3.727.945187 休闲益智 / 5.8G
-
把jiji❌进美女的屁屁里面手机版下载 模拟经营 / 1.40MB
-
原神夜兰去内无布料图片电视版下载 角色扮演 / 1.37G
-
海贼王娜美爆乳玉腿❌❌ v6.251.905082 模拟经营 / 861.25MB
-
牡工ozO体内交FIO另类中文版下载 角色扮演 / 1.9G
精彩发现
换一换精品推荐
-
美女裸体❌捆绑调教网站 v7.841.382494 经营养成 / 2.8MB
查看 -
裸体军人XXXⅩ裸体 v5.4.19 经营养成 / 237.30MB
查看 -
被黑人猛烈进出到抽搐动态图 v9.703.906519 经营养成 / 8.90G
查看 -
啊┅┅快┅┅用力啊岳视频 v7.4.20 经营养成 / 313.10MB
查看 -
美乃雀 v5.6.16 经营养成 / 680.25MB
查看