欢迎光临AG旗舰厅官网官方版_AG旗舰厅官方网站!
服务热线:400-123-4567

新闻资讯

沉重的深度:利用国内计算机能量芯片的EU8M0 F

日期:2025-08-24 11:08 浏览:
资料来源:贝叶斯美女 深度学习模型(尤其是大型生成模型)的参数量表的增长越来越多地创造了对更有效的计算机和存储解决方案的需求。减少数据类型的位宽度(精度)是一种有效的方法,但是在减少位宽度的同时保持精度是一个重要的挑战。 在训练之前,代表模型参数和与较小位相关的张紧器已成为提高GPU效率的必要技术,而无需牺牲精度。带有NVIDIA Blackwell Generation的GPU引入的显微镜格式(MX)将狭窄宽度宽度的浮点与更细的块因子结合在一起。这是在这个方向上的重要进步。这可以量化更多的张紧者,并使对这些张紧者的操纵更加有效。 Deepseek的话引起了国内计算机的能源芯片,这导致国内芯片破坏了定性变化的关键点?来回我是一个工业的角度,未来的工作比看起来要简单得多,而通往未来的方式仍然是以后的! DeepSeek v3.1在EU8M0 FP8量表上启动,这表明“下一个代代家庭芯片”之间进行了合作。在媒体的密集报道之后,香港/香港的“纪录片委员会和FP8的概念”在短期内突然增加,并且该问题迅速越来越受欢迎。在同一时期,一些国家GPU/NPU肯定“ FP8/“本地” FP8块或工具库可以接收FP8/MX,从而进一步加强了“软而艰难的协作→发布带宽/权力股利”的叙述。 EU8M0/FP8(MX)不是一个新概念。 OCP于2023年发布。 显微镜(MX)v1.0(块尺寸k = 32,共享的EU8M0比例等)将“块级别 +狭窄位的浮点”作为行业标准。到2025年,AI筹码的国王Nvidia 本机数据中的Blackwell Tensor MXFP8/6/​​4CREE内核的类型并指导硬件(EU8M0)中“ 32”(EU8M0)的“ 2^k”的逻辑,并且独立于软件。对于官方信息和开发人员博客而言,这既突出。在本机支持的情况下,MXFP8不仅“加速了纸上的核,而且还训练了BF16≈2x的末端 - 末端性能。(将解释本文和官方文件)。 阅读相关的特殊文件。没有10页以上的内容。最后一篇文章讨论了可以在预先播放之前停放的大型模型的可再现实践。所有张紧器(包括激活梯度)均在E4M3中均匀使用。刻度ISEU8M0和LOG2(AMAX/DESTMAX)被“集成”,以避免由于溢出而导致分歧。这显然与OCP V1.0的预定舍入建议不同。显示令牌8b/15t和BF16的经验证据。 实际上,最重要的是,基础软件和操作员生态系统仍然存在。 transformr cudNN/Cublas实现了操作员和数据FLUDS FP8/MX。 NVIDIA NEMO和用户手册提供工程路线。 在最大型号的一边,使用FP8途径提到的其他案例,包括Nemotron-H,呼叫系列以及其他公共资料(在第一天,它主要与张紧器扩展,但现在它以最薄/MX的最小/MX块尺度转动)。 VLLM Online FP8甚至还会生成路线。这些打开了“培训开发”链。生态系统还传播到工厂(例如ROCM侧的变压器引擎),进一步增强了“普遍感知”。 它到底解决了什么? 动态范围未加载。所有的张紧器通常无法同时处理“大/小值”的存在,并且易于溢出或压缩到零。块刻度可以“对齐”,信息丢失 低内存压力/视觉记忆:8位元素,仅添加1个字节刻度元数据每32个元素。与“每块FP32量表”相比,元数据流量为75%。 硬件成本很低。 EU8M0仅编码2^k,可以通过简短的关键路线和低能消耗进行更改。对于没有完整的FP8乘法单元的芯片,着陆阈值较低。 它为什么使国家筹码受益?在大多数国内芯片仍然由FP16/BF16 + INT8通道主导的阶段,块级别 +访问和访问和介绍FP8的本机/本机操作员可以R8sciptials对带宽的教育和提高性能,而无需牺牲精度。 EU8M0“功率尺度”的硬件成本最低,因此这是一个很好的过渡/长期解决方案。它远非达到NVIDIA的影响,但只能是间接的。它在某些方面特别适合小场景吗? 1)什么是EU8M0/FP8/MXFP8? EU8M0不是“其他FP8”,而是Mx格式(显微镜)的所有“锁定级别系数”(E8)M0),仅编码2的功率。这样,解码仅需要指数更改(更改),而不需要浮点的乘法。关键的硬件路线较短,带宽/能耗也更加友好。 什么是常见的错误概念? 您是否将EU8M0视为“第三FP8”?这是错误的。这是“比例系数”的形式,该元素仍然是E4M3/E5M2。 Cree“使用EU8M0不可避免地会导致速度显着提高”,并且认为优势取决于硬件是否是MX和模型的本地。如果带宽有限,并且通信/内存将成为新的瓶颈。 将“ 75%节省”理解为“总流量量75%”,并使其必要,将32B(FP32)的“块”减少到8B(EU8M0),将其降低到部分75%。拒绝“一般阻止数据”很小,它将转换,但仍然有益。 使用EU8M0 FP8 SC的目的ALE将与生态系统兼容“ Microploock格式(MX)”。官员们还提到了在外国媒体和社区页面上适应“新一代国家筹码”的方向。 MX格式由k块的大小,每个块共享比例x的比例x和块中元素的数据类型。 k = 32(适用于所有类型的MX)。 X型为EU8M0(8位指数,无标志,无标志),代表NAN或2(范围2^(-127)至2^127)。 给定源k数据V_I(通常是FP32)的格式,必须将成为MX,X和Q_I格式计算为q_i×xыV_i。在存储期间写X和Q_I。 Blackwell张紧器核心在块两侧消耗X和Q_I,以创建产品产品。如果累积的输出为fp32,则随后的操作员需要MX格式,则将其量化为MX。 FP8(E4M3/E5M2) 培训中广泛使用了两个常见的8位浮点(1个符号 +索引 + Mantissa)ERence行业。 E4M3高度精确,而E5M2具有较大的动态范围。 MX(显微镜) 张量分为小的固定块(典型的k = 32)。每个块都有一个“ x -scale因子(以功率格式存储),并且块内的元素以低位宽格式存储(例如fp8)。这不仅保留了8位低频段宽的优势,而且还能获得较大的可用动态范围,并且通过较大的粒子校准尺寸为较大的元素。 EU8M0 特定形式的比例系数:不愉快(U),8位(E8)的指数,0位窗帘(M0),即只有指数,符号/mantis。 OCP规范中明确定义了“前”符号。是y = 0(例如,E8M0),没有迹象。 MXFP8 它是指使用“元素为fp8”的MX格式集合。所有特定的MX格式共享变焦均在E8M0中均匀地采用。常用的我S“ EU8M0 + FP8(E4M3/E5M2),块大小k = 32”。 MXFP8:E4M3(最大值约为1.75 x 2^8,最小值约为2^(-9),可以覆盖约17.8 log2立方体),张紧器的核心与性能BF16-2 X有关。 MXFP4:E2M1(性能的〜4倍)。 注意:E4M3只有一个位模式。 E5M2遵循特殊值语义IEEE-754。指数位越多,范围越大。壁bantisas越多,它就会越确定在一定范围内。 本文档表明,在培训80亿个参数和15t字(过程差为0.5%)之前,MXFP8的验证混淆与BF16相吻合。随后的任务得分(MMU,9个推理参考点)也是可比的。 MXFP8是一个更有效的前读取选项,因为它适用于具有相似等效性的模型/数据。 型号配置:32层变压器,32-头,隐藏4096,GQA组8,KV 128通道,以前训练的序列长度8192。E分为两个阶段(高质量之后的第一个多样性)变为60%。 培训平台:Megatron-LM; 3072 GPU的料斗; Lot768。通过将BF16条目转到GEMM之前,然后将其返回BF16来模拟MX操作。 资格:MMLU(5杆),9个平均一般推理得分(1次)。 MXFP8保持在BF16/FP8级别的精度。 Blackwell提供了MXFP8〜2XBF16张紧器核的性能,提供了快速的端到端预测指标。与传统的FP8相比,MXFP8公式更简单(所有层都可以量化,并且量表可以转换为硬件),并且性能等于或更高。 2)您解决了什么数字?硬件问题? 在数值层面上,“传统的积分张力量表”倾向于在8位(8b)或极值分布中溢出/压缩至零。每个块的幅度分布中的块尺度几乎是“几乎”流动。经验证据表明,在多个任务中,MX可以直接替换FP32推断,即使使用低位训练也可以解决/对齐FP32/BF16的准确性。 E4M3与E5M2选项:实际上,E4M3(更大的“采样精度”)的使用可以实现更稳定的训练/后续性能。我们已经针对Blackwell MX培训公式提出了类似的建议。 硬件/系统级别 EU8M0 = 2^K→解码只需要更改。不需要乘法,标准化或浮动舍入来缩短关键路线并促进高频设计和能源消耗控制。 秤元数据很轻。每个街区只有8位比例。比较“保存一个FP32块比例”(32位),变焦元数据流量减少了75%。 (总块数据为256b→264b至256b→288b,总流量也很低)。 生态对准:NVIDIA Blackwell Fabrica MXFP8/6/​​4天然数据类型的张量(k =32,x = eu8m0),在其平台上,MXFP8具有BF16的中央名义矩阵性能。这在上游模型和下游硬件之间建立了“通用语言”规则。 3)为什么说“适合下一代国内芯片”? 大多数国家制造的国家加速器都集中在FP16/BF16 + INT8通道上,并在完整的FMA FMA中接受了各种硬件电池。 UE8M0 +块级别FP8内存的变化的解码并不是很困难和有利可图,沿着逐渐进化路线。 带宽限制/能力。在更敏感的环境中,FP8+块尺度可以显着降低HBM/DDR压力。这正是国内芯片在能源消耗/能效/带宽方面“以算法/格式挤压水”的方向。 根据国家媒体和机构的说法,Mouores Red Musa建筑指出,它可以成功支持本地FP8紧张的加速ER和EU8M0 FP8量表。 Xinyuan VIP9000 NPU也在许多工业访谈文件和执行访谈中都提到,并增加了FP8(E4M3/E5M2),以突出主要工具的标记/Casquas中实施的易用性。 DeepSeek使用EU8M0 FP8量表,并清楚地采用了软件侧公式来匹配国家硬件的“最佳工作点”。实际上,它已经建立了一个一致的软调整系统,以降低冰冷的机制成本。 注意:如果特定的品牌/模型是“张量FP8”或“块FP8”的本地,则必须基于控制器版本的官方规格/描述。媒体手稿和三部分文章的规格可能会延迟,或者表达式可能存在差异。先前的任命是公开报告和行业访谈。 4)与“常规FP8”(如何一起使用)有什么关系? 我仍在使用E4M3/E5M2(通常,E4M3更稳定在整个过程中),并使用EU8M0使用共享比例。典型的块大小k = 32。这是MXFP8。常见的培训/推理实践:将MXFP8与GEMM/CORV和BF16/FP32一起使用标准化/软磁/废物等。它通常在FP32中积累,主权始终保持为“母体基础” FP32。比例算法根据块使用amax来确定索引并舍入以避免溢出,执行饱和度量化(如果超过上限,则夹紧)。这种类型的公式在Blackwell的MX纸中提供了特定的步骤和比较。 5)对模型精确和性能的定量期望 精度,分类/语音/LLM,MX可以在直接生产/罚款后,可以解决/对齐FP32/BF16。对于大型模型的prestély,MXFP8等同于适当的公式BF16。 性能/成本,MX,矩阵核心磨损〜2XBF16,训练时间/端到端的末端和硬件成本承认使用备忘录本地(实际优势取决于频段/通信操作员/通信受到限制)。 对国内生态学的重要性是什么? EU8M0 FP8(MX)优化了将模型的数值和硬件公式的成本优化为“兼容和高效”平衡点的成本。 DepSeek与MX标准的训练/重量C形式相吻合。这相当于在国家硬件方面“下载娱乐指甲”。随着越来越多的筹码成为MXFP8的一流公民,软件获利能力和困难的调整确实得到了反映。 因此,您可以看到EU8M0 FP8(MX)是一种很好的“格式”,可大大降低带宽/能耗,并可以扩大可量化的范围。但是,“效果”取决于系统设计。正是如果有一个本机MX张紧器核心,是否需要处理转POSITES加权和双复制过载,是否与NVLink级互连扩展,如果该工具链是渡轮。在这些方面,由于NVIDIA比现在更加极端,因此“ EU8M0/MX路线不好”,但是“明显的差距”本质上是平台差距。 因此,国内筹码再次沸腾,但仍需要定居! “这是否意味着UE8M0 FP8(MX)格式意味着您可以立即获得Nvidia之类的实际效果?” 答案是否!差距通常不是“格式”本身,而是操作员/核,在内存和互连,工具和标准细节的链接,框架和链中保持一致。从工程的角度来看,您可以看到哪些不便直接摄取文档和广告中看到的好处。 1)数字和算法:标准一致性尚未“完全对齐” MX的定义(k = 32,每个块共享块中元素的EU8M0比例,FP8/fp6/fp4等)是OCP标准的一部分。 EU8M0仅编码2(-127 ... 127)功率,这很轻。问题是“如何将电源舍入2英寸和不同的实现并不完全一致。NVIDIA CA MXFP8训练公式明确地升级到上升的圆形(CEIL(log2)),并给予他消融。根据OCPV1.0建议的“下降圆”,OCPV1.0推荐的可能性更大的可能是在训练中的范围更大的可能性。重合。 E4M3选择“完整量化”:NVIDIA得出的结论是,所有重量/激活/激活梯度均用于E4M3(在块尺度之后需要精度,而不是最大的指数范围)。如果该公式仅为一次,则效果“似乎是MX,但在跑步时却不是。” 2)操作员和内核:没有“本机MX”的隐式超负荷 MX需要在张紧器核中处理许多“一次”尺度。在软件中经常处理这些量表非常昂贵。布莱克韦尔将舍入和量化Of硬件层中张力核心的指令路线的比例,消耗此超载。如果没有此硬件“快捷方式”,在其他芯片中使用MX将涉及在细胞核级别的其他读数和重写/权重。 换位问题:Blackwell的MX需要“在降低为连续的整个维度中阻止数据”,在训练/背部传输之前和之后经常更换。正常的FP8转钉和MX换位必须“加权”。在没有特殊硬件/核优化的情况下,这可能会非常痛苦。 量化的双轴复制品的两个副本:为了同时提供两个行/列,训练框通常必须保证每个张紧器的两个MX量化版本。这不仅消耗了视频记忆,而且还增加了数据处理。 NVIDIA文档和工程问题都被命名。 3)内存和互联网:“基本概念” O之间的差异f系统放大了有效差异 NVLINK/NVSWITCH量表直接确定FP8/MX带宽股息是否真的可以成为集群的性能。如果替代平台仅具有以太网/IB传统的PCIE或传统平台,则通信相对严格,并且相同的计算机功率MX/FP8的优势与全合理/张量的通信相似。 4)生态与普遍性:工具链仍在“访问期”中 对Marco Dtype工具的支持并不完全成熟。 Pytorch的中央级别仍在MX的基本类型上(例如E8M0和FP4)。特里顿(Triton)也有一个公共问题:“如何以一种语言揭示MX/Transiption模式”。该大学有折扣,而没有对前线框架的本地第一类支持。 供应商之间的“不一致的细节”:例如,AMD文档清楚地写着MI300编码的FP8是不同的。M在H100中的编码。通过叠加MX量表的舍入差异,您可以在多个硬件中迁移具有相同名称的FP8/MX型号。另外,可能需要重新配置/调整才能稳定。 当前的MX状态不是NVIDIA的平台: AMD:公共信息增加了OCP MX概念和教程/技术文档级别的FP8支持,但是“本机MX块锁定量表的硬件”不是标准,大多数是实验/软件路线过渡/过渡。 英特尔·高迪(Intel Gaudi):该公式突出了计算机功率和训练推理教程/推理FP8,但不坚持MX本机块量表。对于常规FP8(张紧器/轴刻度),着陆曲线和返回的复杂性与MX不同。 该数字的细节不一致(圆度,梯度格式):训练是不稳定的,或者需要更保守的超参数→有效的性能下降。 工具链和操作E不完整的覆盖范围:某些层(嵌入式/最终投影,BMM/SoftMax等)仍然非常精确,如果执行计划不充分调整,则末端 - 端的好处将被“ NO MX段”稀释。 但是对于那些期望在洞中生存的国内筹码,这也是一个小的变化模式,将来还有很长的路要走。 即使没有“本地FP8张紧器核”,您也可以通过“ FP8访问 +快速移动解码→乘,并添加FP16/BF1/BF16”获得带宽/视频宽的内存级别。硬件只需添加光尺寸的桌子单元和更改单元即可。如果它具有相同的内存带宽和相同的功率预算,则该模型将更大,批量尺寸更合适,而TCO性能单元更好。 DepSeek模型侧和其他模型清楚地使用EU8M0块比例范式,并且软件堆栈(量化,校准,校准,校准。推断)很容易均匀适应到家用芯片上,从而降低了Fragme的成本“全部”的ntation。 “因为我们无法达到NVIDIA的有效性,它是否理想,更适合小端场景?” U1S1,实际上存在差距。如果没有“本地MX”张紧器核心,则没有很高的带宽互连(NVLink/nvswwitch类),并且操作员/帧不完整,EU8M0/FP8纸的优势是由核的瓶颈和通信瓶颈所消耗的。这是当今许多平台的现实。 但这并不意味着“唯一的目的”: 数据中心也可以受益,前提是将量表和块量表放在核中并减少“倒数量化”。许多国家解决方案已经可以实施这种混合途径,直达推理的边缘。 当然,Endrey/Edge更加“面向风味”:在狭窄和低的消耗记忆下,EU8M0+FP8的带宽/能量的消耗更加直接和稳定。 AI PC的本地推断,包括大型集成LANGuage模型,语音/视觉边缘模型等。 该策略不是“使下一个最好的”,而是“首先采取确定性的股息”。首先,将一半的股息作为沉积物和戒断,BGO的宽度,然后逐渐更改FP8计算的批准。 推理优先级:LLM,ASR,CV大型FP8重量(块攀爬) +激活16位 + FP32积累。它大大减少了记忆力和重量带宽,并通常可以改善延迟/性能。 训练飞行员:中小型连续训练/训练(SFT/Distillation/Lora),Gemm Backbone USA MXFP8,标准化/SoftMax等 因此,EU8M0 FP8(MX)=低带宽 +实现阈值以下 +一个足够稳定的值是一条增量现实的途径,并且是国内芯片的一步一步,主要基于FP16/BF16 + INT8。 不仅端侧,这是在耐力/功率敏感方案中“提高成本性能”的最快方法。如果数据中心想接近效果在头部中,您需要集成计算机水平,将块刻度沉入原子核中,并吸收结合频段的更好宽度。首先,吃重量/沉积和退休股息,然后促进路线和计算互连。可以完成这条路,并且在短期内吃了肉。 整个文字结束了。 官方NINA Finance帐户 24-最新信息和财务视频的流离失所,以及扫描QR码以关注更多粉丝(Sinafinance)
首页
电话
短信
联系