4. 新增功能和特性变更

4.1. 通用

  • 新增后摩LM5030智能加速卡支持

    本版本新增适配LM5030智能加速卡,覆盖驱动、固件、模型编译及推理的完整软件栈能力,支持在该设备上进行模型部署与推理。

    基于统一的软件栈设计,用户可复用现有后摩大道软件能力,实现跨平台一致开发体验,降低适配与迁移成本。

  • Ubuntu 22.04 x86_64 Docker镜像中PyTorch相关组件版本升级

    软件平台提供的Ubuntu 22.04 x86_64 Docker镜像中,PyTorch相关组件版本已升级,具体如下:

    • torch2.8.0

    • torchvision0.23.0

    • torchaudio2.8.0

    该升级提升了Docker镜像中深度学习框架依赖的版本一致性,便于用户在更新的PyTorch生态环境下进行模型开发、验证与部署。

4.2. 驱动和固件

  • 新增支持 Kylin V10 SP3(x86_64)

    本版本新增适配 Kylin V10 SP3(x86_64) 操作系统,扩展在 Kylin 系列平台的部署支持范围,用户可在该系统环境下升级驱动和固件。

  • 新增支持openEuler 25.03 LTS(AArch64)

    本版本在已支持openEuler系列基础上,新增适配openEuler 25.03 LTS(AArch64),进一步扩展在openEuler生态下的部署范围。用户可在该系统环境中使用本版本驱动、固件、模型推理 Runtime等软件组件。

  • 新增对Ubuntu 24.04内核6.12的支持

    为提升软件在新版本Linux系统上的兼容性,新增对Ubuntu 24.04内核版本6.12的支持。该特性使用户能够在Ubuntu 24.04 环境中直接部署和运行软件,无需进行内核降级或额外的系统适配操作,从而简化系统部署流程,并提升整体平台兼容性和维护效率。

4.3. HMQuantool 量化工具

  • 新增模型量化支持

    本版本支持对以下模型量化,以提升推理性能和降低资源占用:

    • Kimi-V1-16B-A3B

    • Hunyuan-80B-A13B

    • SmolVLA

    • RepVGG

    • Qwen3-Omni

    • F5-TTS

    • GLM-4.7-Flash

    • YOLO26M

    • CoPaw-Flash

    • Qwen3.6-35B-A3B

    • Qwen3.5-0.8B

    • Qwen3 0.6B和1.7B

    • GLM-ASR

    • Gemma 4

4.4. TCIM

  • 新增后摩设备内存初始化功能

    新增支持对后摩设备侧指定内存区域进行按字节填充初始化,可将目标区域设置为指定常量字节值。用户可通过调用下面接口实现该功能:

    • C++: Buffer::MemSet

    • Python: tcim_lite.runtime.Buffer.memset

    该功能支持后摩设备侧内存的快速初始化与数据预置,减少手动初始化操作及额外数据搬运开销,简化开发流程并提升数据准备效率。

    接口详情参看《后摩大道® M50 TCIM开发者手册》。

  • Qwen3.5-9B和Qwen3.6-27B支持MTP推理加速

    本版本新增Qwen3.5-9B和Qwen3.6-27B的MTP模型编译与推理支持。MTP通过单次推理预测多个后续token,减少自回归生成过程中的逐token推理开销,从而提升生成速度并降低端到端推理延迟。

  • 新增模型编译支持

    本版本新增对以下模型的编译支持,提升模型的灵活性和性能:

    • Kimi-V1-16B-A3B

    • Hunyuan-80B-A13B

    • SmolVLA

    • RepVGG

    • Qwen3-Omni

    • F5-TTS

    • GLM-4.7-Flash

    • YOLO26M

    • CoPaw-Flash

    • Qwen3.6-35B-A3B

    • Qwen3.5-0.8B

    • Qwen3 0.6B和1.7B

    • GLM-ASR

    • Gemma 4

  • API变更

    • C++ API:

      • 新增 Buffer::MemSet 接口。

    • Python API:

      • 新增 tcim_lite.runtime.Buffer.memset 接口。

    详情参看《后摩大道® M50 TCIM开发者手册》。

4.5. 开发工具

  • LLM 推理性能评测工具新增多设备选择支持

    LLM 推理性能评测工具移除 --ndevices 参数,新增 --devices 参数,用于指定参与推理的后摩逻辑设备ID列表。

    在多卡设备场景下,一个后摩设备可能包含多颗M50芯片,对应多个逻辑设备ID。在多设备环境下,后摩设备通过HM-Link(CTC)互联后,同样会统一映射为多个逻辑设备 ID。用户可通过 --devices 显式选择参与推理的逻辑设备,实现更灵活的多设备调度与资源控制。

    该优化提供更灵活、直观的多设备选择方式,在多卡及多设备环境下显著降低配置复杂度,提升评测效率与使用体验。

  • SMI工具Cur_BandWidth字段格式优化

    优化SMI工具 Cur_BandWidth 字段的显示格式,将原有的 <PCIe通道速率>-<PCIe 通道数> 展示方式调整为 <PCIe通道速率> x <PCIe 通道数>,提升带宽信息表达的规范性与可读性。该调整仅影响字段展示形式,不影响实际计算结果与功能行为。

4.6. 开发样例

  • ModelZoo 新增示例

    ModelZoo 新增以下模型示例,扩展视觉与多模态模型支持能力,方便用户快速验证与集成:

    • YOLO26M

    • CoPaw-Flash

    • Qwen3.6-35B-A3B

    • Qwen3.5-0.8B

    • Qwen3 0.6B和1.7B

    • GLM-ASR

    • Gemma 4

    该更新可帮助用户更高效地进行模型功能验证与端到端流程验证,降低模型接入与适配成本。

  • ModelZoo示例新增 C++ 推理支持

    ModelZoo中CosyVoice3、Qwen3-VL、Whisper-Medium示例在原有Python推理示例基础上,新增C++推理参考实现。用户可根据工程环境选择 Python 或 C++ 开发方式,直接参考对应示例进行模型集成开发,减少推理实现重复开发工作,加快模型接入与落地效率。

    详情参看应用开发示例包中相关示例的 README.MD 文件。

  • Qwen3.5和Qwen3新增小参数模型示例

    ModelZoo在现有Qwen3.5和Qwen3示例中新增以下小参数模型规格:

    • Qwen3.5 示例: 新增Qwen3.5-0.8B模型规格。

    • Qwen3 示例: 新增Qwen3-0.6B和Qwen3-1.7B模型规格。

    用户可在对应模型示例中通过设置不同模型参数规模,完成量化、模型构建和推理流程验证。该特性为小参数大语言模型的端到端部署和适配评估提供参考。

    详情参看应用开发示例包中相关示例的 README.MD 文件。

  • Qwen3.5示例新增 896 x 896 分辨率支持

    Qwen3.5(2B、4B、9B)模型现默认采用 896 x 896 输入分辨率,支持模型量化、编译及推理全流程验证。该优化使示例流程更加标准化,便于用户进行模型效果与性能的一致性评测,并降低环境配置复杂度。

    详情参看应用开发示例包中相关示例的 README.MD 文件。

4.7. 算子支持列表

本版本算子支持范围相对上一版本无变化。

完整算子支持范围及使用限制,请参见 《软件平台快速入门》