4. 新增功能和特性变更
4.1. 通用
新增后摩LM5030智能加速卡支持
本版本新增适配LM5030智能加速卡,覆盖驱动、固件、模型编译及推理的完整软件栈能力,支持在该设备上进行模型部署与推理。
基于统一的软件栈设计,用户可复用现有后摩大道软件能力,实现跨平台一致开发体验,降低适配与迁移成本。
Ubuntu 22.04 x86_64 Docker镜像中PyTorch相关组件版本升级
软件平台提供的Ubuntu 22.04 x86_64 Docker镜像中,PyTorch相关组件版本已升级,具体如下:
torch:2.8.0torchvision:0.23.0torchaudio:2.8.0
该升级提升了Docker镜像中深度学习框架依赖的版本一致性,便于用户在更新的PyTorch生态环境下进行模型开发、验证与部署。
4.2. 驱动和固件
新增支持 Kylin V10 SP3(x86_64)
本版本新增适配 Kylin V10 SP3(x86_64) 操作系统,扩展在 Kylin 系列平台的部署支持范围,用户可在该系统环境下升级驱动和固件。
新增支持openEuler 25.03 LTS(AArch64)
本版本在已支持openEuler系列基础上,新增适配openEuler 25.03 LTS(AArch64),进一步扩展在openEuler生态下的部署范围。用户可在该系统环境中使用本版本驱动、固件、模型推理 Runtime等软件组件。
新增对Ubuntu 24.04内核6.12的支持
为提升软件在新版本Linux系统上的兼容性,新增对Ubuntu 24.04内核版本6.12的支持。该特性使用户能够在Ubuntu 24.04 环境中直接部署和运行软件,无需进行内核降级或额外的系统适配操作,从而简化系统部署流程,并提升整体平台兼容性和维护效率。
4.3. HMQuantool 量化工具
新增模型量化支持
本版本支持对以下模型量化,以提升推理性能和降低资源占用:
Kimi-V1-16B-A3B
Hunyuan-80B-A13B
SmolVLA
RepVGG
Qwen3-Omni
F5-TTS
GLM-4.7-Flash
YOLO26M
CoPaw-Flash
Qwen3.6-35B-A3B
Qwen3.5-0.8B
Qwen3 0.6B和1.7B
GLM-ASR
Gemma 4
4.4. TCIM
新增后摩设备内存初始化功能
新增支持对后摩设备侧指定内存区域进行按字节填充初始化,可将目标区域设置为指定常量字节值。用户可通过调用下面接口实现该功能:
C++:
Buffer::MemSetPython:
tcim_lite.runtime.Buffer.memset
该功能支持后摩设备侧内存的快速初始化与数据预置,减少手动初始化操作及额外数据搬运开销,简化开发流程并提升数据准备效率。
接口详情参看《后摩大道® M50 TCIM开发者手册》。
Qwen3.5-9B和Qwen3.6-27B支持MTP推理加速
本版本新增Qwen3.5-9B和Qwen3.6-27B的MTP模型编译与推理支持。MTP通过单次推理预测多个后续token,减少自回归生成过程中的逐token推理开销,从而提升生成速度并降低端到端推理延迟。
新增模型编译支持
本版本新增对以下模型的编译支持,提升模型的灵活性和性能:
Kimi-V1-16B-A3B
Hunyuan-80B-A13B
SmolVLA
RepVGG
Qwen3-Omni
F5-TTS
GLM-4.7-Flash
YOLO26M
CoPaw-Flash
Qwen3.6-35B-A3B
Qwen3.5-0.8B
Qwen3 0.6B和1.7B
GLM-ASR
Gemma 4
API变更
C++ API:
新增
Buffer::MemSet接口。
Python API:
新增
tcim_lite.runtime.Buffer.memset接口。
详情参看《后摩大道® M50 TCIM开发者手册》。
4.5. 开发工具
LLM 推理性能评测工具新增多设备选择支持
LLM 推理性能评测工具移除
--ndevices参数,新增--devices参数,用于指定参与推理的后摩逻辑设备ID列表。在多卡设备场景下,一个后摩设备可能包含多颗M50芯片,对应多个逻辑设备ID。在多设备环境下,后摩设备通过HM-Link(CTC)互联后,同样会统一映射为多个逻辑设备 ID。用户可通过
--devices显式选择参与推理的逻辑设备,实现更灵活的多设备调度与资源控制。该优化提供更灵活、直观的多设备选择方式,在多卡及多设备环境下显著降低配置复杂度,提升评测效率与使用体验。
SMI工具Cur_BandWidth字段格式优化
优化SMI工具
Cur_BandWidth字段的显示格式,将原有的<PCIe通道速率>-<PCIe 通道数>展示方式调整为<PCIe通道速率> x <PCIe 通道数>,提升带宽信息表达的规范性与可读性。该调整仅影响字段展示形式,不影响实际计算结果与功能行为。
4.6. 开发样例
ModelZoo 新增示例
ModelZoo 新增以下模型示例,扩展视觉与多模态模型支持能力,方便用户快速验证与集成:
YOLO26M
CoPaw-Flash
Qwen3.6-35B-A3B
Qwen3.5-0.8B
Qwen3 0.6B和1.7B
GLM-ASR
Gemma 4
该更新可帮助用户更高效地进行模型功能验证与端到端流程验证,降低模型接入与适配成本。
ModelZoo示例新增 C++ 推理支持
ModelZoo中CosyVoice3、Qwen3-VL、Whisper-Medium示例在原有Python推理示例基础上,新增C++推理参考实现。用户可根据工程环境选择 Python 或 C++ 开发方式,直接参考对应示例进行模型集成开发,减少推理实现重复开发工作,加快模型接入与落地效率。
详情参看应用开发示例包中相关示例的
README.MD文件。Qwen3.5和Qwen3新增小参数模型示例
ModelZoo在现有Qwen3.5和Qwen3示例中新增以下小参数模型规格:
Qwen3.5 示例: 新增Qwen3.5-0.8B模型规格。
Qwen3 示例: 新增Qwen3-0.6B和Qwen3-1.7B模型规格。
用户可在对应模型示例中通过设置不同模型参数规模,完成量化、模型构建和推理流程验证。该特性为小参数大语言模型的端到端部署和适配评估提供参考。
详情参看应用开发示例包中相关示例的
README.MD文件。Qwen3.5示例新增 896 x 896 分辨率支持
Qwen3.5(2B、4B、9B)模型现默认采用 896 x 896 输入分辨率,支持模型量化、编译及推理全流程验证。该优化使示例流程更加标准化,便于用户进行模型效果与性能的一致性评测,并降低环境配置复杂度。
详情参看应用开发示例包中相关示例的
README.MD文件。
4.7. 算子支持列表
本版本算子支持范围相对上一版本无变化。
完整算子支持范围及使用限制,请参见 《软件平台快速入门》。