4. 新增功能和特性变更

4.1. 通用

Linux Docker镜像包变更

本版本调整后摩软件平台提供的Docker镜像支持范围，不再支持Ubuntu 22.04与Ubuntu 20.04版本镜像。同时新增Ubuntu 24.04 x86_64专用于推理部署的镜像（deploy 镜像），以及 AArch64架构推理部署镜像，以满足不同硬件平台的推理部署需求。

支持Docker镜像如下：
- x86_64全功能镜像：
  
  支持模型量化、模型编译与模型推理。
  
  Dadao-convert-docker-xh2-vx.y.z-ubuntu24.04-x86.64.tar
- x86_64推理部署镜像（deploy镜像）：
  
  仅支持模型推理运行，不包含模型量化与模型编译。
  
  镜像名称中包含 deploy 标识。
  
  Dadao-deploy-docker-xh2-deploy-vx.y.z-ubuntu24.04-x86.64.tar
- AArch64推理部署镜像：
  
  仅支持ARM64架构下模型推理运行，不包含模型量化与模型编译。
  
  Dadao-deploy-docker-xh2-deploy-vx.y.z-ubuntu24.04-aarch64.tar
新增多M50芯片（多逻辑设备）Docker容器映射与部署支持

支持在Docker环境中对多M50芯片（多逻辑设备）进行统一识别与设备节点映射，覆盖单设备多芯片及跨设备互联（CTC）部署场景，提升多卡系统的部署灵活性与资源利用效率。
- 单设备多芯片场景： 单个后摩设备内集成多颗M50芯片，在Linux系统层每颗芯片均作为独立后摩逻辑设备进行管理。支持按逻辑设备粒度进行容器化映射，实现更细粒度的资源隔离与调度，提升多芯片并行推理效率与部署可控性。
- 跨设备互联场景（CTC）： 多个后摩设备通过芯片间互联（Chip-to-Chip, CTC）进行物理连接，支持跨芯片、跨设备的联合部署与协同推理能力。在分布式推理场景下，可提升多设备协同效率，增强系统扩展性与整体算力利用率。
优化过温保护策略

本版本优化了后摩设备的过温保护机制，将过温降频阈值由100°C调整为90°C，过温重启阈值由104°C调整为105°C。优化后，系统能够更早地启动降频保护，并在温度短时波动时避免过早触发重启，从而在保证设备安全性的同时，降低因温度持续升高或瞬时波动导致异常重启的风险，进一步提升系统运行稳定性。

4.2. 驱动和固件

新增双分区固件升级与回退机制

本版本新增基于A/B双分区的固件升级与回退能力，用于提升系统升级的可靠性与容错能力。

启用该功能后，系统维护A与B两个分区。在升级过程中，若发生掉电或异常重启等情况，当前正在运行的系统不受影响，后摩设备仍可从另一可用分区启动。当新版本分区因镜像损坏、校验失败或启动异常导致无法正常启动时，后摩设备启动链路将自动切换至另一可启动分区继续启动，从而降低升级失败导致设备不可用的风险。

该特性提供更高等级的固件升级安全保障与系统可靠性，在异常场景下具备自动恢复能力，可显著降低设备不可用风险，并减少现场维护与人工恢复成本，从而提升整体系统稳定性与运维效率。
Windows驱动文件增加公司名称签名

Windows驱动安装包数字签名信息中新增公司名称（Houmo）标识，用于统一签名信息展示与校验标识，提升驱动分发与安装过程的可信度与兼容性。

4.3. HMQuantool 量化工具

大语言模型量化新增多GPU并行与CPU导出能力

在大语言模型量化过程中，单GPU环境容易受到显存限制，导致量化速度受限，且大语言模型导出阶段对显存资源要求较高，影响整体使用灵活性。

本版本新增支持多GPU并行量化能力，通过多卡并行方式降低单卡显存占用并提升量化执行效率；同时支持CPU侧模型导出能力，使导出流程可在低显存或无GPU环境下完成，从而降低整体资源门槛。
新增模型量化支持

本版本支持对以下模型量化，以提升推理性能和降低资源占用：
- PaddleOCR-VL
- Z-Image-Turbo
- Gemma 4（支持 MTP 的模型量化）
- GPT-OSS 120B-A5B
- Gemma 4 e2B
- Gemma 4 e4B
- MinerU 2.5 Pro 1.2B (build 2604)
- Gemma 3 1B
- DINOv3
- CAM++
- PuncCT-Transformer
- Qwen3-Next 80B-A3B

4.4. 模型编译

模型编译支持能力扩展

本版本在 tcim.builder.api.build_from_hmonnx 模型编译接口中新增MoE Sharding策略和LoRA参数编译期集成功能，提升模型在多设备部署场景下的灵活性与执行效率。用户可通过以下参数进行设置：
- MoE Sharding策略： 通过参数 moe_device_sharding 控制MoE专家权重在多设备间的分布方式，支持ep、tp、er三种模式，以适配不同的显存占用与decode、prefill 性能权衡场景。
- LoRA参数编译期集成： 通过参数 enable_bundle_lora_param 支持在编译阶段将LoRA参数打包至模型输入，并自动生成对应LoRA输入文件，简化LoRA模型部署流程。
详情参看《TCIM开发者手册》。
新增模型编译支持

本版本新增对以下模型的编译支持，提升模型的灵活性和性能：
- PaddleOCR-VL
- Z-Image-Turbo
- Gemma 4（支持MTP的模型编译）
- GPT-OSS 120B-A5B
- Gemma 4 e2B
- Gemma 4 e4B
- MinerU 2.5 Pro 1.2B (build 2604)
- Gemma 3 1B
- DINOv3
- CAM++
- PuncCT-Transformer
- Qwen3-Next 80B-A3B
API变更
- tcim.builder.api.build_from_hmonnx 接口新增 moe_device_sharding 和 enable_bundle_lora_param 参数。

详情参看《TCIM开发者手册》。

4.5. 运行时推理与部署

支持大尺寸图像动态处理

在之前版本中，图像动态处理能力支持图像裁剪、尺寸调整及填充操作，并提供单图单区域、单图多区域以及多图多区域的动态裁剪模式，但输入与输出尺寸最大限制为 512 x 512。本版本在保持原有动态裁剪与多区域处理能力不变的基础上，提升图像处理分辨率上限至4096 x 4096，从而满足高分辨率OCR、细粒度目标检测及复杂场景图像预处理等应用需求。

详细使用说明和限制，详情参看《TCIM用户手册》。

新增自动复位机制

本版本新增TCIM自动复位机制，支持在后摩芯片发生推理超时或卡死等异常时，由系统自动触发设备级快速复位，实现推理服务的自动恢复能力。

当推理过程中后摩逻辑设备因算子异常、输入异常或运行时状态异常进入不可用状态时，TCIM可自动执行复位流程。复位完成后，用户无需重新加载模型或重建Stream，即可基于原有运行环境继续发起推理任务，从而实现快速恢复。

详情参看《TCIM用户手册》。

新增Tensor置零功能

本版本新增Tensor置零功能，可通过 Tensor::SetZero （C++接口）或 tcim_lite.runtime.Tensor.set_zero （Python接口）将Tensor数据统一置零处理。

该接口支持对不同类型tensor的一致性处理行为：
- 对于采用连续内存布局的Tensor，对其底层连续内存区域执行全量置零操作；
- 对于 CompND Tensor，递归对其所有子 Tensor 执行置零操作；
- 对于通过 Tensor::SelectROI （C++接口）或 tcim_lite.runtime.Tensor.select_roi （Python接口）创建的ROI Tensor，仅对ROI区域对应的内存范围执行置零操作，不影响非ROI区域数据。
该功能可降低用户手动内存初始化复杂度，提升多类型Tensor场景下的数据一致性处理效率，并减少因数据残留导致的计算异常风险。

详情参看《TCIM开发者手册》。
CompND Tensor支持在多设备场景下克隆为独立Tensor副本

本版本优化CompND Tensor在多设备场景下的处理能力，支持在当前后摩设备上直接对CompND Tensor执行Clone操作，生成可用于当前设备的独立Tensor副本。

该能力用于替代原有依赖主机中转的数据路径，使多设备CompND Tensor可在设备侧直接完成Clone，并重新执行SetInput或KVCache重建流程，从而减少跨端数据搬运开销并提升执行效率。
新增CoreMask算力核绑定调度能力

在多核并行推理场景下，默认调度方式可能无法满足对计算资源绑定与隔离的精细化控制需求，影响多任务并发执行时的性能稳定性与资源利用效率。

本版本新增CoreMask功能，支持对推理执行所使用的计算核心进行显式绑定配置，可通过 Module::RunOption::CoreMask （C++接口）或 tcim_lite.runtime.RunOption.core_mask （Python接口）进行设置。

该特性可支持用户对计算核心进行精细化控制，实现负载隔离与资源定向分配，从而提升多任务并发场景下的性能可控性与系统稳定性。

详情参看《TCIM开发者手册》。
Gemma 4模型推理内存占用优化

本版本优化Gemma 4 26B-A4B模型的内存占用，在支持256K长上下文的前提下显著降低资源需求。

该优化显著降低长上下文推理内存需求，并提升模型在中低配置设备上的部署可行性。
Stream同步与资源释放机制优化

本版本对Stream同步机制进行了优化，IPU资源释放行为统一由 Stream::Sync （C++接口）及 tcim_lite.runtime.Stream.sync （Python接口）处理。原 Stream::SyncYield （C++接口）和 tcim_lite.runtime.Stream.sync_yield （Python接口）不再支持。
不再支持ISIM模拟器运行模式

之前版本中，可通过环境变量 HDPL_PLATFORM=ISIM 切换至ISIM模拟器运行模式，以支持模型推理、图像预处理等功能在模拟环境下运行。从本版本起，仅支持在后摩硬件设备上运行模型推理相关功能，不再支持模拟器运行模式。
API变更
- C++ API：
  - 新增接口如下：
    - Tensor::SetZero
    - Module::RunOption::CoreMask
    - Module::RunOption::GetCoreMask
  - 废弃接口如下：
    - Stream::SyncYield
- Python API：
  - 新增接口如下：
    - tcim_lite.runtime.Tensor.set_zero
    - tcim_lite.runtime.Tensor.select_roi
    - tcim_lite.runtime.Tensor.as_formular
    - tcim_lite.runtime.Tensor.mem_size
    - tcim_lite.runtime.TensorInfo.is_match
    - tcim_lite.runtime.TensorInfo.clone
    - tcim_lite.runtime.TensorInfo.as_formular
    - tcim_lite.runtime.Buffer.clone
    - tcim_lite.runtime.Buffer.get_sub_buffer
    - tcim_lite.runtime.Buffer.device_id
    - tcim_lite.runtime.Module.get_core_num
    - tcim_lite.runtime.Module.get_backend_name
    - tcim_lite.runtime.RunOption.core_mask
    - tcim_lite.runtime.RunOption.set_core_mask
  - 废弃接口如下：
    - tcim_lite.runtime.Stream.sync_yield

详情参看《TCIM开发者手册》。

4.6. 开发工具

优化SMI IPU核频率配置，支持按产品配置释放最大性能

之前版本中，hm_smi -lc 指令用于设置IPU核频率范围，且所有后摩产品共用相同的频率范围。不同产品形态、不同板载M50芯片工作配置，对应的稳定运行频率上限不同。统一的频率范围无法充分适配各产品的性能差异，可能限制部分产品设置更高的稳定频率档位，影响设备算力性能释放。

本版本优化了IPU核频率配置机制，支持根据不同后摩设备及板载M50芯片工作配置，设置对应的IPU核频率最高值。相应地，hm_smi -lc 参数由设置IPU 核频率范围，调整为锁定IPU核频率最高值。

该优化可更好地适配不同产品形态和芯片工作配置下的性能差异，帮助用户在满足系统稳定性、功耗和散热要求的前提下，选择更匹配的高性能频率档位，进一步释放设备算力性能，提升高负载和性能敏感型场景下的部署与调优效率。
SMI工具支持按顺序显示设备编号

之前版本中，在多逻辑设备或多卡测试场景下，SMI工具输出的Dev设备编号可能存在展示顺序不直观的问题，增加了设备对照与定位的复杂度。

本版本对设备列表展示逻辑进行了优化，引入 Dev 编号自然排序能力，使输出结果按用户认知顺序统一排列展示。

该能力可提升多设备环境下的输出一致性与可读性，减少因编号顺序波动带来的理解偏差，提高多卡测试与问题排查效率。需要注意的是，在多逻辑设备场景下 Dev 编号可能不连续，但仍遵循自然排序展示规则，不影响设备识别与功能使用。
Hmatc模型转换与评估工具支持动态图像处理

Hmatc模型转换与评估工具新增支持动态图像处理功能，提供单图单区域动态裁剪能力。用户可通过配置 config.yml 中相关参数，并在模型量化、编译及推理时完成图像处理，实现图像动态裁剪的端到端支持。

详情参看《模型转换与评估工具用户指南》。

4.7. 开发样例

ModelZoo 新增示例

ModelZoo 新增以下模型示例，扩展视觉与多模态模型支持能力，方便用户快速验证与集成：
- CAM
- CT-Transformer
- DINOv3-Base
- MinerU 2.5
- PaddleOCR-VL
- Qwen3-Next
- Qwen3-Omni
- Z-Image
- Gemma 4 e2B
- Gemma 4 e4B
- Gemma 4 31B
- GPT-OSS 120B-A5B
- Qwen3-tts
该更新可帮助用户更高效地进行模型功能验证与端到端流程验证，降低模型接入与适配成本。
ModelZoo Qwen3-VL C++示例新增交互与多模态能力

ModelZoo Qwen3-VL C++ 示例新增以下能力：
- 新增交互式推理模式（--it），支持连续对话。
- 新增多图输入能力，支持命令行（--image）及交互模式下输入多张图片。
- 新增历史上下文保留能力（--history），支持多轮对话上下文复用。
ModelZoo CosyVoice3示例新增长文本和长音频生成能力

ModelZoo CosyVoice3模型Python和C++示例新增长文本与长音频生成能力，支持无需额外配置参数即可直接处理长输入内容。示例会自动对输入文本进行规范化与分段处理，将长文本切分为多个语音片段逐段合成，并按顺序拼接生成完整音频，提升长篇朗读、内容播报与连续语音生成场景的使用体验。
ModelZoo GLM-OCR示例新增多尺寸视觉模型输入支持

GLM-OCR模型Python示例新增多尺寸视觉模型输入能力，支持通过 --vit_path 同时传入多个不同输入尺寸的视觉模型，并在推理过程中根据输入图片尺寸自动选择最合适的模型执行OCR推理，提升多分辨率场景下的适配能力与识别效果。
ModelZoo Qwen3.5 9B、Qwen3.6 35B-A3B、Gemma 4支持MTP模型编译与推理

支持ModelZoo Qwen3.5 9B、Qwen3.6 35B-A3B 及 Gemma 4 MTP模型示例的编译与推理能力。MTP通过单次推理预测多个后续token，减少自回归生成中的逐token 计算开销，从而提升生成速度并降低端到端推理延迟。
ModelZoo Qwen3.5模型示例支持CPU侧量化导出能力

ModelZoo Qwen3.5新增支持在 CPU 侧完成模型量化导出流程，包括前端图转换、PTQ 校准量化及ONNX/HMONNX导出，从而降低导出阶段对单卡显存的依赖。
ModelZoo模型库移除部分示例模型支持

ModelZoo 本版本不再提供以下示例模型支持：
- Qwen3.5-27B
- Qwen3.5-35B-A3B
该调整用于优化模型示例维护范围，聚焦核心与主流推理配置，降低维护复杂度并提升整体示例一致性与可用性。上述模型与Qwen3.6模型结构保持一致，用户可参考Qwen3.6示例完成模型部署与推理流程。
ModelZoo模型示例废弃与停止维护

ModelZoo 本版本起，以下模型示例进入维护终止状态，不再进行功能更新、适配验证及问题修复：
- Qwen2.5
- Qwen3
- Qwen3-30B-A3B
- DeepSeek-R1-Qwen3-8B
- MiniCPM-o
- Qwen2.5-VL
- Qwen3-VL
这些示例将不再作为后续版本的维护对象，建议用户基于新版本模型示例或等效替代方案进行迁移，以确保持续获得功能更新、性能优化及兼容性支持。

4.8. 算子支持列表

本版本算子支持范围相对上一版本无变化。

完整算子支持范围及使用限制，请参见《软件平台快速入门》。