M50软件平台概览

后摩大道软件平台是面向后摩M50系列产品打造的全栈AI软件开发平台，以存算一体架构为核心，提供覆盖模型开发、编译优化、推理部署与系统管理的完整软件栈与运行时体系。

在端侧AI应用开发过程中，模型适配复杂、硬件差异显著以及部署环境多样化，已成为应用开发与落地的核心挑战。后摩大道软件平台通过统一的软件栈，整合模型适配、编译优化、推理运行与系统部署能力，实现从模型到硬件平台的高效协同，有效屏蔽底层硬件复杂性，降低模型迁移与系统集成成本，帮助开发者快速构建端侧AI应用，加速产品落地。

依托完整的软件栈与运行时体系，软件平台可广泛应用于会议协作、机器人、智能安防、AI-PC、AI-NAS及AI-RAN等多样化端侧AI场景，能够满足不同业务场景下对性能、部署效率与系统集成能力的需求，助力端侧智能能力在更多行业场景中的应用与拓展。

后摩大道软件栈架构图如下：

1. 芯片硬件平台

后摩M50 SoC是后摩软件栈的底层硬件执行平台，为整个软件系统提供统一的计算、存储与数据通信能力支撑。

作为软件栈的运行基础，后摩M50 SoC提供面向异构计算场景的硬件执行环境，使上层软件能够高效调用其计算与加速能力，实现模型在端侧设备上的高性能推理执行。

软件栈中的驱动、编译器、运行时及开发工具均围绕后摩M50 SoC架构进行设计与优化，通过软硬件协同的方式，充分发挥硬件计算单元与内存体系的整体性能。

2. 芯片固件与驱动层

该层负责芯片底层初始化、设备驱动与硬件资源管理，并通过操作系统向上层软件提供统一的硬件访问与控制能力，是整个软件平台稳定运行的基础支撑层。

2.1 芯片固件

芯片固件运行于后摩M50 SoC底层执行环境中，是系统启动阶段的核心基础软件组件，负责完成硬件从上电到可运行状态的完整初始化流程。

主要职责包括：

SoC初始化与硬件启动流程控制。
底层资源调度与状态管理。
为驱动与系统软件提供运行时基础环境。

软件平台提供统一的固件升级与版本管理能力，有关固件镜像升级详情，参见HmUpdateTool工具使用指南和HMDML用户手册。

2.2 芯片硬件驱动

驱动层运行于操作系统与芯片固件之上，是连接上层软件与M50 SoC硬件加速能力的关键抽象层，提供标准化、可编程的硬件访问接口。

主要职责包括：

提供SoC与上层应用之间的标准通信机制。
管理计算、内存与通信子系统。
支撑上层推理框架对硬件资源的调用。

软件平台提供版本管理与兼容性支持，支持驱动升级、版本适配及系统稳定运行，详情参见软件平台驱动安装指南。

2.3 HMDML设备资源与管理

HMDML（Houmo Device Management Library，后摩设备管理库）是专为后摩M50系列产品设计的C语言编程接口库，为开发者提供标准化的设备管理能力。

该库主要用于：

精准查询硬件资源信息。
实时监控设备运行状态。
执行固件升级与设备管理操作。

HMDML作为M50平台的基础设备管理接口库，为第三方应用提供标准化设备访问与状态管理能力，支持开发者快速构建设备监控、运维与管理系统。详情参见HMDML用户手册和HMDML设备管理库接口。

2.4 系统管理接口（SMI工具）

SMI（System Management Interface，系统管理接口）工具是一组用于管理与监控后摩硬件设备的命令行工具。用户可以通过命令行方式获取硬件的功耗、结温、系统软件版本等信息。详情参见SMI工具使用指南。

2.5 PCIe性能评测工具

PCIe性能评测工具用于评估主机与后摩M50设备之间数据传输通道的读写通信带宽。相关测试方法与使用说明，参见PCIe性能评测工具用户指南。

2.6 HmUpdateTool固件升级工具

HmUpdateTool镜像升级工具用于烧写和升级后摩硬件的固件镜像。该工具根据SoC当前系统状态，提供命令行和GUI镜像升级模式，将镜像写入固件指定分区。详情参见HmUpdateTool工具使用指南。

3. 模型量化、编译与推理执行层

该层负责将来自主流深度学习框架的模型，经过模型量化与模型编译后，转换为适配后摩M50芯片的高效执行形式，并在后摩设备侧完成高性能推理执行。整体流程涵盖模型量化、编译及推理三个阶段，形成完整的端侧AI推理执行链路。

3.1 HMQuantool量化工具

HMQuantool量化工具用于对需要部署在后摩设备上的模型进行解析、图优化和PTQ量化（Post-Training Quantization，后训练量化），将高精度模型转换为适配后摩M50芯片的低精度高效执行模型。同时，该工具支持Golden Model生成与量化仿真评估，用于在实际部署前验证模型精度与性能表现的一致性。详情参见HMQuantool量化工具用户手册。

3.2 TCIM模型编译工具

TCIM（Tensor Compiler In Memory，后摩神经网络模型编译器）是面向M50 SoC架构的模型编译核心组件，基于MLIR构建，负责将量化后的模型转换为面向后摩硬件优化的高效执行表示。

该组件专注于模型编译阶段的核心处理能力，将高层模型表达转换为可在后摩M50硬件上高效执行的中间表示与二进制模型文件，并最终交由TCIM Runtime进行加载与执行。

主要功能包括：

多层中间表示（IR）建模与转换。
面向M50架构的算子融合与计算图优化。
异构计算单元自动映射与调度。
推理执行路径优化与资源利用率提升。

模型编译详情参看TCIM用户手册和TCIM模型编译接口。

3.3 TCIM Runtime推理引擎

TCIM Runtime 是面向后摩M50 SoC的高性能模型推理执行引擎，负责加载TCIM编译后模型文件并完成后摩设备侧推理与资源调度，是连接编译结果与硬件执行的运行时核心组件。

TCIM Runtime 提供统一的C++和Python编程接口，使开发者无需直接处理底层硬件细节，即可完成模型部署与推理执行。

详情参看TCIM用户手册、 TCIM模型推理与运行时接口和TCIM设备控制接口。

3.4 Profiler性能调试工具

Profiler性能调试工具在模型推理过程中收集后摩硬件IPU内核指令执行的性能数据，以及后摩硬件设备的DDR平均带宽和峰值带宽，支持分析瓶颈并优化计算性能。详情参看Profiler性能调试工具用户指南。

4. 开发环境、工具与示例

后摩软件平台为开发者提供统一的开发支持能力，覆盖开发环境配置、示例工程参考以及工具链组件，支撑基于后摩M50芯片的模型开发、调试、评测与部署全流程。通过标准化工具与参考实现，降低开发复杂度，加速端侧AI应用落地。

4.1 开发环境支持

软件平台提供跨平台统一开发环境，确保模型开发、编译与部署流程的一致性与可复现性：

基于Linux的Docker标准开发镜像，集成完整TCIM工具链运行环境。
面向Windows的MSVC Runtime SDK，支持本地开发与调试。
面向Android的Native运行时支持，适配端侧应用开发与部署场景。

4.2 示例开发包

软件平台提供端到端开发示例，覆盖模型量化、编译、推理与部署流程，便于开发者快速进行应用开发与验证。

主要包括：

模型评估示例。
应用推理示例。
C++和Python API调用示例。

通过标准化示例代码，帮助开发者快速构建基于TCIM的模型部署与推理应用。

4.3 开发与评测工具

后摩软件平台提供一系列开发与评测工具，用于支持模型开发调试、性能分析与精度验证。

4.3.1 部署环境检测工具

部署环境检测工具用于在实际后摩硬件设备上，对后摩设备部署环境的关键软件版本、硬件参数及核心性能指标进行自动化检测与校验，帮助用户快速评估部署环境的可用性与性能状态。详情参看部署环境检测工具用户指南。

4.3.2 模型性能基准评测工具集

模型性能基准评测工具集用于评估后摩M50设备在不同维度的模型基准能力，主要包括：

芯片算力基准测试工具： 用于评估后摩AI加速单元在计算密集型负载下的实际峰值推理算力。
芯片DDR带宽基准测试工具： 用于评估后摩M50芯片DDR内存的最大有效带宽。

相关测试方法与使用说明，参见模型性能基准评测工具用户指南。

4.3.3 模型性能评测工具集

模型性能评测工具集用于评估模型在真实设备上的运行表现，主要包括：

模型推理性能评测工具： 用于评测网络模型在M50后摩设备上的推理性能，帮助用户系统性地分析模型在实际运行环境中的延迟和吞吐量。
LLM推理性能评测工具： 用于评测LLM模型在M50后摩设备上的实际推理性能，帮助用户系统性地分析模型在真实运行环境中的延迟、吞吐量与生成速度。

详情可参看模型性能评测工具用户指南。

4.3.4 LLM精度评测工具

LLM精度评测工具用于对部署在M50后摩设备上的LLM模型和vLM模型进行高精度、自动化的精度评测。详情参看LLM精度评测工具用户指南。

4.3.5 模型转换与评估工具

模型转换与评估工具为ModelZoo模型库中的网络模型提供量化、编译、推理及性能和精度评测功能，实现一键化全流程评测和分析。详情参看模型转换与评估工具用户指南。

5. 应用软件开发套件

后摩揽月（Lanyue）AI开发套件提供后摩大道之上的软件栈能力，包括推理框架系列组件（HLIE）、AI中间件系列组件（HLAW）及不同类型的AI应用（HLChat）。作为能力延伸，也配套提供云应用体验平台、Open API能力及内部一系列自动化系统与工具。详情参看后摩揽月用户指南。