M50软件平台概览
后摩大道软件平台是面向后摩M50系列产品打造的全栈AI软件开发平台,以存算一体架构为核心,提供覆盖模型开发、编译优化、推理部署与系统管理的完整软件栈与运行时体系。
在端侧AI应用开发过程中,模型适配复杂、硬件差异显著以及部署环境多样化,已成为应用开发与落地的核心挑战。后摩大道软件平台通过统一的软件栈,整合模型适配、编译优化、推理运行与系统部署能力,实现从模型到硬件平台的高效协同,有效屏蔽底层硬件复杂性,降低模型迁移与系统集成成本,帮助开发者快速构建端侧AI应用,加速产品落地。
依托完整的软件栈与运行时体系,软件平台可广泛应用于会议协作、机器人、智能安防、AI-PC、AI-NAS及AI-RAN等多样化端侧AI场景,能够满足不同业务场景下对性能、部署效率与系统集成能力的需求,助力端侧智能能力在更多行业场景中的应用与拓展。
后摩大道软件栈架构图如下:
图 1 M50软件栈架构图
1. 芯片硬件平台
后摩M50 SoC是后摩软件栈的底层硬件执行平台,为整个软件系统提供统一的计算、存储与数据通信能力支撑。
作为软件栈的运行基础,后摩M50 SoC提供面向异构计算场景的硬件执行环境,使上层软件能够高效调用其计算与加速能力,实现模型在端侧设备上的高性能推理执行。
软件栈中的驱动、编译器、运行时及开发工具均围绕后摩M50 SoC架构进行设计与优化,通过软硬件协同的方式,充分发挥硬件计算单元与内存体系的整体性能。
2. 芯片固件与驱动层
该层负责芯片底层初始化、设备驱动与硬件资源管理,并通过操作系统向上层软件提供统一的硬件访问与控制能力,是整个软件平台稳定运行的基础支撑层。
2.1 芯片固件
芯片固件运行于后摩M50 SoC底层执行环境中,是系统启动阶段的核心基础软件组件,负责完成硬件从上电到可运行状态的完整初始化流程。
主要职责包括:
SoC初始化与硬件启动流程控制。
底层资源调度与状态管理。
为驱动与系统软件提供运行时基础环境。
软件平台提供统一的固件升级与版本管理能力,有关固件镜像升级详情,参见HmUpdateTool工具使用指南和HMDML用户手册 。
2.2 芯片硬件驱动
驱动层运行于操作系统与芯片固件之上,是连接上层软件与M50 SoC硬件加速能力的关键抽象层,提供标准化、可编程的硬件访问接口。
主要职责包括:
提供SoC与上层应用之间的标准通信机制。
管理计算、内存与通信子系统。
支撑上层推理框架对硬件资源的调用。
软件平台提供版本管理与兼容性支持,支持驱动升级、版本适配及系统稳定运行,详情参见软件平台驱动安装指南 。
2.3 HMDML设备资源与管理
HMDML(Houmo Device Management Library,后摩设备管理库)是专为后摩M50系列产品设计的C语言编程接口库,为开发者提供标准化的设备管理能力。
该库主要用于:
精准查询硬件资源信息。
实时监控设备运行状态。
执行固件升级与设备管理操作。
HMDML作为M50平台的基础设备管理接口库,为第三方应用提供标准化设备访问与状态管理能力,支持开发者快速构建设备监控、运维与管理系统。详情参见HMDML用户手册和HMDML设备管理库接口 。
2.4 系统管理接口(SMI工具)
SMI(System Management Interface,系统管理接口)工具是一组用于管理与监控后摩硬件设备的命令行工具。用户可以通过命令行方式获取硬件的功耗、结温、系统软件版本等信息。详情参见SMI工具使用指南 。
2.5 PCIe性能评测工具
PCIe性能评测工具用于评估主机与后摩M50设备之间数据传输通道的读写通信带宽。相关测试方法与使用说明,参见PCIe性能评测工具用户指南 。
2.6 HmUpdateTool固件升级工具
HmUpdateTool镜像升级工具用于烧写和升级后摩硬件的固件镜像。该工具根据SoC当前系统状态,提供命令行和GUI镜像升级模式,将镜像写到固件特定分区上。详情参见HmUpdateTool工具使用指南 。
3. 模型量化、编译与推理执行层
该层负责将来自主流深度学习框架的模型,经过模型量化与模型编译后,转换为适配后摩M50芯片的高效执行形式,并在后摩设备侧完成高性能推理执行。整体流程涵盖模型量化、编译及推理三个阶段,形成完整的端侧AI推理执行链路。
3.1 HMQuantool量化工具
HMQuantool量化工具用于将需要部署在后摩设备上的模型解析、图优化和PTQ量化(Post-Training Quantization,后训练量化),将高精度模型转换为适配后摩M50芯片的低精度高效执行模型。同时,该工具支持Golden Model生成与量化仿真评估,用于在实际部署前验证模型精度与性能表现的一致性。详情参见HMQuantool量化工具用户手册 。
3.2 TCIM模型编译工具
TCIM(Tensor Compiler In Memory,后摩神经网络模型编译器)是面向M50 SoC架构的模型编译核心组件,基于MLIR构建,负责将量化后的模型转换为面向后摩硬件优化的高效执行表示。
该组件专注于模型编译阶段的核心处理能力,将高层模型表达转换为可在后摩M50硬件上高效执行的中间表示与二进制模型文件,并最终交由TCIM Runtime进行加载与执行。
主要功能包括:
多层中间表示(IR)建模与转换。
面向M50架构的算子融合与计算图优化。
异构计算单元自动映射与调度。
推理执行路径优化与资源利用率提升。
此外,软件平台还提供ISIM芯片仿真能力,用于在无硬件或开发阶段验证模型执行正确性与一致性。
模型编译详情参看TCIM用户手册和TCIM模型编译接口 。
3.3 TCIM Runtime推理引擎
TCIM Runtime 是面向后摩M50 SoC的高性能模型推理执行引擎,负责加载TCIM编译后模型文件并完成后摩设备侧推理与资源调度,是连接编译结果与硬件执行的运行时核心组件。
TCIM Runtime 提供统一的C++和Python编程接口,使开发者无需直接处理底层硬件细节,即可完成模型部署与推理执行。
详情参看TCIM用户手册 、 TCIM模型推理与运行时接口和TCIM设备控制接口 。
3.4 Profiler性能调试工具
Profiler性能调试工具在模型推理过程中收集后摩硬件IPU内核指令执行的性能数据,和后摩硬件设备的DDR平均带宽和峰值带宽,支持分析瓶颈并优化计算性能。详情参看Profiler性能调试工具用户指南。
4. 开发环境、工具与示例
后摩软件平台为开发者提供统一的开发支持能力,覆盖开发环境配置、示例工程参考以及工具链组件,支撑基于后摩M50芯片的模型开发、调试、评测与部署全流程。通过标准化工具与参考实现,降低开发复杂度,加速端侧AI应用落地。
4.1 开发环境支持
软件平台提供跨平台统一开发环境,确保模型开发、编译与部署流程的一致性与可复现性:
基于Linux的Docker标准开发镜像,集成完整TCIM工具链运行环境。
面向Windows的MSVC Runtime SDK,支持本地开发与调试。
面向Android的Native 运行时支持,适配端侧应用开发与部署场景。
4.2 示例开发包
软件平台提供端到端开发示例,覆盖模型量化、编译、推理与部署流程,便于开发者快速进行应用开发与验证。
主要包括:
模型评估示例。
应用推理示例。
C++和Python API调用示例。
通过标准化示例代码,帮助开发者快速构建基于TCIM的模型部署与推理应用。
4.3 开发与评测工具
后摩软件平台提供一系列开发与评测工具,用于支持模型开发调试、性能分析与精度验证。
4.3.1 部署环境检测工具
部署环境检测工具用于在实际后摩硬件设备上,对后摩设备部署环境的关键软件版本、硬件参数及核心性能指标进行自动化检测与校验,帮助用户快速评估部署环境的可用性与性能状态。详情参看部署环境检测工具用户指南 。
4.3.2 模型性能基准评测工具集
模型性能基准评测工具集用于评估后摩M50设备在不同维度的模型基准能力,主要包括:
芯片算力基准测试工具: 用于评估后摩AI加速单元在计算密集型负载下的实际峰值推理算力。
芯片DDR带宽基准测试工具: 用于评估后摩M50芯片DDR内存的最大有效带宽。
相关测试方法与使用说明,参见模型性能基准评测工具用户指南 。
4.3.3 模型性能评测工具集
模型性能评测工具集用于评估模型在真实设备上的运行表现,主要包括:
模型推理性能评测工具: 用于评测网络模型在M50后摩设备上的推理性能,帮助用户系统性地分析模型在实际运行环境中的延迟和吞吐量。
LLM推理性能评测工具: 用于评测LLM模型在M50后摩设备上的实际推理性能,帮助用户系统性地分析模型在真实运行环境中的延迟、吞吐量与生成速度。
详情可参看模型性能评测工具用户指南。
4.3.4 LLM精度评测工具
LLM精度评测工具用于对部署在M50后摩设备上的LLM模型和vLLM模型进行高精度、自动化的精度评测。详情参看LLM精度评测工具用户指南。
4.3.5 模型转换与评估工具
模型转换与评估工具为ModelZoo模型库中的网络模型提供量化、编译、推理及性能和精度评测功能,实现一键化全流程评测和分析。详情参看模型转换与评估工具用户指南 。
5. 应用软件开发套件
后摩揽月(Lanyue)AI开发套件提供后摩大道之上的软件栈能力,包括推理框架系列组件(HLIE)、AI中间件系列组件(HLAW)及不同类型的AI应用(HLChat)。作为能力延伸,也配套提供云应用体验平台、Open API能力及内部一系列自动化系统与工具。详情参看后摩揽月用户指南 。