3.1. 简介
LLM(Large Language Model,大语言模型)推理性能评测工具用于评测LLM模型和vLM模型在M50后摩设备上的实际推理性能。工具通过分别测量 Prefill 阶段、Decode 阶段和端到端推理的关键性能指标,帮助用户系统性地分析模型在真实运行环境中的延迟、吞吐量与生成速度。
工具可输出包括 Prefill Time、Decode Time、TTFT(Time To First Token)、TPOT(Time Per Output Token)、E2E Latency、E2E TPS等核心指标, 以及推理过程中后摩设备的温度、功耗内存等信息,并支持多轮重复测试,最终给出平均性能统计。评测结果可用于模型性能优化、硬件能力评估及资源调度策略制定。
注意
该工具仅支持在后摩硬件设备上运行,无法在模拟器中执行。为确保在硬件平台上运行,请将环境变量设置为 export HDPL_PLATFORM=ASIC。
3.1.1. 性能说明
LLM统计的是从输入处理到模型推理完成的整体执行开销。测试结果包含主机侧 embedding 生成、输入数据传输、运行时调度及 M50 设备推理等耗时。因此,测试结果不仅反映M50设备推理性能,还会受到主机CPU性能、数据传输带宽及运行环境等因素影响。不同测试环境下,性能数据可能存在差异。
3.1.2. 模型列表
支持的模型列表如下:
LLM模型:
DeepSeek-R1-Qwen3-8B
Qwen2.5
Qwen3-0.6B
Qwen3-1.7B
Qwen3-8B
Qwen3-14B
Qwen3.5
Qwen3-30B-A3B
GPT-OSS
VLM模型:
Qwen2.5-VL
Qwen3-VL
3.2. 环境准备
3.2.1. 环境依赖
该工具支持平台如下:
Linux系统:
Ubuntu 24.04(x86_64)
Ubuntu 22.04(x86_64)
Ubuntu 20.04(x86_64、AArch64)
Windows系统:
Windows11
Android系统:
操作系统:Android 15 (API level 35)
CPU 架构:arm64‑v8a
内核版本:Linux 6.1
开发调试工具:adb (Android Debug Bridge)
注:adb 工具默认不随系统安装。
3.2.2. 运行环境
工具可在下面环境中运行:
软件平台Docker镜像:
(仅支持Linux系统)软件平台提供的 Docker 镜像已预置工具运行所需环境。有关Docker镜像的安装与部署,参看《后摩大道® 软件平台快速入门》。
运行时开发工具包:
可使用运行时开发工具包
houmo_tcim_runtime_<target_hw>_${distro}_$arch-<release>.tar.gz。详情参看《后摩大道® M50 TCIM用户手册》。
3.2.3. Linux环境准备
工具使用前,执行下面指令配置运行环境:
3.2.4. Windows环境准备
工具使用前,执行下面指令配置运行环境:
下载应用开发示例包。该工具位于应用开发示例包
houmo-examples_<release>.zip中houmo-examples-xh2\tools\llm_perf目录下。将应用开发示例包拷贝到可运行环境中。详情参看 工具支持的运行环境。
在
houmo-examples-xh2目录下执行下面命令设置环境变量:注意
必须使用管理员权限打开命令行提示符窗口。
清除历史环境变量设置:
env.bat --reset
指令执行过程中可能需要设置
HOUMO_SDK_PATH、CMAKE_PATH、OPENCV_PATH等环境变量。关闭命令行提示符窗口。
使用管理员权限打开命令行提示符窗口,设置环境变量:
env.bat --set
用户需要检查reset指令输出的Warning部分的路径是否正确。如果不正确需要自行删除。
关闭命令行提示符窗口。
执行下面命令编译:
build_win.bat
编译完成后,生成
llm_perf.exe可执行文件,位于tools\bin目录下。
3.2.5. Android环境准备
工具使用前,执行下面指令配置运行环境:
Android设备端环境准备:配置最新版本Andorid驱动和固件镜像,详情参看《后摩大道® 软件平台驱动安装指南》和《后摩大道® HmUpdateTool 工具使用指南》。
主机端,设置Android NDK。
下载官方Android NDK 软件包。该工具仅在
android-ndk-r28c版本上验证通过。如使用其他版本,请根据实际环境进行适配。设置
NDK_PATH环境变量,指向 Android NDK 软件包的解压路径。
主机端,配置应用开发示例:
执行下面指令解压应用开发示例包。
unzip houmo-examples-<targe_hw>_<release>.zip
解压后为
houmo-examples-xh2。设置环境变量:
cd houmo-examples-xh2 souce env.sh
主机端,配置Andorid 驱动:
下载新版本 Andorid 驱动安装包。
登录后摩开发者社区 。
在 请先选择板级类别 下拉列表中选择使用的后摩板级产品。
在版本列表中选择下载的版本号,再在 AI模型类别筛选器 、平台架构筛选器 、操作系统筛选器 下拉菜单中分别选择AI模型类型、平台架构和操作系统,找到资源名为芯片驱动的下载资源,选中该资源左边复选框。
点击 直接下载、wget链接、批量直接下载 或 wget批量下载 按钮,下载驱动安装包。
执行下面指令解压驱动安装包。
tar -xzf houmo-drv-<targe_hw>_<release>_androidmicron_$arch.tar.gz
解压后为
houmo-drv-xh2。设置
HOUMO_SDK_PATH环境变量,指向驱动安装包的解压路径,示例如下:export HOUMO_SDK_PATH=/home/houmo-drv-xh2
主机端,配置运行时开发工具包:
下载新版本运行时开发工具包。
登录后摩开发者社区。
在 请先选择板级类别 下拉列表中选择使用的后摩板级产品。
在版本列表中选择下载的版本号,再在 AI模型类别筛选器 、平台架构筛选器 、操作系统筛选器 下拉菜单中分别选择AI模型类型、平台架构和操作系统,找到资源名为Runtime SDK的下载资源,选中该资源左边复选框。
点击 直接下载、wget链接、批量直接下载 或 wget批量下载 按钮。
执行下面指令解压运行时开发工具包。
tar -xzf houmo-tcim-runtime-<target_hw>_${distro}_$arch-<release>.tar.gz解压后为
houmo-tcim-runtime-xh2。设置
TCIM_RUNTIME_PATH环境变量,指向运行时开发工具包的解压路径,示例如下:export TCIM_RUNTIME_PATH=/home/houmo-tcim-runtime-xh2
在主机端,进入
houmo-examples-xh2/tools/llm_perf目录下,执行下面指令编译工具:./build_ndk.sh
编译完成后,生成
llm_perf可执行文件,位于tools/android目录下。在主机端,将生成的
llm_perf传输到Android设备的/data/houmo目录:adb push llm_perf /data/houmo
在主机端,将运行时开发工具包解压后文件夹
houmo-tcim-runtime-xh2传输到Android设备的/data/houmo目录:adb push houmo-tcim-runtime-xh2 /data/houmo
在主机端,将要评测的模型文件传输到Android设备的
/data/houmo目录,示例如下:adb push prefill_model.hmm /data/houmo adb push decode_model.hmm /data/houmo
在主机端,通过 adb 进入Android设备开发板命令行,并获取 root 权限:
adb shell su
在Android设备端,设置环境变量:
export TCIM_BACKEND=Xh2HalBackend export TCIM_RUNTIME_PATH=$TCIM_RUNTIME export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/data/houmo/houmo_drv_xh2/hal/lib
其中
$TCIM_RUNTIME为传输的运行时开发工具包的路径,如/data/houmo/houmo-tcim-runtime-xh2。
执行以上步骤后,即可在 Android 环境下使用 llm_perf 工具。