3.1. 简介

LLM(Large Language Model,大语言模型)推理性能评测工具用于评测LLM模型和vLM模型在M50后摩设备上的实际推理性能。工具通过分别测量 Prefill 阶段、Decode 阶段和端到端推理的关键性能指标,帮助用户系统性地分析模型在真实运行环境中的延迟、吞吐量与生成速度。

工具可输出包括 Prefill Time、Decode Time、TTFT(Time To First Token)、TPOT(Time Per Output Token)、E2E Latency、E2E TPS等核心指标, 以及推理过程中后摩设备的温度、功耗内存等信息,并支持多轮重复测试,最终给出平均性能统计。评测结果可用于模型性能优化、硬件能力评估及资源调度策略制定。

注意

该工具仅支持在后摩硬件设备上运行,无法在模拟器中执行。为确保在硬件平台上运行,请将环境变量设置为 export HDPL_PLATFORM=ASIC

3.1.1. 性能说明

LLM统计的是从输入处理到模型推理完成的整体执行开销。测试结果包含主机侧 embedding 生成、输入数据传输、运行时调度及 M50 设备推理等耗时。因此,测试结果不仅反映M50设备推理性能,还会受到主机CPU性能、数据传输带宽及运行环境等因素影响。不同测试环境下,性能数据可能存在差异。

3.1.2. 模型列表

支持的模型列表如下:

  • LLM模型:

    • DeepSeek-R1-Qwen3-8B

    • Qwen2.5

    • Qwen3-0.6B

    • Qwen3-1.7B

    • Qwen3-8B

    • Qwen3-14B

    • Qwen3.5

    • Qwen3-30B-A3B

    • GPT-OSS

  • VLM模型:

    • Qwen2.5-VL

    • Qwen3-VL

3.2. 环境准备

3.2.1. 环境依赖

该工具支持平台如下:

  • Linux系统:

    • Ubuntu 24.04(x86_64)

    • Ubuntu 22.04(x86_64)

    • Ubuntu 20.04(x86_64、AArch64)

  • Windows系统:

    • Windows11

  • Android系统:

    • 操作系统:Android 15 (API level 35)

    • CPU 架构:arm64‑v8a

    • 内核版本:Linux 6.1

    • 开发调试工具:adb (Android Debug Bridge)

      注:adb 工具默认不随系统安装。

3.2.2. 运行环境

工具可在下面环境中运行:

  • 软件平台Docker镜像:

    (仅支持Linux系统)软件平台提供的 Docker 镜像已预置工具运行所需环境。有关Docker镜像的安装与部署,参看《后摩大道® 软件平台快速入门》。

  • 运行时开发工具包:

    可使用运行时开发工具包 houmo_tcim_runtime_<target_hw>_${distro}_$arch-<release>.tar.gz。详情参看《后摩大道® M50 TCIM用户手册》。

3.2.3. Linux环境准备

工具使用前,执行下面指令配置运行环境:

  1. 下载应用开发示例包

  2. 将应用开发示例包拷贝到 可运行环境

  3. houmo-examples-xh2 目录下执行下面命令设置环境变量:

    source env.sh
    
  4. houmo-examples-xh2 目录下,执行下面命令编译:

    cd tools/llm_perf
    ./build_linux.sh
    

    编译完成后,生成 llm_perf 可执行文件,位于 tools/bin 目录下。

3.2.4. Windows环境准备

工具使用前,执行下面指令配置运行环境:

  1. 下载应用开发示例包。该工具位于应用开发示例包 houmo-examples_<release>.ziphoumo-examples-xh2\tools\llm_perf 目录下。

  2. 将应用开发示例包拷贝到可运行环境中。详情参看 工具支持的运行环境

  3. houmo-examples-xh2 目录下执行下面命令设置环境变量:

    注意

    必须使用管理员权限打开命令行提示符窗口。

    1. 清除历史环境变量设置:

      env.bat --reset
      

      指令执行过程中可能需要设置 HOUMO_SDK_PATHCMAKE_PATHOPENCV_PATH 等环境变量。

    2. 关闭命令行提示符窗口。

    3. 使用管理员权限打开命令行提示符窗口,设置环境变量:

      env.bat --set
      

      用户需要检查reset指令输出的Warning部分的路径是否正确。如果不正确需要自行删除。

    4. 关闭命令行提示符窗口。

  4. 执行下面命令编译:

    build_win.bat
    

    编译完成后,生成 llm_perf.exe 可执行文件,位于 tools\bin 目录下。

3.2.5. Android环境准备

工具使用前,执行下面指令配置运行环境:

  1. Android设备端环境准备:配置最新版本Andorid驱动和固件镜像,详情参看《后摩大道® 软件平台驱动安装指南》和《后摩大道® HmUpdateTool 工具使用指南》。

  2. 主机端,设置Android NDK。

    1. 下载官方Android NDK 软件包。该工具仅在 android-ndk-r28c 版本上验证通过。如使用其他版本,请根据实际环境进行适配。

    2. 设置 NDK_PATH 环境变量,指向 Android NDK 软件包的解压路径。

  3. 主机端,配置应用开发示例:

    1. 下载应用开发示例包

    2. 执行下面指令解压应用开发示例包。

      unzip houmo-examples-<targe_hw>_<release>.zip
      

      解压后为 houmo-examples-xh2

    3. 设置环境变量:

      cd houmo-examples-xh2
      souce env.sh
      
  4. 主机端,配置Andorid 驱动:

    1. 下载新版本 Andorid 驱动安装包。

      1. 登录后摩开发者社区

      2. 请先选择板级类别 下拉列表中选择使用的后摩板级产品。

      3. 在版本列表中选择下载的版本号,再在 AI模型类别筛选器平台架构筛选器操作系统筛选器 下拉菜单中分别选择AI模型类型、平台架构和操作系统,找到资源名为芯片驱动的下载资源,选中该资源左边复选框。

      4. 点击 直接下载wget链接批量直接下载wget批量下载 按钮,下载驱动安装包。

    2. 执行下面指令解压驱动安装包。

      tar -xzf houmo-drv-<targe_hw>_<release>_androidmicron_$arch.tar.gz
      

      解压后为 houmo-drv-xh2

    3. 设置 HOUMO_SDK_PATH 环境变量,指向驱动安装包的解压路径,示例如下:

      export HOUMO_SDK_PATH=/home/houmo-drv-xh2
      
  5. 主机端,配置运行时开发工具包:

    1. 下载新版本运行时开发工具包。

      1. 登录后摩开发者社区

      2. 请先选择板级类别 下拉列表中选择使用的后摩板级产品。

      3. 在版本列表中选择下载的版本号,再在 AI模型类别筛选器平台架构筛选器操作系统筛选器 下拉菜单中分别选择AI模型类型、平台架构和操作系统,找到资源名为Runtime SDK的下载资源,选中该资源左边复选框。

      4. 点击 直接下载wget链接批量直接下载wget批量下载 按钮。

    2. 执行下面指令解压运行时开发工具包。

      tar -xzf houmo-tcim-runtime-<target_hw>_${distro}_$arch-<release>.tar.gz
      

      解压后为 houmo-tcim-runtime-xh2

    3. 设置 TCIM_RUNTIME_PATH 环境变量,指向运行时开发工具包的解压路径,示例如下:

      export TCIM_RUNTIME_PATH=/home/houmo-tcim-runtime-xh2
      
  6. 在主机端,进入 houmo-examples-xh2/tools/llm_perf 目录下,执行下面指令编译工具:

    ./build_ndk.sh
    

    编译完成后,生成 llm_perf 可执行文件,位于 tools/android 目录下。

  7. 在主机端,将生成的 llm_perf 传输到Android设备的 /data/houmo 目录:

    adb push llm_perf /data/houmo
    
  8. 在主机端,将运行时开发工具包解压后文件夹 houmo-tcim-runtime-xh2 传输到Android设备的 /data/houmo 目录:

    adb push houmo-tcim-runtime-xh2 /data/houmo
    
  9. 在主机端,将要评测的模型文件传输到Android设备的 /data/houmo 目录,示例如下:

    adb push prefill_model.hmm /data/houmo
    adb push decode_model.hmm /data/houmo
    
  10. 在主机端,通过 adb 进入Android设备开发板命令行,并获取 root 权限:

    adb shell
    su
    
  11. 在Android设备端,设置环境变量:

    export TCIM_BACKEND=Xh2HalBackend
    export TCIM_RUNTIME_PATH=$TCIM_RUNTIME
    export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/data/houmo/houmo_drv_xh2/hal/lib
    

    其中 $TCIM_RUNTIME 为传输的运行时开发工具包的路径,如 /data/houmo/houmo-tcim-runtime-xh2

执行以上步骤后,即可在 Android 环境下使用 llm_perf 工具。