2. 简介

LLM(Large Language Model,大语言模型)精度评测工具是一款基于EvalScope的命令行工具,专门用于对部署在后摩芯片上的LLM模型和vLLM模型进行高精度、自动化的精度评测。

该工具通过加载自定义模型推理脚本,实现在多个标准数据集(如 MMLU、GSM8K 等)上对模型输出质量的评估,是模型调优过程中不可或缺的质量校验手段。

当前该工具提供部分编译后模型的精度评估,不包含原始模型精度评估流程。若需对比原始模型与编译后模型的精度结果,请自行完成原始模型评估脚本开发。

注意

该工具仅支持在后摩硬件设备上运行,无法在模拟器中执行。为确保在硬件平台上运行,请将环境变量设置为 export HDPL_PLATFORM=ASIC

2.1. 核心功能

  • EvalScope集成: 继承了EvalScope丰富的评测指标与数据集生态。

  • 高度灵活性: 支持通过自定义 Python 脚本无缝接入LLM精度评估。

  • 自动化参数解析: 支持对扩展参数进行自动类型转换。

3. 环境准备

3.1. 环境依赖

该工具支持平台如下:

  • Linux系统:

    • Ubuntu 24.04(x86_64)

    • Ubuntu 22.04(x86_64)

    • Ubuntu 20.04(x86_64)

3.2. 运行环境

工具可在下面环境中运行:

  • 软件平台Docker镜像:

    软件平台提供的 Docker 镜像已预置工具运行所需环境。有关Docker镜像的安装与部署,参看《后摩大道® 软件平台快速入门》。

3.3. Linux环境准备

工具使用前,执行下面指令配置运行环境:

  1. 下载应用开发示例包

  2. 将应用开发示例包拷贝到 可运行环境

  3. houmo-examples-xh2 目录下执行下面命令设置环境变量:

    source env.sh
    
  4. `houmo-examples-xh2/tools/hmeval 目录,按照依赖:

    pip install -e .[eval]