2. 简介

LLM（Large Language Model，大语言模型）精度评测工具是一款基于EvalScope的命令行工具，专门用于对部署在后摩芯片上的LLM模型和VLM模型进行高精度、自动化的精度评测。

该工具通过加载自定义模型推理脚本，实现在多个标准数据集（如 MMLU、GSM8K 等）上对模型输出质量的评估，是模型调优过程中不可或缺的质量校验手段。

注意

当前该工具提供部分编译后模型的精度评估，不包含原始模型精度评估流程。若需对比原始模型与编译后模型的精度结果，请自行完成原始模型评估脚本开发。

2.1. 核心功能

EvalScope集成： 继承了EvalScope丰富的评测指标与数据集生态。
高度灵活性： 支持通过自定义 Python 脚本无缝接入LLM精度评估。
自动化参数解析： 支持对扩展参数进行自动类型转换。

3. 环境准备

3.1. 运行环境

工具可在下面环境中运行：

软件平台Docker镜像：

软件平台提供的Docker镜像已预置工具运行所需环境。当前仅 Ubuntu 24.04（x86_64）全功能镜像支持该工具运行。有关Docker镜像的安装与部署，参看《快速入门指南》。

3.2. Linux环境准备

工具使用前，执行下面指令配置运行环境：

下载应用开发示例包。
将应用开发示例包拷贝到可运行环境。
在 houmo-examples-xh2 目录下执行下面命令设置环境变量：
```
source env.sh
```
在 houmo-examples-xh2/tools/hmeval 目录，安装依赖：
```
pip install -e .[eval]
```