2. 简介
LLM(Large Language Model,大语言模型)精度评测工具是一款基于EvalScope的命令行工具,专门用于对部署在后摩芯片上的LLM模型和vLLM模型进行高精度、自动化的精度评测。
该工具通过加载自定义模型推理脚本,实现在多个标准数据集(如 MMLU、GSM8K 等)上对模型输出质量的评估,是模型调优过程中不可或缺的质量校验手段。
当前该工具提供部分编译后模型的精度评估,不包含原始模型精度评估流程。若需对比原始模型与编译后模型的精度结果,请自行完成原始模型评估脚本开发。
注意
该工具仅支持在后摩硬件设备上运行,无法在模拟器中执行。为确保在硬件平台上运行,请将环境变量设置为 export HDPL_PLATFORM=ASIC。
2.1. 核心功能
EvalScope集成: 继承了EvalScope丰富的评测指标与数据集生态。
高度灵活性: 支持通过自定义 Python 脚本无缝接入LLM精度评估。
自动化参数解析: 支持对扩展参数进行自动类型转换。
3. 环境准备
3.1. 环境依赖
该工具支持平台如下:
Linux系统:
Ubuntu 24.04(x86_64)
Ubuntu 22.04(x86_64)
Ubuntu 20.04(x86_64)
3.2. 运行环境
工具可在下面环境中运行:
软件平台Docker镜像:
软件平台提供的 Docker 镜像已预置工具运行所需环境。有关Docker镜像的安装与部署,参看《后摩大道® 软件平台快速入门》。
3.3. Linux环境准备
工具使用前,执行下面指令配置运行环境: