ModelZoo模型评估示例

后摩大道®软件平台ModelZoo提供了帮助用户在Linux系统上快速移植模型到后摩设备上的模型合集,其中包括量化、编译、推理、精度和性能评估等一套完整的代码和工具。开发者可以参考ModelZoo源代码做二次开发。

注意

  • ModelZoo提供的模型示例仅用于帮助用户快速了解和使用 后摩大道® 软件平台。如果想要达到更好的网络性能,仍需要调整和优化。

  • 在Ubuntu 22.04 x86_64、Ubuntu 20.04 x86_64和Ubuntu 20.04 AArch64平台上,ModelZoo模型开发样例为受限支持。上述平台不支持模型量化和模型编译能力,因此样例中涉及量化、编译的脚本或流程不适用于这些平台。

ModelZoo位于 应用开发示例包houmo-examples_<release>/houmo-examples/models 目录下。使用 MODELZOO_PATH 环境变量表示ModelZoo所在路径。

ModelZoo模型库仅部分模型示例支持在后摩M50系列产品上运行,下面目录结构仅展示支持的模型示例:

|-- models    # ModelZoo网络模型示例,包括各网络模型编译、推理、性能评估的运行脚本等。
|   |-- asr                      # 自动语音识别相关网络模型
|   |   |-- glm-asr              # 中文场景专用通用语音识别模型
|   |   |-- qwen3-asr            # 通用语音识别模型
|   |   |-- sensevoice           # 语音识别、情感识别和语音事件检测模型
|   |   |-- whisper-turbo        # 高速语音识别与多语言转录模型
|   |   `-- whisper              # 多语种全局通用语音识别模型
|   |-- autodrive                # 自动驾驶相关网络模型
|   |   `-- yolop                # YOLOP网络模型
|   |-- backbone                 # Backbone网络模型
|   |   |-- efficientnet         # EfficientNet网络模型
|   |   |-- mobilenetv2          # MobileNetV2网络模型
|   |   |-- resnet50             # ResNet50网络模型
|   |   |-- yolov8m-cls          # YOLOv8m 的图像分类模型
|   |   `-- ViT-B-16             # Vision Transformer网络模型
|   |-- detection                # 检测网络模型
|   |   |-- yolov3               # YOLOv3网络模型
|   |   |-- yolov5s              # YOLOv5s网络模型(含动态裁剪功能)
|   |   |-- yolov5s_feature      # YOLOv5s网络模型(无动态裁剪功能)
|   |   |-- yolov7               # YOLOv7网络模型
|   |   |-- yolov8m              # YOLOv8m网络模型
|   |   |-- yolov9m              # YOLOv9m网络模型
|   |   |-- yolov10m             # YOLOv10m网络模型
|   |   |-- yolo11m              # YOLO11m网络模型
|   |   |-- yolo12m              # YOLO12m网络模型
|   |   |-- yolov5m_face         # YOLOv5m人脸检测模型
|   |   |-- yolox                # YOLOX网络模型
|   |   `-- yolo26m              # YOLO26m网络模型
|   |-- embedding                # 嵌入模型
|   |   |-- qwen3-embedding      # 文本向量化模型
|   |   |-- bge                  # BGE信息检索模型
|   |   `-- gte                  # GTE信息检索模型
|   |-- estimation               # 实时人体姿态估计相关网络模型
|   |   `-- yolov8m-pose         # 评估网络模型
|   |-- llm                      # 大语言模型
|   |   |-- CoPaw-Flash          # 端侧智能体小模型
|   |   |-- deepseek-r1-qwen3-8b # DeepSeek-R1-0528-Qwen3-8B模型
|   |   |-- gpt-oss              # GPT-OSS 模型
|   |   |-- qwen2.5              # Qwen2.5-7B模型
|   |   |-- qwen3                # Qwen3模型,包括8B、14B、0.6B和1.7B
|   |   |-- qwen3-30b-a3b        # Qwen3-30B-a3B模型
|   |   `-- qwen3.5              # Qwen3.5模型,包括0.8B、2B、4B、9B、
|   |                            # 27B、35B-A3B,和Qwen3.6-35B-A3B
|   |                            # 和Qwen3.6-27B模型
|   |-- ocr                      # 深度学习的图像文字识别模型(基于OCR)
|   |   |-- glm-ocr              # 文本识别模型
|   |   |-- lprnet               # 车牌识别网络模型
|   |   `-- PPOCRv3              # PaddlePaddle开源的一套OCR模型
|   |-- omni                     # 多模态大型语言模型
|   |   `-- minicpmo             # MiniCPMO模型
|   |-- reranker                 # 重排序模型
|   |   `-- qwen3-reranker       # 基于语义相关性的检索结果重排序模型
|   |-- segmentation             # 图像分割相关网络模型
|   |   `-- yolov8m_seg          # YOLOv8m图像分割网络模型
|   |-- tts                      # 语音合成模型
|   |  `-- cosyvoice3            # CosyVoice3语音合成模型
|    `-- vlm                     # 多模态和高性能大模型推理加速引擎
|   |   |-- qwen2.5-vl           # Qwen2.5多模态视觉语言模型
|   |   |-- gemma4               # Gemma4开源权重多模态大模型
|       `-- qwen3-vl             # Qwen3多模态视觉语言模型
|-- data                         # 模型和数据集
|-- hmodel                       # 量化模型配置和工具
|-- requirements.txt             # Python环境依赖
`-- env.sh                       # ModelZoo环境变量配置脚本

样例说明

ModelZoo提供的网络模型样例所展示的功能如下表所示:

注意

AArch64 架构不支持模型量化和编译操作。用户需要使用编译后二进制模型文件(.hmm或.hmms)在AArch64架环境中推理。

表 10 ModelZoo网络模型样例展示功能说明

网络名称

PTQ量化

模型编译

模型推理 (C++)

模型推理 (Python)

精度评测

性能评测

模型转换与评估工具

ResNet50

X

MobileNetV2

X

EfficientNet

X

YOLOv3

X

YOLOP

X

X

YOLOv5s

X

YOLOv8m

X

YOLO12m

X

YOLOv8m-pose

X

DeepSeek

X

X

X

Qwen3

X

X

X

LPRNet

X

YOLOv8m_seg

X

ViT-B-16

X

YOLOv5s_feature

X

Gemma-4-26B-A4B

X

X

X

Qwen2.5-vl

X

X

X

PP-OCRv3

X

BGE

X

X

X

X

GTE

X

X

X

X

Whisper-Medium

X

X

X

yolov8m-cls

X

yolov5m_face

X

yolov7

X

yolov9m

X

yolo11m

X

yolov10m

X

yolox

X

yolo26m

X

minicpmo

X

X

X

X

qwen3-vl

X

X

qwen3-30b-a3b

X

X

X

gpt-oss

X

X

X

X

sensevoice

X

X

X

X

glm-asr

X

X

X

qwen3-asr

X

X

X

whisper-turbo

X

X

X

X

qwen3-embedding

X

X

X

X

qwen2.5

X

X

X

qwen3.5

X

X

X

qwen3.6

X

X

X

CoPaw-Flash

X

X

X

glm-ocr

X

X

X

X

cosyvoice3

X

X

qwen3-reranker

X

X

X

X

ModelZoo只提供上表中的网络模型样例,其他网络模型,暂不提供样例。ResNet50、MobileNetV2、YOLOv5s、YOLOv8m和YOLOP等模型示例通过模型转换与评估工具展示PTQ量化、模型编译、模型推理、精度评测以及性能评测。

模型获取

ModelZoo提供原始模型和量化模型。用户可根据需求对原始模型量化,或直接使用已量化模型做模型推理。

ModelZoo提供的各网络模型的类型及原始模型如下表所示:

表 11 ModelZoo网络模型的类型及原始模型

网络名称

原始模型

量化后模型

预编译模型

原始模型来源

ResNet50

X

ResNet50 torchvision 模型

MobileNetV2

X

MobileNetV2 torchvision 模型

EfficientNet

X

EfficientNet torchvision模型

YOLOP

X

YOLOP 模型

YOLOv3

X

YOLOv3 模型

YOLOv5s

X

YOLOv5s 模型

YOLOv8m

X

YOLOv8m 模型

YOLO12m

X

YOLO12m 模型

YOLOv8m-pose

X

YOLOv8m-pose模型

DeepSeek

X

DeepSeek-R1-0528-Qwen3-8B模型

Qwen3-8B

X

Qwen3-8B模型

Qwen3-14B

X

Qwen3-14B模型

Qwen3-0.6B

X

Qwen3-0.6B模型

Qwen3-1.7B

X

Qwen3-1.7B模型

LPRNet

X

-

ViT-B-16

X

-

YOLOv8m_seg

X

YOLOv8m_seg模型

YOLOv5s_feature

X

-

Gemma-4-26B-A4B

X

Gemma-4-26B-A4B模型

Qwen2.5-vl

X

Qwen2.5-vl模型

Qwen3-vl

X

Qwen3-vl模型

GTE

X

-

Whisper-Medium

X

-

YOLOv8m-cls

X

YOLOv8m-cls模型

YOLOv5m_face

X

YOLOv5m_face模型

PP-OCRv3

X

PP-OCRv-Det模型

PP-OCRv-Rec模型

BGE

X

BGE-M3模型

BGE-Reranker模型

YOLOv7

X

YOLOv7模型

YOLOv9m

X

YOLOv9m模型

YOLOv10m

X

YOLOv10m模型

YOLO11m

X

YOLO11m模型

YOLOX

X

YOLOX模型

YOLO26m

X

YOLO26m模型

qwen3-30b-a3b

X

Qwen3-30B-a3B模型

minicpmo

X

MiniCPMO模型

gpt-oss

X

-

sensevoice

X

SenseVoiceSmall模型

glm-asr

X

GLM-ASR-Nano-2512模型

qwen3-asr

X

Qwen3-ASR模型

whisper-turbo

X

whisper-turbo模型

qwen3-embedding

X

Qwen3-Embedding模型

qwen2.5

X

qwen2.5-7B模型

qwen3.5-0.8B

X

qwen3.5-0.8B模型

qwen3.5-2B

X

qwen3.5-2B模型

qwen3.5-4B

X

qwen3.5-4B模型

qwen3.5-9B

X

qwen3.5-9B模型

qwen3.5-27B

X

qwen3.5-27B模型

qwen3.5-35B-A3B

X

qwen3.5-35B-A3B模型

Qwen3.6-35B-A3B

X

Qwen3.6-35B-A3B模型

CoPaw-Flash

X

CoPaw-Flash模型

glm-ocr

X

GLM-OCR模型

cosyvoice3

X

-

qwen3-reranker

X

Qwen3-Reranker模型

环境准备后,在 MODELZOO_PATH/models/network_type/network_name 目录下,运行下面指令下载模型。network_type 为网络模型类型,如 diffusionllmnetwork_name 为网络名称,如 qwen3

python3 get_model.py --type [options] --model_size <size> --source_type modelscope

其中参数取值如下:

  • options

    • raw:原始网络模型。

    • hmm:后摩TCIM编译后生成的二进制模型文件(.hmm或.hmms)。

  • --model_size <size>:(可选)仅部分模型适用,用于指定待下载模型的参数规模。 <size> 的取值可为2b、4b、9b、27b等,不同模型支持的取值不同,具体以对应示例目录中的 README.md 说明为准。

  • --source_type modelscope:(可选)从魔塔社区下载模型。当前仅支持下载后摩TCIM编译后生成的二进制模型文件。可参看示例目录中的 README.md 文件,了解示例是否支持该功能。

模型下载后默认存放在当前目录下。

数据集准备

ModelZoo提供少量数据供简单验证,如果需要测试真实精度,需要下载完整数据集。

通过 HOUMO_DATASETS_PATH 环境变量设置数据集实际路径,默认为 MODELZOO_PATH/data/datasets

表 12 数据集准备

网络名称

数据集名称

路径

ResNet50

ImageNet 2012

https://image-net.org/challenges/LSVRC

MobileNetV2

EfficientNet

YOLOv8m-cls

YOLOv3

COCO 2017

https://cocodataset.org/#download

YOLOv5s

YOLOv8m

YOLO12m

YOLOv8m-pose

YOLOv5s_feature

YOLOv8m_seg

YOLOv7

YOLOv9m

YOLOv10m

YOLO11m

YOLOX

YOLO26m

YOLOv5m_face

WIDER FACE

http://shuoyang1213.me/WIDERFACE/

YOLOP

BDD100K

https://bdd-data.berkeley.edu/

DeepSeek

wikitext-2-raw-v1

https://www.modelscope.cn/datasets/modelscope/wikitext

Qwen3

Qwen2.5

Qwen3.5

Qwen3.6

gpt-oss

qwen3-embedding

qwen3-30b-a3b

Gemma-4-26B-A4B

-

-

Qwen2.5-vl

-

-

Qwen3-vl

-

-

ViT-B-16

ILSVRC2012

https://image-net.org/challenges/LSVRC/2012/index.php

LPRNet

CCPD2019Sub

https://github.com/detectRecog/CCPD

PP-OCRv

CCPD2020_PPOCR

v3_eval

CCPD2020_PPOCRv3_eval.tar.gz

BGE

-

-

GTE

-

-

Whisper-Medium

-

-

minicpmo

-

-

sensevoice

-

-

glm-asr

-

-

qwen3-asr

-

-

whisper-turbo

-

-

glm-ocr

-

-

cosyvoice3

-

-

CoPaw-Flash

-

-

qwen3-reranker

T2Reranking

https://modelscope.cn/datasets/C-MTEB/T2Reranking

环境准备

执行下面步骤完成运行环境部署,所有样例默认适配最新版本软件平台:

  1. 安装和部署Docker开发环境

  1. 在Docker镜像中下载应用开发示例包。

    1. 登录后摩开发者社区

    2. 请先选择板级类别 下拉列表中选择使用的后摩板级产品。

    3. 在版本列表中选择下载的版本号,再在 AI模型类别筛选器平台架构筛选器操作系统筛选器 下拉菜单中分别选择AI模型类型、平台架构和操作系统,找到资源名为示例代码的下载资源,选中该资源左边复选框。

    4. 点击 直接下载wget链接批量直接下载wget批量下载 按钮。

    ModelZoo模型库位于 houmo-examples-xh2/models 目录下。

  2. 检查 houmo-examples-xh2/env.sh 中环境变量设置:

    • 根据实际情况修改环境变量的值,例如如果更换数据集路径,则修改 HOUMO_DATASETS_PATH 变量。

    • 初始时脚本会自动检测当前是否有可用的后摩设备。如果有,则会自动设置使用该后摩设备评测模型,否则会设置使用模拟器评测模型。用户可通过 HDPL_PLATFORM环境变量修改评测平台。

    环境变量详情参看 ModelZoo环境变量列表

  3. houmo-examples-xh2 目录下,执行下面指令配置运行环境:

    source env.sh
    
  4. 如果在AArch64 架构:不支持模型量化和编译操作,用户可以直接使用提供的已编译模型进行推理。

环境变量

表 13 ModelZoo环境变量

环境变量名称

描述

默认值

HOUMO_TARGET

ModelZoo中模型编译和推理使用的后摩设备。

xh2

HOUMO_DATASETS_PATH

ModelZoo数据库存放目录。

houmo-examples-xh2/data/datasets

HOUMO_MODELZOO_URL

ModelZoo中模型下载根目录。

http://139.224.0.199:8082/artifactory/houmo/ release

样例运行

执行下面步骤运行样例:

  1. 配置运行环境

  2. 进入要运行的模型目录 MODELZOO_PATH/models/network_type/network_name。其中,network_type 为网络模型类型,如 llmnetwork_name 为网络名称,如 qwen3

  3. 执行以下命令一键运行模型样例:

    ./test.sh
    

    该脚本会根据当前模型样例及运行环境所支持的功能,自动执行模型获取、量化、编译、推理、性能评测和精度评估等流程中的部分或全部操作。

各模型样例的具体运行步骤,请参照 MODELZOO_PATH/README.MDMODELZOO_PATH/models/network_type/network_name/README.MD

LLM模型样例介绍

ModelZoo提供大语言模型(LLM)样例,包括DeepSeek和Qwen3等。支持的部署参数下表所示:

表 14 ModelZoo LLM模型示例部署默认设置

模型示例

Batch数

后摩M50芯片数

后摩IPU内核数

Prefill处理Token数

模型输入输出上下文长度(编译后模型)

Qwen2.5-7B

1

1

2

256 tokens

8192 tokens

Qwen3-0.6B

1

1

2

256 tokens

32768 tokens

Qwen3-1.7B

1

1

2

256 tokens

32768 tokens

Qwen3-8B

1

1

2

256 tokens

32768 tokens

Qwen3-14B

1

1

2

256 tokens

16384 tokens

Qwen3.5

1

1

2

256 tokens

32768 tokens

Qwen3-30B

1

1

2

256 tokens

32768 tokens

DeepSeek

1

1

2

256 tokens

32768 tokens

GPT-OSS

1

1

2

256 tokens

32768 tokens

CoPaw-Flash

1

1

2

256 tokens

8192 tokens

参数说明如下:

  • Batch数:表示推理模型时使用的batch数。

  • 后摩M50芯片数:表示模型推理使用的后摩M50芯片数,而不是后摩M50设备数。每颗后摩M50 芯片在系统中都会被识别为一个独立的逻辑设备,因此一台后摩M50设备中可能有多颗后摩M50芯片。

  • 后摩IPU内核数:表示推理模型时使用的后摩IPU内核数。

  • Prefill处理Token数:如果模型输入较大,需在Prefill阶段对输入token进行分段,再迭代处理每段token。该参数表示每次迭代处理的最大token数。

  • 输入输出上下文长度:表示模型输入、输出的最大token数。

特别说明

由于Qwen 3.5示例需配合Transformers 5.2.0或更高版本运行,Python 3.9已无法兼容该示例需求,用户需确保Python版本高于3.9(推荐使用 Python 3.12)以保障正常运行。

运行Qwen3-8B模型样例

下面以Qwen3模型为例,详细介绍如何从零开始在Docker环境中完成环境配置与安装部署,并完整跑通量化、编译和推理演示流程。

备注

后摩大模型样例包支持 Qwen3 系列多个规格,包括 0.6B、1.7B、8B 和 14B。本文以 Qwen3-8B 模型为例进行说明。其他模型规格的运行命令和高级参数,参看样例目录下的 README.md 文件。

本文提供以下两种使用方式:

  • 模型推理验证:直接使用后摩提供的编译后模型文件,快速完成推理演示与性能评测。

  • 完整开发流程验证:从开源Qwen3-8B模型开始,完成模型量化、编译和推理验证。

运行方式说明如下:

运行方式

适用场景

主要流程

快速入门

适用于首次验证设备、驱动和推理环境是否正常,或希望快速体验 Qwen3-8B 模型推理效果的用户。

准备推理环境 → 下载编译后模型 → 运行推理演示与性能评测

完整开发流程

适用于需要从开源模型开始完成模型量化、编译和推理验证的用户。

准备开发环境 → 下载开源模型 → 量化模型 → 编译模型 → 运行推理验证

模型推理验证

执行下面步骤运行Qwen3-8B样例,并完成推理演示和性能评测:

  1. 配置运行环境

  2. 进入模型目录 houmo-examples-xh2/models/models/llm/qwen3

  3. (可选)安装交互界面依赖:

    pip3 install prompt_toolkit --no-deps
    
  4. (可选)如果使用AArch64架构,设置以下环境变量:

    export LD_PRELOAD=/usr/lib/aarch64-linux-gnu/libgomp.so.1
    
  5. 下载Qwen3-8B模型文件:

    python3 get_model.py --type hmm --model_size 8b
    

    执行成功后,qwen3_prefill.hmmqwen3_decode.hmm 以及 hmquant/quant_embedding.pt 文件将下载至 models/llm/qwen3/output/xh2 目录。

  6. 推理模型。通过 demo.py 脚本,以交互模式( --it )启动模型的推理:

    python3 demo.py --model_size 8b --it
    

    执行成功后,终端将返回如下提示信息:

    Input your instruction here:
    

    用户可输入问题,与 Qwen3 模型进行交互式推理。示例如下:

    Input your instruction here: 请介绍一下存算一体技术的优势
    

    模型完成推理后,将输出生成结果及性能统计信息。

更多详情,请参看 houmo-examples-xh2/models/models/llm/qwen3/README.MD

完整开发流程:从开源模型到设备推理

如果需要基于开源Qwen3-8B模型重新生成后摩设备可执行模型文件,可执行完整开发流程。

完整开发流程包括开源模型下载、PTQ 量化、模型编译和推理验证,适用于模型适配、参数调优或定制化部署场景。

软硬件环境要求

执行完整开发流程前,请确认开发环境满足以下要求:

警告

Qwen3-8B 模型规模较大。如果GPU显存或主机内存不足,可能导致量化进程终止、编译失败或出现 OOM(Out of Memory)错误。

项目

要求

主机架构

仅支持在Ubuntu 24.04 x86架构主机上执行模型量化。

GPU 显存

GPU 需具备至少40 GB可用显存。

主机内存

编译主机需具备至少64 GB可用内存。

GPU 驱动

宿主机需安装与CUDA 12.8兼容的GPU驱动。

Docker 镜像

建议使用软件平台提供的 Ubuntu 24.04 Docker 镜像执行量化、编译和推理操作。

后摩设备

执行编译后推理验证时,主机需正确连接后摩M50设备,并安装匹配版本的后摩设备驱动。

开发流程

完整开发步骤如下:

  1. 准备量化和编译开发环境

  2. 下载Qwen3-8B模型

  3. 量化模型

  4. 编译模型

  5. (可选)如果使用软件平台提供的 AArch64 架构 Docker 镜像,运行推理前需设置以下环境变量:

    export LD_PRELOAD=/usr/lib/aarch64-linux-gnu/libgomp.so.1
    

    设置完成后,再执行推理命令。

  6. 模型推理验证

准备量化和编译开发环境

执行以下步骤下载并启动 Docker 开发环境。

  1. 下载 Docker 镜像。

    1. 登录 后摩开发者社区

    2. 请先选择板级类别 下拉列表中,选择使用的后摩板级产品。

    3. 在版本列表中选择目标版本号。

    4. AI 模型类别筛选器平台架构筛选器操作系统筛选器 下拉菜单中选择对应条件。

    5. 找到资源名为 docker 镜像 的下载资源,并选中该资源左侧复选框。

    6. 点击 直接下载wget 链接批量直接下载wget 批量下载 按钮,下载 Docker 镜像。

  2. 导入 Docker 镜像。

    在 Docker 镜像所在目录下,执行以下命令:

    docker load -i <docker_file>
    

    其中,<docker_file> 为下载的 Docker 镜像文件名。

    如果导入成功,终端会显示导入后的 Docker 镜像名称,示例如下:

    Loaded image: harbor.houmo.ai/toolchain/release:Dadao-xh2-v1.3.0-ubuntu24.04-x86.64
    
  3. 启动 Docker 容器。

    启动容器时需将 GPU 映射到容器内,命令示例如下:

    docker run -it --gpus all --pid=host -w /hmdd -v $PWD:/hmdd --shm-size 64g harbor.houmo.ai/toolchain/release:Dadao-xh2-<release_version>-ubuntu24.04-x86.64 /bin/bash
    

    如果主机上存在多张 GPU,可根据实际需要指定 GPU ID。

  4. 下载应用开发示例包。

    1. 下载应用开发示例包到Docker镜像中。

      1. 登录后摩开发者社区

      2. 请先选择板级类别 下拉列表中选择使用的后摩板级产品。

      3. 在版本列表中选择下载的版本号,再在 AI模型类别筛选器平台架构筛选器操作系统筛选器 下拉菜单中分别选择AI模型类型、平台架构和操作系统,找到资源名为示例代码的下载资源,选中该资源左边复选框。

      4. 点击 直接下载wget链接批量直接下载wget批量下载 按钮。

    2. 执行下面指令解压应用开发示例包。

      unzip houmo-examples-<targe_hw>_<release>.zip
      

      解压后为 houmo-examples-xh2/ 文件夹。

  5. 配置样例运行环境。

    进入模型样例根目录,并执行环境初始化脚本:

    cd houmo-examples-xh2/models
    source env.sh
    

下载Qwen3-8B模型

在 Qwen3 样例目录下,执行以下命令下载开源 Qwen3-8B 模型文件:

python3 get_model.py --type raw --model_size 8b

下载完成后,开源模型文件默认保存在 Qwen3 样例目录下的对应模型路径中。

量化模型

在Qwen3样例目录下,执行以下命令,通过HMQuantool工具完成模型量化:

python3 ptq.py --model_size 8b

如需修改量化参数,可编辑 ptq.py 文件中的相关参数。量化参数说明参看《后摩大道® HMQuantool 量化工具用户手册》。

注意

量化过程中需要连接网络下载wikitext2数据集。如果数据集下载失败,可执行以下命令手动下载:

python3 get_model.py --type dataset

Qwen3-8B模型量化包括权重量化和模型量化。量化后的模型文件和权重文件默认保存在以下目录:

houmo-examples-xh2/models/models/llm/qwen3/output/xh2/hmquant

编译模型

完成模型量化后,在Qwen3样例目录下,执行以下命令编译模型:

警告

由于Qwen网络模型较大,编译主机必须具备至少64GB的可用内存,否则可能因内存不足导致OOM(Out of Memory)错误,或者模型编译被终止。

python build.py

Qwen3-8B模型包含Prefill和Decode两部分,需要分别完成编译。编译完成后,默认生成以下 .hmm 模型文件。编译后的模型文件存放在 houmo-examples-xh2/models/models/llm/qwen3/output/xh2 文件夹下。