运行首个样例
下面以Qwen3-8B模型样例为例,验证后摩设备是否能够正常完成AI推理运行,并确认开发环境已正确搭建。
执行下面步骤运行Qwen3-8B样例:
下载应用开发示例包。
下载应用开发示例包到Docker镜像中。
登录后摩开发者社区。
在 请先选择板级类别 下拉列表中选择使用的后摩板级产品。
在版本列表中选择下载的版本号,再在 AI模型类别筛选器 、平台架构筛选器 、操作系统筛选器 下拉菜单中分别选择AI模型类型、平台架构和操作系统,找到资源名为示例代码的下载资源,选中该资源左边复选框。
点击 直接下载、wget链接、批量直接下载 或 wget批量下载 按钮。
执行下面指令解压应用开发示例包。
unzip houmo-examples-<targe_hw>_<release>.zip
解压后为
houmo-examples-xh2/文件夹。
配置样例运行环境。
进入模型样例根目录,并执行环境初始化脚本:
cd houmo-examples_<release>/houmo-examples/models source env.sh
进入模型目录
houmo-examples_<release>/houmo-examples/models/models/llm/qwen3。(可选)安装交互界面依赖:
pip3 install prompt_toolkit --no-deps
(可选)如果使用AArch64架构,设置以下环境变量:
export LD_PRELOAD=/usr/lib/aarch64-linux-gnu/libgomp.so.1
下载Qwen3-8B模型文件:
python3 get_model.py --type hmm --model_size 8b
执行成功后,
qwen3_prefill.hmm、qwen3_decode.hmm以及hmquant/quant_embedding.pt文件将下载至models/llm/qwen3/output/xh2目录。推理模型。通过
demo.py脚本,以交互模式(--it)启动模型的推理:python3 demo.py --model_size 8b --it
执行成功后,终端将返回如下提示信息:
Input your instruction here:
用户可输入问题,与 Qwen3 模型进行交互式推理。示例如下:
Input your instruction here: 请介绍一下存算一体技术的优势
模型完成推理后,将输出生成结果及性能统计信息。
更多详情,请参看 houmo-examples_<release>/houmo-examples/models/README.MD 和 houmo-examples_<release>/houmo-examples/models/models/llm/qwen3/README.MD 。