运行首个样例

下面以Qwen3-8B模型样例为例,验证后摩设备是否能够正常完成AI推理运行,并确认开发环境已正确搭建。

执行下面步骤运行Qwen3-8B样例:

  1. 下载应用开发示例包。

    1. 下载应用开发示例包到Docker镜像中。

      1. 登录后摩开发者社区

      2. 请先选择板级类别 下拉列表中选择使用的后摩板级产品。

      3. 在版本列表中选择下载的版本号,再在 AI模型类别筛选器平台架构筛选器操作系统筛选器 下拉菜单中分别选择AI模型类型、平台架构和操作系统,找到资源名为示例代码的下载资源,选中该资源左边复选框。

      4. 点击 直接下载wget链接批量直接下载wget批量下载 按钮。

    2. 执行下面指令解压应用开发示例包。

      unzip houmo-examples-<targe_hw>_<release>.zip
      

      解压后为 houmo-examples-xh2/ 文件夹。

  2. 配置样例运行环境。

    进入模型样例根目录,并执行环境初始化脚本:

    cd houmo-examples_<release>/houmo-examples/models
    source env.sh
    
  3. 进入模型目录 houmo-examples_<release>/houmo-examples/models/models/llm/qwen3

  4. (可选)安装交互界面依赖:

    pip3 install prompt_toolkit --no-deps
    
  5. (可选)如果使用AArch64架构,设置以下环境变量:

    export LD_PRELOAD=/usr/lib/aarch64-linux-gnu/libgomp.so.1
    
  6. 下载Qwen3-8B模型文件:

    python3 get_model.py --type hmm --model_size 8b
    

    执行成功后,qwen3_prefill.hmmqwen3_decode.hmm 以及 hmquant/quant_embedding.pt 文件将下载至 models/llm/qwen3/output/xh2 目录。

  7. 推理模型。通过 demo.py 脚本,以交互模式( --it )启动模型的推理:

    python3 demo.py --model_size 8b --it
    

    执行成功后,终端将返回如下提示信息:

    Input your instruction here:
    

    用户可输入问题,与 Qwen3 模型进行交互式推理。示例如下:

    Input your instruction here: 请介绍一下存算一体技术的优势
    

    模型完成推理后,将输出生成结果及性能统计信息。

更多详情,请参看 houmo-examples_<release>/houmo-examples/models/README.MDhoumo-examples_<release>/houmo-examples/models/models/llm/qwen3/README.MD