运行首个样例

下面以Qwen3-8B模型样例为例，验证后摩设备是否能够正常完成AI推理运行，并确认开发环境已正确搭建。

执行下面步骤运行Qwen3-8B样例：

下载应用开发示例包。
1. 下载应用开发示例包到Docker镜像中。
  1. 登录后摩开发者社区。
  2. 在 请先选择板级类别 下拉列表中选择使用的后摩板级产品。
  3. 在版本列表中选择下载的版本号，再在 AI模型类别筛选器 、平台架构筛选器 、操作系统筛选器 下拉菜单中分别选择AI模型类型、平台架构和操作系统，找到资源名为示例代码的下载资源，选中该资源左边复选框。
  4. 点击 直接下载、wget链接、批量直接下载 或 wget批量下载 按钮。
2. 执行下面指令解压应用开发示例包。
```
unzip houmo-examples-<targe_hw>_<release>.zip
```
  解压后为 houmo-examples-xh2/ 文件夹。
配置样例运行环境。

进入模型样例根目录，并执行环境初始化脚本：
```
cd houmo-examples_<release>/houmo-examples/models
source env.sh
```
进入模型目录 houmo-examples_<release>/houmo-examples/models/models/llm/qwen3。
（可选）安装交互界面依赖：
```
pip3 install prompt_toolkit --no-deps
```
（可选）如果使用AArch64架构，设置以下环境变量：
```
export LD_PRELOAD=/usr/lib/aarch64-linux-gnu/libgomp.so.1
```
下载Qwen3-8B模型文件：
```
python3 get_model.py --type hmm --model_size 8b
```
执行成功后，qwen3_prefill.hmm、qwen3_decode.hmm 以及 hmquant/quant_embedding.pt 文件将下载至 models/llm/qwen3/output/xh2 目录。
推理模型。通过 demo.py 脚本，以交互模式（ --it ）启动模型的推理：
```
python3 demo.py --model_size 8b --it
```
执行成功后，终端将返回如下提示信息：
```
Input your instruction here:
```
用户可输入问题，与 Qwen3 模型进行交互式推理。示例如下：
```
Input your instruction here: 请介绍一下存算一体技术的优势
```
模型完成推理后，将输出生成结果及性能统计信息。

更多详情，请参看 houmo-examples_<release>/houmo-examples/models/README.MD 和 houmo-examples_<release>/houmo-examples/models/models/llm/qwen3/README.MD 。