6.6.1. 样例介绍

ModelZoo提供大语言模型（LLM）样例，包括DeepSeek和Qwen3等。支持的部署参数下表所示：

表 6.5 ModelZoo LLM模型示例部署默认设置
模型示例	Batch数	后摩M50芯片数	后摩IPU内核数	Prefill处理Token数	模型输入输出上下文长度（编译后模型）
Qwen3.5-0.8B	1	1	2	256 tokens	256K tokens
Qwen3.5-2B	1	1	2	256 tokens	256K tokens
Qwen3.5-4B	1	1	2	256 tokens	256K tokens
Qwen3.5-9B	1	1	2	256 tokens	256K tokens
Qwen3.6-27B	1	1	2	256 tokens	128K tokens
Qwen3.6-35B-A3B	1	1	2	256 tokens	256K tokens
Qwen3-Next	1	2	2	256 tokens	8K tokens
GPT-OSS 20B	1	1	2	256 tokens	256K tokens
GPT-OSS 120B	1	2	2	256 tokens	128K tokens
CoPaw-Flash	1	1	2	256 tokens	8K tokens

参数说明如下：

Batch数：表示推理模型时使用的batch数。
后摩M50芯片数：表示模型推理使用的后摩M50芯片数，而不是后摩M50设备数。每颗后摩M50 芯片在系统中都会被识别为一个独立的逻辑设备，因此一台后摩M50设备中可能有多颗后摩M50芯片。
后摩IPU内核数：表示推理模型时使用的后摩IPU内核数。
Prefill处理Token数：如果模型输入较大，需在Prefill阶段对输入token进行分段，再迭代处理每段token。该参数表示每次迭代处理的最大token数。
输入输出上下文长度：表示模型输入、输出的最大token数。

6.6.1.1. 特别说明

由于Qwen 3.5示例需配合Transformers 5.2.0或更高版本运行，Python 3.9已无法兼容该示例需求，用户需确保Python版本高于3.9（推荐使用 Python 3.12）以保障正常运行。