6.6.1. 样例介绍
ModelZoo提供大语言模型(LLM)样例,包括DeepSeek和Qwen3等。支持的部署参数下表所示:
模型示例 |
Batch数 |
后摩M50芯片数 |
后摩IPU内核数 |
Prefill处理Token数 |
模型输入输出上下文长度(编译后模型) |
|---|---|---|---|---|---|
Qwen2.5-7B |
1 |
1 |
2 |
256 tokens |
8192 tokens |
Qwen3-0.6B |
1 |
1 |
2 |
256 tokens |
32768 tokens |
Qwen3-1.7B |
1 |
1 |
2 |
256 tokens |
32768 tokens |
Qwen3-8B |
1 |
1 |
2 |
256 tokens |
32768 tokens |
Qwen3-14B |
1 |
1 |
2 |
256 tokens |
16384 tokens |
Qwen3.5 |
1 |
1 |
2 |
256 tokens |
32768 tokens |
Qwen3-30B |
1 |
1 |
2 |
256 tokens |
32768 tokens |
DeepSeek |
1 |
1 |
2 |
256 tokens |
32768 tokens |
GPT-OSS |
1 |
1 |
2 |
256 tokens |
32768 tokens |
CoPaw-Flash |
1 |
1 |
2 |
256 tokens |
8192 tokens |
参数说明如下:
Batch数:表示推理模型时使用的batch数。
后摩M50芯片数:表示模型推理使用的后摩M50芯片数,而不是后摩M50设备数。每颗后摩M50 芯片在系统中都会被识别为一个独立的逻辑设备,因此一台后摩M50设备中可能有多颗后摩M50芯片。
后摩IPU内核数:表示推理模型时使用的后摩IPU内核数。
Prefill处理Token数:如果模型输入较大,需在Prefill阶段对输入token进行分段,再迭代处理每段token。该参数表示每次迭代处理的最大token数。
输入输出上下文长度:表示模型输入、输出的最大token数。
6.6.1.1. 特别说明
由于Qwen 3.5示例需配合Transformers 5.2.0或更高版本运行,Python 3.9已无法兼容该示例需求,用户需确保Python版本高于3.9(推荐使用 Python 3.12)以保障正常运行。