6.6.1. 样例介绍

ModelZoo提供大语言模型(LLM)样例,包括DeepSeek和Qwen3等。支持的部署参数下表所示:

表 6.5 ModelZoo LLM模型示例部署默认设置

模型示例

Batch数

后摩M50芯片数

后摩IPU内核数

Prefill处理Token数

模型输入输出上下文长度(编译后模型)

Qwen2.5-7B

1

1

2

256 tokens

8192 tokens

Qwen3-0.6B

1

1

2

256 tokens

32768 tokens

Qwen3-1.7B

1

1

2

256 tokens

32768 tokens

Qwen3-8B

1

1

2

256 tokens

32768 tokens

Qwen3-14B

1

1

2

256 tokens

16384 tokens

Qwen3.5

1

1

2

256 tokens

32768 tokens

Qwen3-30B

1

1

2

256 tokens

32768 tokens

DeepSeek

1

1

2

256 tokens

32768 tokens

GPT-OSS

1

1

2

256 tokens

32768 tokens

CoPaw-Flash

1

1

2

256 tokens

8192 tokens

参数说明如下:

  • Batch数:表示推理模型时使用的batch数。

  • 后摩M50芯片数:表示模型推理使用的后摩M50芯片数,而不是后摩M50设备数。每颗后摩M50 芯片在系统中都会被识别为一个独立的逻辑设备,因此一台后摩M50设备中可能有多颗后摩M50芯片。

  • 后摩IPU内核数:表示推理模型时使用的后摩IPU内核数。

  • Prefill处理Token数:如果模型输入较大,需在Prefill阶段对输入token进行分段,再迭代处理每段token。该参数表示每次迭代处理的最大token数。

  • 输入输出上下文长度:表示模型输入、输出的最大token数。

6.6.1.1. 特别说明

由于Qwen 3.5示例需配合Transformers 5.2.0或更高版本运行,Python 3.9已无法兼容该示例需求,用户需确保Python版本高于3.9(推荐使用 Python 3.12)以保障正常运行。