M50 TCIM用户手册
1.3.0
目录
1. 更新历史
2. 概述
3. 模型编译
4. 运行时推理与部署
5. 常见错误解析
版权声明
M50 TCIM用户手册
后摩大道
®
M50 TCIM用户手册
后摩大道
®
M50 TCIM用户手册
目录
1. 更新历史
2. 概述
2.1. 简介
2.2. 总体架构
2.2.1. 前端表示层
2.2.2. 模型编译和优化
2.2.3. 运行时
2.3. 主要功能
2.4. 优化特性
2.5. 适用场景
2.6. 编程流程
3. 模型编译
3.1. 模型编译
3.2. LLM编译
3.2.1. 编译模型步骤
4. 运行时推理与部署
4.1. 功能特性
4.1.1. 内存管理
4.1.2. 设备管理
4.1.2.1. 指定设备
4.1.3. Stream管理
4.1.4. 数据存储
4.1.4.1. Stride
4.1.4.2. 连续存储
4.1.4.3. 非连续存储
4.1.4.4. 图像数据存储
4.1.4.4.1. 拆分后的存储格式
4.1.5. 数据获取及拷贝
4.1.5.1. 主机端到设备端拷贝
4.1.5.1.1. 高性能方法
4.1.5.2. 设备端到主机端拷贝
4.1.5.2.1. 高性能方法
4.1.5.3. 最佳实践
4.1.6. Tensor信息
4.1.7. 图像数据处理
4.1.7.1. 量化时图像预处理
4.1.7.2. 固定输入尺寸
4.1.7.2.1. 图像处理流程和限制
4.1.7.2.2. 参数说明
4.1.7.2.3. 单图单区域动态裁剪
4.1.7.2.4. 单图多区域动态裁剪
4.1.7.2.5. 多图多区域动态裁剪
4.1.8. 模型权重复用
4.1.8.1. 使用限制
4.1.9. 设备控制
4.1.9.1. DVFS配置
4.1.10. 后端(Backend)
4.1.10.1. 设置后端
4.1.10.1.1. Weight manager和stream
4.1.10.1.2. 模型输入输出tensor
4.1.10.2. 获取后端
4.1.11. 硬件特性
4.2. 模型推理
4.2.1. 模型输入输出数据
4.2.1.1. 内存分配
4.2.1.1.1. 主机内存上存放数据
4.2.1.1.2. 后摩设备内存上存放数据
4.2.1.2. 设置模型输入数据
4.2.1.3. 获取模型推理后输出数据
4.2.1.4. 获取模型输入数据
4.2.1.5. 设置模型输出数据
4.2.1.6. 数据类型转换
4.2.2. 注意事项
4.2.4. 使用C++ API推理模型
4.2.5. 使用Python API推理模型
4.3. LLM推理
4.3.1. 推理模型步骤
4.4. 模型部署
4.4.1. 单模型单设备部署
4.4.3. 单模型多设备部署
4.4.4. 多模型部署
4.4.4.1. 限制说明
4.5. 运行时开发工具包
4.5.1. Linux 环境配置
4.5.1.1. 使用依赖
4.5.1.2. 环境准备
4.5.2. Windows 环境配置
4.5.2.1. 限制说明
4.5.2.2. 使用依赖
4.5.2.3. 环境准备
4.5.3. Android环境配置
4.5.3.1. 使用依赖
4.5.3.2. 环境准备
4.6. 开发样例
4.6.1. 下载开发样例包
4.6.2. 样例运行
4.6.3. 单模型单设备样例
4.6.3.1. C++ API
4.6.3.2. Python API
5. 常见错误解析
5.1. 编译错误
5.2. 推理错误
5.3. 运行时部署错误
5.4. 示例部署错误
5.5. 程序运行