6. 已知遗留问题

  • 在Ubuntu 24.04环境下,执行 python3 build_mtp.py 编译 Qwen3.5-27B-MTP 256K Decode模型时,如果设置使用两个M50芯片,可能出现编译失败。

    解决方法:

    当前该模型暂不支持双芯编译。请使用单芯配置进行编译,或选择其他已支持双芯的模型规格。

  • 在LQ50 M.2设备上推理Qwen3.5-9B-VL Prefill 模型 时,如果上下文为256K,可能偶发出现卡死。

    解决方法:

    暂无规避方案。建议在该模型规格的Prefill场景下关注运行状态,如出现卡死,请中断当前任务后重新执行。

  • MiniCPM-o多模态模型中的LLM 子模块在输出 hidden_states 时可能出现异常,表现为输出结果与参考结果的余弦相似度较低。

    解决方法:

    暂无规避方案。建议暂缓使用依赖 hidden_states 输出结果的相关功能或评测流程。

  • 在LQ50 M.2 x86环境下,使用正确数据推理动态Resize模型时,可能返回 group sync timeout 错误。

    解决方法:

    暂无规避方案。建议暂缓在 LQ50 M.2 x86 环境下使用动态 Resize 模型进行推理,或根据业务需求选择固定输入尺寸模型进行替代。

  • 在GPU环境下量化OpenVLA模型时,可能返回如下错误:

    RuntimeError: custom operator Slice output must not alias any inputs
    

    解决方法:

    暂无规避方案。建议暂缓在 GPU 环境下量化 OpenVLA 模型,或根据业务需求选择其他已验证可正常量化的模型规格进行替代。

  • 在LQ50 Duo设备上,使用W8A8混合精度量化的Qwen3.6-35B-A3B模型,如果上下文为256K、双M50芯片,Prefill 阶段可能出现卡死。

    解决方法: 暂无规避方案。建议暂缓在LQ50 Duo设备上使用该模型规格的 W8A8 混合精度量化双芯Prefill场景,或根据业务需求选择其他已验证稳定的量化配置或模型规格。

  • 在LQ50 M.2设备上运行Qwen3-30B-A3B 32K上下文模型时,可能出现推理性能下降。

    解决方法:

    暂无规避方案。建议在性能敏感场景下暂缓在 LQ50 M.2 设备上使用该模型规格,或根据业务需求选择其他已验证性能稳定的模型规格。

  • Qwen3.6系列模型与此前已适配的Qwen3.5系列模型输入shape配置不一致。

    解决方法:

    请参考应用开发示例包中Qwen3.6模型示例的适配方式,更新输入shape相关配置后再进行模型编译和推理。

  • 在双芯配置下运行Gemma4-26B-A4B模型时,推理生成数个token后可能出现输出乱码。

    解决方法:

    暂无规避方案。建议暂缓在双芯配置下使用该模型规格进行推理,或根据业务需求选择其他已验证稳定的运行配置或模型规格。

  • 使用简单数据集测试Qwen3-0.6B和Qwen3-1.7B 32K上下文模型时,可能出现测试精度较低。

    解决方法:

    暂无规避方案。建议在精度敏感场景下暂缓使用上述模型规格,或根据业务需求选择其他已验证精度稳定的模型规格。

  • 在LQ50 M.2设备上运行GPT-OSS-20B 256K上下文模型时,可能出现推理性能下降。

    解决方法:

    暂无规避方案。建议在性能敏感场景下暂缓在 LQ50 M.2 设备上使用该模型规格,或根据业务需求选择其他已验证性能稳定的模型规格。

  • 在Windows环境中执行后摩SMI工具指令时,如果传入非法参数,可能导致系统蓝屏并重启。

    解决方法:

    避免使用非法或未支持的参数,严格按照官方文档中的参数规范执行命令。

  • 在多轮推理场景下,GPT-OSS-20B 128K 模型可能产生不同轮次的回答不一致,影响对话连贯性。

    解决方法:

    可通过优化提示词设计或使用上下文约束策略来降低回答不一致的概率。

  • 在部分场景下,GPT-OSS-20B 模型可能出现回答精度下降,表现为中英文混杂或循环重复输出。

    解决方法:

    建议通过在提示词中明确上下文和语言约束来降低中英文混杂和循环重复回答的概率。