科大讯飞联合华为实现 MoE 模型大规模专家并行集群推理性能翻倍

访客 2025-04-18 16:29:02 37964

默认

摘要： 4月18日消息，科大讯飞研究院今日宣布，科大讯飞与华为昇腾联合团队通过多种优化手段提升“飞星一号”平台上MoE模型集群推...

4月18日消息，科大讯飞研究院今日宣布，科大讯飞与华为昇腾联合团队通过多种优化手段提升“飞星一号”平台上MoE模型集群推理的性能上限，并在近期实现大规模专家并行集群推理性能翻番。
据介绍，科大讯飞不久前率先突破国产算力集群上MoE模型的大规模跨节点专家并行集群推理，公布业界首个基于国产算力的MoE模型训练推理方案。在上一个版本算子和通信优化的基础之上，联合团队升级了适配MOE模型的PD分离+大规模专家并行系统解决方案，进行了多种技术创新工作，总结如下：

适配MoE的PD分离部署，通过定制集合通信协议，消除集合通信流量冲突，解决推理过程中Prefill阶段和Decode阶段的相互干扰，使得P实例和D实例均达到系统最优，性能提升20%+；实现国产算力上MTP多token预测技术，降低MTP层计算耗时，整体性能提升30%+；专家负载均衡算法再升级，多DP负载均衡，实现卡间负载均衡差异小于8%，集群推理吞吐性能提升30%+；创新性实现异步双发射技术，解决高并发下的高CPU负载问题，实现CPU和NPU的高效协同，降低服务请求调度耗时，系统性能提升10%。基于上述解决方案的迭代与升级，联合团队通过在“飞星一号”平台上对星火MoE模型、DeepSeekV3/R1进行实测，实现了推理性能比上一个版本提升1倍，已逼近国产算力上MoE集群推理的性能上限。

标签：集群性能