
科大讯飞联合华为实现 MoE 模型大规模专家并行集群推理性能翻倍

据介绍,科大讯飞不久前率先突破国产算力集群上MoE模型的大规模跨节点专家并行集群推理,公布业界首个基于国产算力的MoE模型训练推理方案。在上一个版本算子和通信优化的基础之上,联合团队升级了适配MOE模型的PD分离+大规模专家并行系统解决方案,进行了多种技术创新工作,总结如下:
- 适配MoE的PD分离部署,通过定制集合通信协议,消除集合通信流量冲突,解决推理过程中Prefill阶段和Decode阶段的相互干扰,使得P实例和D实例均达到系统最优,性能提升20%+;实现国产算力上MTP多token预测技术,降低MTP层计算耗时,整体性能提升30%+;专家负载均衡算法再升级,多DP负载均衡,实现卡间负载均衡差异小于8%,集群推理吞吐性能提升30%+;创新性实现异步双发射技术,解决高并发下的高CPU负载问题,实现CPU和NPU的高效协同,降低服务请求调度耗时,系统性能提升10%。