【[1.1k星]DeepEP:DeepSeek最新开源的高效专家并行通信库,提供了高吞吐、低延迟的 GPU 内核,支持低精度操作,并且与 DeepSeek-V3 论文中提出的组限制门控算法相匹配,为大规模分布式AI模型训练和推理加速。亮点:1. 提供高吞吐、低延迟的GPU通信内核,性能提升显著;2. 支持低精度操作(如FP8),优化计算效率;3. 低延迟内核延迟低至163微秒,适合推理解码场景】
'DeepEP: an efficient expert-parallel communication library'
GitHub: github.com/deepseek-ai/DeepEP