2月27日,DeepSeek宣布开源Optimized Parallelism Strategies。与此同时,英伟达开源了首个在Blackwell架构上优化的DeepSeek-R1,实现了推理速度提升25倍,并且每token成本降低20倍的惊人成果。这一新模型的推出,标志着英伟达在人工智能领域的又一次重大进展。
开源周第三天,DeepSeek宣布开源Optimized Parallelism Strategies(优化并行策略)。
据悉,该策略是为了提高计算效率、减少资源浪费并最大化系统性能而设计的并行计算方案。这些策略通过合理分配任务、协调资源利用和减少通信开销,实现在多核、分布式或异构系统中的高效并行执行。
最近,DeepSeek动作不断。此前,该公司宣布将DeepEP向公众开放。在宣布后的约20分钟内,DeepEP已在 GitHub、微软(MSFT.US)等平台上获得超过1000个 Star收藏。
据悉,DeepEP是MoE模型训练和推理的Expert Parallelism通信基础,可实现高效优化的全到全通信,以支持包括FP8在内的低精度计算,适用于现代高性能计算。DeepEP还针对从NVLink到RDMA的非对称带宽转发场景进行了深度优化,不仅提供高吞吐量,还支持流式多处理器数量控制,从而在训练和推理任务中实现高吞吐量性能。
稍早于2月26日,DeepSeek宣布,即日起,北京时间每日00:30至08:30的夜间空闲时段,DeepSeek开放平台推出错峰优惠活动。在此期间,API调用价格大幅下调:DeepSeek-V3降至原价的50%,DeepSeek-R1降至25%。
DeepSeek称,鼓励用户充分利用这一时段,享受更经济更流畅的服务体验。
DeepSeek推出优惠措施之时,正值其“开源周”。首个开源的代码库为针对Hopper GPU优化的FlashMLA,第二日是首个用于MoE模型训练和推理的开源EP通信库DeepEP,26日则开源了一个支持密集和MoE GEMM的FP8 GEMM 库,为V3/R1训练和推理提供支持。
英伟达通过在Blackwell架构上应用TensorRT DeepSeek优化,让具有FP4生产级精度的模型,在MMLU通用智能基准测试中达到了FP8 模型性能的99.8%。目前,英伟达基于FP4优化的DeepSeek-R1检查点已经在Hugging Face上开源,并且可以通过以下链接访问模型地址:DeepSeek-R1-FP4。
在后训练量化方面,该模型将Transformer模块内的线性算子的权重和激活量化到了FP4,适用于TensorRT-LLM推理。这一优化使每个参数的位数从8位减少到4位,从而让磁碟空间和GPU显存的需求减少了约1.6倍。
综合自券商中国