开源公告｜分布式深度学习训练工具PatrickStar正式开源

PatrickStar是一款分布式深度学习训练工具，它的设计目标是支持以GPT、Bert为代表的超大预训练模型训练。在性能表现上远超目前业界DeepSpeed效果。它可以显著降低PTM的使用成本，使我们在更少的GPU硬件上训练之前用其他框架OOM的模型。比如，在8x V100，240GB内存的计算节点上，派大星成功训练了120亿参数模型，单GPU的计算效率仍高达在47 Tflops。

PatrickStar 通过使用 CPU-GPU 异构内存空间来存储模型数据，从而降低对GPU的显存需求。不同于现有的异构训练方案在 CPU 和 GPU 之间静态划分模型数据，PatrickStar 以Chunk(块)的形式更灵活地管理模型数据，这些Chunk动态分布在异构内存空间中，在训练过程中高效地移动，来满足当前计算的需求，从而使模型尺寸突破GPU的显存大小限制。PatrickStar和业界其他优秀数据并行方案兼容，比如，PatrickStar 使用零冗余优化器方式并行扩展到多个 GPU，并实现了理论最低的通信带宽需求和更高效的带宽利用率。派大星与模型并行，流水线并行兼容。