Galvatron项目原作解读:大模型分布式训练神器,一键实现高效自动并行

目前「大模型」在 AI 领域的多种应用场景都在大放异彩,其中基于 Transformer 的大规模预训练模型已经成为了当前基础模型(Foundation Model)的核心架构。与此同时,这类稠密大模型拥有着动辄数十亿、百亿甚至万亿规模的参数量,面临高昂的计算、存储、以及通信成本,为 AI 基础设施带来了巨大的挑战。人们研发了很多工具(如 Megatron、DeepSpeed、FairSeq 等)来实现如数据并行、张量模型并行、流水并行、分片数据并行等各种并行范式。但这种粗粒度的封装逐渐难以满足用户对系统效率和可用性的需要。如何通过系统化、自动化的方式实现大模型分布式训练,已经成为了当前 MLSys 领域最为重要的问题之一。

最近已经有一些系统开始提及“自动并行”的概念,但它们大部分都还停留在对 API 和算子进行工程上的封装,仍然依赖用户人工反复尝试或系统专家经验才能完成部署,并没有从根本上解决自动并行难题。近日,北大河图团队提出了一套面向大模型的自动并行分布式训练系统 Galvatron,相比于现有工作在多样性、复杂性、实用性方面均具有显著优势,性能显著优于现有解决方案,论文成果已经被 VLDB 2023 接收。

机器之心最新一期线上分享邀请到了北大河图团队负责人苗旭鹏,为大家解读他们近期的工作 Galvatron。


(相关资料图)

分享主题:大模型分布式训练神器 Galvatron,一键实现高效自动并行

分享嘉宾:苗旭鹏,卡内基梅隆大学博士后研究员,博士毕业于北京大学计算机学院,河图(Hetu)团队负责人,主要研究方向包括机器学习系统、数据管理和分布式计算,在SIGMOD、VLDB等国际顶级学术会议和期刊上发表论文20余篇。

分享摘要:Galvatron是北大河图团队推出的业界首个囊括四种主流并行方法的全自动并行训练系统,提出了一套创新性的高效自动并行探索方法。常规PyTorch用户无需付出任何额外安装调试代价,就可以轻松实现自动并行。

相关链接:

1)SOTA!模型平台项目主页链接:

https://sota.jiqizhixin.com/project/galvatron

2)论文链接:

https://www.vldb.org/pvldb/vol16/p470-miao.pdf

3)代码仓库:

https://github.com/PKU-DAIR/Hetu/tree/main/tools/Galvatron

4)机器之心报道:

https://mp.weixin.qq.com/s/levwBKhbp3dJAIslvqyZAQ

加群看直播
直播间: 关注机器之心机动组视频号,北京时间 1 月 16 日 19:00 开播。
交流群:本次直播设有 QA 环节,欢迎加入本次直播交流群探讨交流。
如群已超出人数限制,请添加机器之心小助手:syncedai2、syncedai3、syncedai4 或 syncedai5,备注「Galvatron」即可加入。
如果你也有最新工作希望分享或提交你感兴趣的内容方向,随时告诉我们吧: https://jiqizhixin.mikecrm.com/fFruVd3
机器之心 · 机动组
机动组是机器之心发起的人工智能技术社区,聚焦于学术研究与技术实践主题内容,为社区用户带来技术线上公开课、学术分享、技术实践、走近顶尖实验室等系列内容。 机动组也将不定期举办线下学术交流会与组织人才服务、产业技术对接等活动,欢迎所有 AI 领域技术从业者加入。

关键词: 机器之心 已经成为了 人工智能技术

推荐DIY文章
主机存在磨损或划痕风险 PICO4便携包宣布召回
穿越湖海!特斯拉Cybertruck电动皮卡可以当“船”用
vivoXFold+折叠旗舰开售 配备蔡司全焦段旗舰四摄
飞凡R7正式上市 全系标配换电架构
中兴Axon30S开售 拥有黑色蓝色两款配色
荣耀MagicBookV14 2022正式开售 搭载TOF传感器
it