「大规模预训练」是 AI 各领域愈发浮出水面的宏图愿景。BERT 预训练与 GPT 齐名,分别被证明在语言理解和语言生成下游任务上取得了卓越性能,是 NLP 表征学习的利器。「卷积模型」则是视觉领域的中流砥柱。得益于高度并行化和局部化,CNN 长期积累的硬件优化使其成为现实工业界中不可代替的骨干。「强大的预训练的卷积模型」则是视觉研究者的长期追求,然而,卷积模型的 SOTA 预训练仍停滞在对比学习,将 BERT 的成功从 Transformer 迁移到卷积是一个吸引人但未实现的愿景。
SparK 工作初步进行了一些探索:该工作归纳 BERT 算法和 CNN 模型的关键不适配在于两点:(1) 是规整的 CNN 天生无法处理随机的、不规则的 BERT 随机掩码的输入,(2) 是视觉领域中长期以来的 “多尺度” 设计,与天然单尺度的 BERT 存在不一致。其解决方案是:(1) 使用子流形稀疏卷积以适应随机孔洞输入,(2) 设计 UNet 风格结构以允许多尺度信息的流通。
【资料图】
作为卷积模型上的首个 BERT 式预训练,SparK 可被使用在任何模型上,并以 ResNet 系列和 ConvNeXt 为例测试,性能远超有监督预训练、对比学习,甚至超过 MIM+Swin-Transformer. 目前代码、模型均开源,作者希望能够为真实场景下的卷积模型助力,并帮助探索更广阔的视觉预训练领域。
机器之心最新一期线上分享邀请到了北京大学在读硕士田柯宇,为大家分享他们近期工作 SparK。
分享主题:SparK:卷积模型的首个BERT预训练
分享嘉宾:田柯宇,北京大学研一学生,导师为王立威老师,研究方向为深度学习算法,包括超参数优化/强化学习/自监督的新型算法,在 NeurIPS 等会议发表多篇论文并担任 NeurIPS/ICML/ICLR/CVPR 等审稿人。
分享摘要:SparK 由北大与字节跳动合作,是卷积模型上的首个通用的 BERT 式预训练,可被运用在任何卷积网络上(如 ResNet-50/ConvNeXt)。在分类 / 检测 / 分割的标准下游场景,SparK 大幅超过了有监督预训练和对比学习(最高涨幅达 3.5),超越 MIM+Swin-Transformer,并展现出可扩放性质(scalable):大模型收益更多。希望 SparK 的开源,以及其利用稀疏卷积和多尺度结构的两个关键设计,可以助力使用卷积网络的各个真实场景、贡献社区。
相关链接:
1)SOTA!模型平台项目主页链接:
https://sota.jiqizhixin.com/project/spark
2)论文链接:
https://arxiv.org/abs/2301.03580
3)代码仓库:
https://github.com/keyu-tian/SparK
4)Demo视频:
http://www.youtube.com/watch?v=-IWyQ2hAoBw