全球观焦点：给我1张图，生成30秒视频！｜DeepMind新作

来源：新智元　2022-08-19 22:27:09

编辑：Joey 桃子

【新智元导读】近日，DeepMind提出了一种基于概率帧预测的图像建模和视觉任务的通用框架——Transframer。

AI又进阶了？

而且是一张图生成连贯30秒视频的那种。

(资料图片仅供参考)

emm....这质量是不是有点太糊了

要知道这只是从单个图像（第一帧）生成的，而且没有任何显示的几何信息。

这是DeepMind最近提出的一种基于概率帧预测的图像建模和视觉任务的通用框架——Transframer。

简单讲，就是用Transframer来预测任意帧的概率。

这些帧可以以一个或者多个带标注的上下文帧为条件，既可以是先前的视频帧、时间标记或者摄像机标记的视图场景。

Transframer架构

先来看看这个神奇的Transframer的架构是怎么运作的。

论文地址就贴在下面了，感兴趣的童鞋可以看看~

https://arxiv.org/abs/2203.09494

为了估计目标图像上的预测分布，我们需要一个能够生产多样化、高质量输出的表达生成模型。

尽管DC Transformer在单个图像域上的结果可以满足需求，但并非以我们需要的多图像文本集 {(In,an)}n 为条件。

因此，我们对DC Transformer进行了扩展，以启用图像和注释条件预测。

我们替换了DC Transformer 的Vision-Transformer风格的编码器，该编码器使用多帧 U-Net 架构对单个DCT图像进行操作，用于处理一组带注释的帧以及部分隐藏的目标DCT图像。

下面看看Transframer架构是如何工作的。

（a）Transframer将DCT图像（a1和a2）以及部分隐藏的目标DCT图像（aT）和附加注释作为输入，由多帧U-Net编码器处理。
接下来，U-Net输出通过交叉注意力传递给DC-Transformer解码器，该解码器则自动回归生成与目标图像的隐藏部分对应的DCT Token序列（绿色字母）。
（b）多帧U-Net block由NF-Net卷积块、多帧自注意力块组成，它们在输入帧之间交换信息和 Transformer式的残差MLP。

再来看看处理图像输入的Multi-Frame U-Net。

U-Net的输入是由N个DCT帧和部分隐藏目标DCT帧组成的序列，注释信息以与每个输入帧相关联的向量的形式提供。

U-Net的核心组件是一个计算块，它首先将一个共享的NF-ResNet 卷积块应用于每个输入帧，然后应用一个Transformer样式的自我注意块来聚合跨帧的信息。（图2 b）

NF-ResNet块由分组卷积和挤压和激发层组成，旨在提高TPU的性能。

下面，图(a)比较了RoboNet (128x128) 和KITTI视频的绝对和残差DCT表征的稀疏性。

由于RoboNet由只有少数运动元素的静态视频组成，因此残差帧表征的稀疏性显著增加。

而KITTI视频通常具有移动摄像头，导致连续帧中几乎所有地方都存在差异。

但在这种情况下，稀疏性小带来的好处也随之弱化。

多视觉任务强者

通过一系列数据集和任务的测试，结果显示Transframer可以应用在多个广泛任务上。

其中就包括视频建模、新视图合成、语义分割、对象识别、深度估计、光流预测等等。

视频建模

通过Transframer在给定一系列输入视频帧的情况下预测下一帧。

研究人员分别在KITTI和RoboNet两个数据集上，训练了Transframer在视频生成上的性能如何。

对于KITTI，给定5个上下文帧和25采样帧，结果显示，Transframer模型在所有指标上的性能都有所提高，其中LPIPS和FVD的改进是最显而易见的。

在RoboNet上，研究人员给定2个上下文帧和10个采样帧，分别以64x64 和 128x128 的分辨率进行训练，最终也取得了非常好的结果。

视图合成

在视图合成方面，研究者通过提供相机视图作为表 1（第 3 行）中描述的上下文和目标注释，以及统一采样多个上下文视图，直到指定的最大值。

通过提供1-2个上下文视图，在ShapeNet 基准上评估模型Transframer，明显优于PixelNeRF和SRN。

此外在数据集Objectron进行评估后，可以看出当给定单个输入视图时，模型会产生连贯的输出，但会遗漏一些特征，比如交叉的椅子腿。

当给出1个上下文视图，以128×128分辨率合成的视图如下：

当再给出2个上下文视图，以128×128分辨率合成的视图如下：

多视觉任务

不同的计算机视觉任务通常使用复杂的架构和损失函数来处理。

这里，研究人员在8个不同的任务和数据集上使用相同的损失函数联合训练了Transframer模型。

这8个任务分别是：单个图像的光流预测、对象分类、检测和分割、语义分割（在2个数据集上）、未来帧预测和深度估计。

结果显示，Transframer学会在完全不同的任务中生成不同的样本，在某些任务中，比如 Cityscapes，该模型产生了质量上好的输出。

但是，在未来帧预测和边界框检测等任务上的模型输出质量参差不齐，这表明在此设置中建模更具挑战性。

参考资料：

https://sites.google.com/view/transframer

关键词：研究人员损失函数我们需要

推荐DIY文章

主机存在磨损或划痕风险 PICO4便携包宣布召回

穿越湖海！特斯拉Cybertruck电动皮卡可以当“船”用

vivoXFold+折叠旗舰开售配备蔡司全焦段旗舰四摄

飞凡R7正式上市全系标配换电架构

中兴Axon30S开售拥有黑色蓝色两款配色

荣耀MagicBookV14 2022正式开售搭载TOF传感器

it

华硕无双上新新增指纹识别模块和键盘背光

曝爱彼迎联合创始人加入特斯拉董事会自愿放弃现金薪酬

联想YOGAPro14si9版将开启预售搭载i9-12900H处理器

RTX4090发布：性能提升高达2倍功耗保持450W

一加NordWatch智能手表官宣采用矩形表盘

小米米家智能枕开启众筹内置智能压电传感器可捕捉心跳

出轨成性，死拖张嘉倪，换着法子骂网友，买2023-05-25
今日快看!西藏日喀则：金融活水“贷”动文2023-05-25
雪居之地哪些首领具有扫射和狂热的资质2023-05-25
塞尔达传说王国之泪为海布拉带来和平挑战视2023-05-25
塞尔达传说王国之泪科尔天的下落挑战视频攻2023-05-25
塞尔达传说王国之泪白鸟所指引的洞窟任务在2023-05-25
天天快资讯丨垃圾分类达人评选，诉求降65%2023-05-25
新疆：棉企调降基差汽运出库未降温2023-05-25
「雷鸟Air Plus+雷鸟魔盒」评测：1+1能否2023-05-25
实测！AI诈骗生成露脸说话视频仅需数十元 2023-05-25
外媒：禁售美光就是中国开始反击的信号2023-05-25
玩转光追1080P：iGame GeForce RTX 40602023-05-25
李佳琦联合近千家品牌启动618 三大直播间2023-05-25
小米什么都想要：手机虽然大缩水，但还有汽2023-05-25
关注：戴森发布全新360 Vis Nav吸尘机器2023-05-25
教育部部署各地深入开展“2023高考护航行动2023-05-25
HugNLP框架：一键刷榜，全面统一NLP训练_世2023-05-25
民乐：力促商务经济高质量发展_动态2023-05-25
光天化日有人持刀劫持女子，有人一锹拍在持2023-05-25
布朗炮轰塔图姆：不知道他为什么总是排挤我2023-05-25
塞尔达传说王国之泪为阿卡莱带来和平挑战视2023-05-25
雪居之地裸地精输出怎么样|全球快看点2023-05-25
塞尔达传说王国之泪骸骨马任务在哪里做2023-05-25
世界今日报丨雪居之地裸地精抓位怎么样2023-05-25
沪指跌0.23％，深成指跌0.05％，创业板平开。2023-05-25
微信红包不收多久退回？微信红包发错了怎么2023-05-25
电池正极是凸出来还是凹进去？电池正极是什2023-05-25
手机信号不好怎么能增强信号？手机无网络信2023-05-25
直动式减压阀是常开还是常闭？直动式减压阀2023-05-25
环球关注：一季度价格战拖累毛利！小鹏汽车2023-05-25

新闻排行

精彩推荐

综合信息

业界
|
科技
|
IT
|
教育
|
房产
|
创业
|
数码
|
智能
|
数据
|
综合
|
信息
|
快讯