近年来,AI技术开始在图文视频行业大放异彩,给图文视频生成技术带来了革新。
在2021年百度的 大脑图文转视频技术(VidPress) 问世,该技术能够由 AI自动剪辑生成视频 ,只需要一键输入上传Word稿件、新闻网址即可在短时间生成视频。
(资料图片)
该技术是业界首个支撑通用型、大规模的全自动视频生成技术。
而 AI绘画 也开始出现并快速发展,从最早的AI上色网站 Paintschainer 、到谷歌的 Disco Diffusion 、还有中国的 Tiamat ,AI在绘画领域也“开卷”。
近期 Novel AI 也在二次元图片生成领域有了飞跃式进展,人物绘画技术取得了很大的进展,最近大火的番剧 《电锯人》 也运用了AI技术 Midjourney 来制作,还掀起了AI绘画即将取代新人画师的舆论风潮。
而如今, AI技术生成视频也有了新的成果: Meta AI推出了Make-A-Video ,一种通过时空分解扩散模型将基于扩散的T2I模型扩展到T2V的有效方法,是最先进的人工智能系统, 可以利用给定的几个词或几行文字生成一个几秒钟的短视频 。
01
Make-A-Video
释放你的想象力
Meta首席执行官Mark Zuckerberg详细介绍一个短视频的制作,“我们给出的描述是这样的,‘画自画像的泰迪熊’、‘戴着针织帽的树懒宝宝在探索笔记本电脑’、‘在火星上着陆的宇宙飞船’以及‘在海中冲浪的机器人’。 生成视频比生成照片难得多,因为除了正确生成每个像素,Make-A-Video系统还必须预测像素如何随时间变化。”
据了解,Make-A-Video由三个主要部分组成:
1. 基于文本图像对训练的基本T2I模型
2. 时空卷积和注意层,将网络的构建块扩展到时间维度
3. 时空网络,由这两个维度组成时空层,以及T2V生成所需的另一个关键元素:用于高帧速率生成的帧内插网络
相对于百度它对文本生成视频技术做出了一些升级,百度的大脑图文转视频技术是通过互联网素材构成的,视频生成服务依靠丰富大量的素材库才能完成素材的聚合和视频的生成;而它能够完全用AI取代内容生成,它不需要互联网素材库也能生成视频。
Make-A-Video研究建立在文本到图像生成技术最新进展的基础上,该技术旨在实现文本到视频的生成。
该系统使用带有描述的图像来了解世界的样貌以及图像是如何被描述的,它还能使用未标记的视频来了解世界是如何运动的。
因此它能给你发挥想象力的空间,不需要互联网上的素材,只需要几句话或者几行文字就可以生成奇思妙想且独一无二的视频。
Make-A-Video开创了T2V新一代的最新技术。
使用函数保持变换,在模型初始化阶段扩展了空间层来包含时间信息;扩展的时空网络包括新的注意力模块,可以从视频集合中学习时间世界动态。
除了用文本生成视频的功能,它还能将运动添加到单个图像或者两个图像之间填充运动;还可以根据原始视频创建变体,为视频添加额外的创意。
02
Make-A-video
相较于以往产品的优势
Make-A-Video主要有三个优点:
1. 它加快了T2V(文本到视频)模型的训练,不需要从头开始学习视觉和多模式表示。
2. 它不需要成对文本的视频数据。
3. 生成的视频继承了当今图像生成模型的广泛性、审美多样性、幻想性描绘等。
Make-A-Video相较于以前的作品有一个显著的优势,其架构打破了T2V生成对文本视频的依赖,而以前的AI图文转视频技术必须限制在狭窄的领域或需要大规模成对文本视频数据。
该程序还通过将先前训练的的T2I网络中的知识瞬间转移到新的T2V网络中,大大加快了T2V培训过程。
同时为了提高视觉质量,训练了空间超分辨率模型以及帧插值模型;这将提高生成视频的分辨率,并启用更高更可控的帧速率。
03
Make-A-Video
Make a new future
而为了负责任地推进人工智能,减少有害的、有偏见或误导性的内容,确保这种最先进的视频技术的安全使用,开发人员采取了一些有效措施。
在源数据方面,由于这项技术通过分析数以万计的数据来了解世界,为了降低有害内容产生的风险,对过滤器进行了检查、应用并迭代过滤器,以减少有害内容在视频中出现的可能性。
在内容方面,由于Make-A-Video可以创建看起来逼真的内容,因此开发人员在生成的所有视频中添加了水印;这有助于确保观众能知道视频是用人工智能生成的,而不是捕获的视频。
而同时开发人员也正在致力于将这项技术提供给公众,目前正对Make-A-Video继续分析、测试和试用,以确保发布的每一步都是安全的。
向我们周围的世界学习是人类智力的最大优势之一,能够通过观察快速学习和认识他人、地点、事物和行为;AI如果能够模仿人类的学习方式,生成系统将更具创造性和实用性。
而未来的工作,开发人员还将致力于解决技术限制,如今的方法还无法学习文本和只能在视频之中推断出的现象之间的关联。
如何整合这些内容,以及生成更长的包含多个场景和事件的视频,描述更详细的故事,让我们期待其未来的发展吧。
作者:谭颖 排版:孔瀚越
图片源于Q仔互联网冲浪所得,若有侵权,后台联系,Q仔滑跪删除~
欢迎转载、留言、评论,留言点赞数最高(10个以上)的朋友,我们会赠送 清博指数&清博舆情一个月会员权限~
清博智能旗下的产品大多数开放 免费试用权限 ,想体验我们的产品,欢迎扫码咨询~
当然,对咱们的文章有兴趣或者有意见的朋友也可以扫码勾搭Q仔哦~