环球速看：可生成高清视频的Stable Diffusion来了！支持在线试玩

来源：量子位　2022-09-18 18:43:37

明敏发自凹非寺
量子位 | 公众号 QbitAI

免费玩的Stable diffusion，又出新变种了！

(资料图片)

古典人像丝滑切换，还都是4倍超分辨率水平，细节也就多了亿点点吧，眉毛发丝都根根分明。

还能从一盘草莓意大利面，丝滑变成一份蓝莓面。

这就是最近在推特上火了Stable Diffusion视频版2.0.

它能够通过Real-ESRGAN进行上采样，让生成画面达到4倍超分。

要知道，之前Stable Diffusion生成的图像如果想要高清，还得自己手动提升分辨率。

现在直接二合一，在谷歌Colab上就能跑！

食用指南

Colab上的操作非常简单，基本上就是傻瓜式按照步骤运行即可。

需要注意的是，过程中要从个人Hugging Face账户中复制token登入。

拉取模型前，记得在Hugging Face上授权，否则会出现403错误。

搞定以上问题后，就能来用Stable Diffusion来生成高清视频了。

生成一段视频需要给出2个提示词，然后设置中间的步数，以及是否需要上采样。

中间步骤越多，生成所需的时间越长；同样上采样也会一定程度上加长生成时间。

还能直接用代码来跑，修改几个简单的参数就能搞定。

除了线上模式外，该模型还支持本地运行，项目已在GitHub上开源。

注意需要额外安装Real-ESRGAN。

超分算法来自腾讯

简单来说，这次Stable Diffusion的变种版本就是把生成的图片，通过超分辨率方法变得高清。

Stable Diffusion的原理，是扩散模型利用去噪自编码器的连续应用，逐步生成图像。

一般所言的扩散，是反复在图像中添加小的、随机的噪声。而扩散模型则与这个过程相反——将噪声生成高清图像。训练的神经网络通常为U-net。

不过因为模型是直接在像素空间运行，导致扩散模型的训练、计算成本十分昂贵。

基于这样的背景下，Stable Diffusion主要分两步进行。

首先，使用编码器将图像x压缩为较低维的潜在空间表示z（x）。

其中上下文（Context）y，即输入的文本提示，用来指导x的去噪。

它与时间步长t一起，以简单连接和交叉两种方式，注入到潜在空间表示中去。

随后在z（x）基础上进行扩散与去噪。换言之，就是模型并不直接在图像上进行计算，从而减少了训练时间、效果更好。

再来看超分辨率部分。

用到的方法是腾讯ARC实验室此前开发的 Real-ESRGAN ，被ICCV 2021接收。

它可以更有效地消除低分辩率图像中的 振铃和overshoot伪影 ；

面对真实风景图片，能更逼真地恢复细节，比如树枝、岩石、砖块等。

原理方面，研究人员引出了 高阶退化过程 来模拟出更真实全面的退化，它包含多个重复的经典退化过程，每个又具有不同的退化超参：

下图为Real-ESRGAN进行退化模拟的示意图：

采用的是 二阶退化 ，具体可分为在模糊（blur）、降噪（noise）、resize、JPGE压缩几个方面。

到训练环节，Real-ESRGAN的生成器用的是RRDBNet，还扩展了原始的×4 ESRGAN架构，以执行resize比例因子为×2和×1的超分辨率放大。

想要单独使用这种超分算法也不是问题。

在GitHub上下载该模型的可执行文件，Windows/Linux/MacOS都可以，且不需要CUDA或PyTorch的支持。

下好以后只需在终端执行以下命令即可使用：

./realesrgan-ncnn-vulkan.exe -i input.jpg -o output.png

值得一提的是，Real-ESRGAN的一作 Wang Xintao 是图像/视频超分辨率领域的知名学者。

他本科毕业于浙江大学本科，香港中文大学博士（师从汤晓鸥），现在是腾讯ARC实验室（深圳应用研究中心）的研究员。

此前曾登顶GitHub热榜的项目GFPGAN也是他的代表作。

One More Thing

前两天，大谷老师也发布了用Stable Diffusion生成了一组少女人像，效果非常奈斯。

顺带让我们都完成了一下“阅女无数”的成就（doge）。

Stable Diffusion还能玩出哪些新花样？你不来试试吗？

Colab试玩： https://colab.research.google.com/github/nateraw/stable-diffusion-videos/blob/main/stable_diffusion_videos.ipynb

GitHub地址： https://github.com/nateraw/stable-diffusion-videos

Hugging Face授权： https://huggingface.co/CompVis/stable-diffusion-v1-4

参考链接： [1]https://twitter.com/_nateraw/status/1569315090314444802 [2]https://www.bilibili.com/video/BV1yd4y1g7Wz?spm_id_from=333.999.0.0

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一时间获知前沿科技动态

关键词：高清视频两种方式可执行文件

推荐DIY文章

主机存在磨损或划痕风险 PICO4便携包宣布召回

穿越湖海！特斯拉Cybertruck电动皮卡可以当“船”用

vivoXFold+折叠旗舰开售配备蔡司全焦段旗舰四摄

飞凡R7正式上市全系标配换电架构

中兴Axon30S开售拥有黑色蓝色两款配色

荣耀MagicBookV14 2022正式开售搭载TOF传感器

华硕无双上新新增指纹识别模块和键盘背光

曝爱彼迎联合创始人加入特斯拉董事会自愿放弃现金薪酬

联想YOGAPro14si9版将开启预售搭载i9-12900H处理器

RTX4090发布：性能提升高达2倍功耗保持450W

一加NordWatch智能手表官宣采用矩形表盘

小米米家智能枕开启众筹内置智能压电传感器可捕捉心跳

再开行业先河，欠薪两月的爱驰汽车倡导员工2023-05-25
出轨成性，死拖张嘉倪，换着法子骂网友，买2023-05-25
今日快看!西藏日喀则：金融活水“贷”动文2023-05-25
雪居之地哪些首领具有扫射和狂热的资质2023-05-25
塞尔达传说王国之泪为海布拉带来和平挑战视2023-05-25
塞尔达传说王国之泪科尔天的下落挑战视频攻2023-05-25
塞尔达传说王国之泪白鸟所指引的洞窟任务在2023-05-25
天天快资讯丨垃圾分类达人评选，诉求降65%2023-05-25
新疆：棉企调降基差汽运出库未降温2023-05-25
「雷鸟Air Plus+雷鸟魔盒」评测：1+1能否2023-05-25
实测！AI诈骗生成露脸说话视频仅需数十元 2023-05-25
外媒：禁售美光就是中国开始反击的信号2023-05-25
玩转光追1080P：iGame GeForce RTX 40602023-05-25
李佳琦联合近千家品牌启动618 三大直播间2023-05-25
小米什么都想要：手机虽然大缩水，但还有汽2023-05-25
关注：戴森发布全新360 Vis Nav吸尘机器2023-05-25
教育部部署各地深入开展“2023高考护航行动2023-05-25
HugNLP框架：一键刷榜，全面统一NLP训练_世2023-05-25
民乐：力促商务经济高质量发展_动态2023-05-25
光天化日有人持刀劫持女子，有人一锹拍在持2023-05-25
布朗炮轰塔图姆：不知道他为什么总是排挤我2023-05-25
塞尔达传说王国之泪为阿卡莱带来和平挑战视2023-05-25
雪居之地裸地精输出怎么样|全球快看点2023-05-25
塞尔达传说王国之泪骸骨马任务在哪里做2023-05-25
世界今日报丨雪居之地裸地精抓位怎么样2023-05-25
沪指跌0.23％，深成指跌0.05％，创业板平开。2023-05-25
微信红包不收多久退回？微信红包发错了怎么2023-05-25
电池正极是凸出来还是凹进去？电池正极是什2023-05-25
手机信号不好怎么能增强信号？手机无网络信2023-05-25
直动式减压阀是常开还是常闭？直动式减压阀2023-05-25

环球速看：可生成高清视频的Stable Diffusion来了！支持在线试玩

食用指南

超分算法来自腾讯

One More Thing

新闻排行

精彩推荐

综合信息