庆云古诗词

庆云古诗词

换脸效果媲美GAN!一文解析OpenAI最新流生成模型「Glow」

互联资讯 0

2023年11月20日 每日一猜答案: 答案:ABC
每日一猜答案分析:

换脸讲解,换脸叫什么名字,换脸吗?,最近比较火的换脸视频

在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考。

在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果。

点击本文底部的「阅读原文」即刻加入社区,查看更多最新论文推荐。

这是 PaperDaily 的第?90?篇文章

本期推荐的论文笔记来自 PaperWeekly 社区用户 @TwistedW基于流的生成模型在 2014 年已经被提出,但是一直被忽视。由 OpenAI 带来的 Glow 展示了流生成模型强大的图像生成能力。文章使用可逆 1 x 1 卷积在已有的流模型 NICE 和 RealNVP 基础上进行扩展,精确的潜变量推断在人脸属性上展示了惊艳的实验效果。

如果你对本文工作感兴趣,点击底部阅读原文即可查看原论文。

■?论文 | Glow: Generati【【微信】】 1x1 Convolutions

■ 链接 | https://www.【【淘密令】】.site/papers/2101

■ 源码 | https://github.com/openai/glow

图像生成在 GAN 和 VAE 诞生后得到了很快的发展,现在围绕 GAN 的论文十分火热。生成模型只能受限于 GAN 和 VAE 吗?OpenAI 给出了否定的答案,OpenAI 带来了 Glow,一种基于流的生成模型

虽然基于流的生成模型在 2014 年就已经提出来了,但是一直没有得到重视。Glow 的作者在之前已经在基于流的生成模型上提出了 NICE [1]RealNVP [2],Glow 正是在这两个模型基础加入可逆 1 x 1 卷积进行扩展,精确的潜在变量推断在人脸属性上展示了惊艳的实验效果,具体效果可在 OpenAI 放出的 Demo [3] 下查看。

随着深度神经网络的发展,生成模型也得到了巨大的飞跃。目前已有的生成模型除了 Glow 外包括三大类,GAN、VAE 和 【【微信】】(自回归模型)。 其中自回归模型和 VAE 是基于似然的方法,GAN 则是通过缩小样本和生成之间的分布实现数据的生成。文中对这些已有的生成模型也做了一个小结:

1. 自回归模型(【【微信】】):自回归模型在 PixelCNN 和 PixelRNN 上展示了很不错的实验效果,但是由于是按照像素点去生成图像导致计算成本高, 在可并行性上受限,在处理大型数据如大型图像或视频是具有一定麻烦的。?

2. 变分自编码器(VAE):VAE 是在 【【微信】】 的基础上让图像编码的潜在向量服从高斯分布从而实现图像的生成,优化了数据对数似然的下界,VAE 在图像生成上是可并行的, 但是 VAE 存在着生成图像模糊的问题,Glow 文中称之为优化相对具有挑战性。?

3. 生成对抗网络(GAN):GAN 的思想就是利用博弈不断的优化生成器和判别器从而使得生成的图像与真实图像在分布上越来越相近。GAN 生成的图像比较清晰, 在很多 GAN 的拓展工作中也取得了很大的提高。但是 GAN 生成中的多样性不足以及训练过程不稳定是 GAN 一直以来的问题,同时 GAN 没有潜在空间编码器,从而缺乏对数据的全面支持。?

基于流的生成模型,首先在 NICE 中得到提出并在 RealNVP 中延伸。可以说流的生成模型被 GAN 的光芒掩盖了,但是是金子总会发光。Glow 一文算是将流生成模型推到了学术的前沿,已经有很多学者在讨论 Glow 的价值,甚至有说 Glow 将超越 GAN

具体还要看学术圈的进一步发展,不过 Glow 确实在图像的生成,尤其是在图像编码得到的潜在向量精确推断上展示了很好的效果。在 OpenAI 放出的 Demo 上展示了很惊艳的实验效果,就人脸合成和属性变化上可以看出 Glow 确实可以媲美 GAN。

基于流的生成模型总结一下具有以下优点:

1. 精确的潜在变量推断和对数似然评估,在 VAE 中编码后只能推理出对应于数据点的潜在变量的近似值,GAN 根本就没有编码器更不用谈潜在变量的推断了。在 Glow 这样的可逆生成模型中,可以在没有近似的情况下实现潜在变量的精确的推理,还可以优化数据的精确对数似然,而不是其下限。

2. 高效的推理和合成,自回归模型如 PixelCNN,也是可逆的,然而这样的模型合成难以实现并行化,并且通常在并行硬件上效率低下。而基于流的生成模型如 Glow 和 RealNVP 都能有效实现推理与合成的并行化。

3. 对下游任务有用的潜在空间,自回归模型的隐藏层有未知的边际分布,使其执行有效的数据操作上很困难;在 GAN 中,由于模型没有编码器使得数据点通常不能在潜在空间中直接被表征,并且表征完整的数据分布也是不容易的。而在可逆生成模型和 VAE 中不会如此,它们允许多种应用,例如数据点之间的插值,和已有数据点的有目的修改。

4. 内存的巨大潜力,如 RevNet 论文所述,在可逆神经网络中计算梯度需要一定量的内存,而不是线性的深度。

基于流的生成模型的优势展示了 Glow 的魅力,但是在 Glow 论文解读前,我们还是先回顾一下前两个基于流的生成模型 NICE 和 RealNVP。

NICE 的全称为 【【微信】】T COMPONENTS ESTIMATION,翻译过来就是“非线性独立分量估计”。整体上来说,NICE 是为了对复杂的高维数据进行非线性变换,将高维数据映射到潜在空间,产生独立的潜在变量。这个过程是可逆的,即可以从高维数据映射到潜在空间,也可以从潜在空间反过来映射到高维数据。?

为了实现这个可逆的映射关系,就需要找到一个满足映射的函数 f,使得 h=f(x),这里的 x 就是高维数据,对应到图像生成上 x 就是输入的图像,h 就是映射到的潜在空间。这个过程是可逆的,也就是。这个潜在空间可以给定一个先验分布 pH(h),即 hpH(h)。 所以实现 NICE 的关键就是找到这个可逆的映射 f,这个不是一件容易的事,此时就引入了一个矩阵用于辅助实现映射,这就是雅可比矩阵。

雅可比矩阵

假设是一个从欧式 n 维空间转换到欧式 m 维空间的函数。这个函数由 m 个实函数组成。 这些函数的偏导数(如果存在)可以组成一个 m 行 n 列的矩阵,这就是所谓的雅可比矩阵:

此矩阵表示为:,或者

雅可比行列式?

详细阐述人工智能技术的三大法宝 了解人工智能引发的技术革命详细阐述人工智能技术的三大特征,详细阐述人工智能技术的三个特征,人工智能技术的三要素,人工智能三大技术要素

今天,名为Nomic AI的人工智能开发公司为人们带来了一个神奇的礼物――GPT4All。这个智能体仅需4GB空间,就可以在家用电脑上安装和运行,不需要连接互联网。人们惊叹于它的力量,它的成本仅为1,300美元,由Nomic AI的程序员在短短四天内完成开发。虽然GPT4All的力量无法与OpenAI的ChatGPT-4相媲美,但在自己的领域仍然是一种强大的工具。

而特斯拉和推特CEO埃隆・马斯克站在这个世界的边缘,警告人们人工智能的发展已经将我们带到了技术不归路的边缘。他呼吁所有人工智能公司“立即停止”培训强大的人工智能系统,并表示“人类有竞争力的智能可能对社会和人类构成深刻的风险”。

在这个世界里,一场关于智能的战争正在悄然上演。一些人认为技术奇点是一种积极的发展,而另一些人则认为它可能是灾难性的,导致一个反乌托邦的未来。人们开始对自己的立场产生怀疑,因为人工智能的快速发展使得很多事情变得不可控和不可逆。这场战争的背后隐藏着一个名为Singularity的概念,它揭示了技术增长的真相。

与此同时,ChatGPT作为第一个通用型AI应用程序,正在改变着历史的进程。它能够执行历史上仅限于人类的任务,如写论文、进行研究、进行法律分析、提供建议、提供数字伴侣等。然而,这个充满智慧的世界并非毫无问题。ChatGPT在精英水平上执行这些任务的能力使得伦理和安全问题日益凸显。

在这个不断变革的世界中,各国政府试图通过立法和监管来确保人工智能的安全和公正。中国制定了严格的人工智能安全规定,美国政府则采取更加谨慎的计划,以确保人工智能系统能够如其供应商所承诺地安全运行。然而,在这场智能革命中,人们发现制定规则和法律的过程并不容易。

在意大利,数据保护监管机构下令OpenAI遵守欧洲的《通用数据保护条例》(GDPR),否则无法解除ChatGPT在意大利的禁令。意大利的监管机构要求OpenAI必须公开数据处理的信息通知,采取更严格的年龄验证措施以防止未成年人接触技术,提供用户行使数据保护权利的方式,以及进行本地意识宣传活动。在这个充满挑战的环境中,OpenAI必须在规定的时间内完成这些要求,以重获在意大利的市场份额。

与此同时,美国和中国都在努力解决人工智能系统中的偏见问题。然而,两国的方法截然不同。中国的规定仅仅命令人工智能公司不允许其系统有任何歧视,而美国国家电信和信息管理局(NTIA)的文件则谈到了更加复杂的策略,如采购标准的使用。两国在争夺AI领域的主导地位,使得这场战争愈发激烈。

在这个充满智慧的世界,我们不禁要问:我们是否已经走到了技术不归路的边缘?我们是否还能通过合作与创新来确保人工智能的安全和可持续发展?这些问题和挑战将继续伴随着我们,直到我们找到一个能够平衡发展和风险的解决方案。