当前位置:首页 > 热水器 > 文章正文

苹果第一篇人工智能论文:提出模拟+无监督方法改进合成图像质量

编辑:[db:作者] 时间:2024-08-25 05:08:39

机器之心编译

参与:吴攀、蒋思源、朱思颖

在 12 月初的时候,苹果正式向外界宣告许可其人工智能和机器学习研究员公开拓布和分享他们的最新研究成果,这一举措稍稍掀开了苹果久负盛名且神秘的创新研究进程的一角。

苹果第一篇人工智能论文:提出模拟+无监督方法改进合成图像质量

仅在几周之后,他们的人工智能和机器学习研究的第一篇论文揭橥了,紧张聚焦苹果在智能图像识别领域的研究。

机器学习研究大概会在苹果内部引领新的潮流。
该公司最近成立的机器学习小组中六位研究员揭橥了一篇论文,这篇论文描述了一种用于仿照+无监督学习(simulated + unsupervised learning)的新方法。
其目的是提高合成演习图片的质量。
这项研究展示了该公司希望在高速增长的人工智能领域中成为领导者的渴望。

谷歌、Facebook、微软还有其他技能类初创公司一贯稳步发展他们的机器学习研究小组。
这些公司都揭橥了几百份的学术研究。
他们的学术追求都是公开且有据可查,但是苹果公司一贯很固执地将研究成果保密。

变革是从本月初开始的。
苹果的 AI 研究部主任 Russ Salakhutdinov 宣告该公司将很快开始揭橥研究成果。
该研究小组的第一次考试测验便是很及时很务实的。

比来,利用合成图像和视频演习机器学习模型的频率越来越高了。
不该用真实天下的图像是由于其花费的本钱和韶光很高,而天生图像的本钱更少,更随意马虎获取和定制化。

在该研究中,苹果指出了与合成图像或打算机图像比较利用真实图像的优缺陷,标注必须添加到真正的图像,这是一个「昂贵且耗时的任务」,须要一个人的劳动力单独标记图片中的物体。
另一方面,打算机天生的图像能帮助促进这一过程,「由于标注是自动可用的。

只管如此,完备换成合成图像可能会导致程序的质量低落的问题。
这是由于「合成数据每每不足现实」,每每会产生只对打算机天生的图像的细节才能反应良好的用户体验,而且还不能很好地泛化到它面对的任何真实天下的物体和图像上。

这便是这篇论文的初衷所在——在「对抗学习」中综合利用仿照和真实图像,创建出一个领先的人工智能图像程序:

在这篇论文中,我们提出了仿照+无监督学习(S+U)学习,其目标是利用未标记的真实数据提升合成图像的真实性。
经由提升的真实性能够在没有网络的真实数据或经由人类注释的大型数据集上实现更好机器模型演习。

我们创造这将实现高质量的真实图像的天生,而且经由了定性研究和用户研究的验证。

论文剩下的部分先容了苹果在该主题下的一些研究细节,包括已经开始操作的实验和支持其研究创造的一些数据理论。
虽然这篇论文只关注单个图像,但是苹果的该研究团队指出他们终极期望的结果是「磋商精髓精辟的视频」。

苹果发起利用天生式对抗网络(GANs)来提高这些合成图像的质量。
天生式对抗网络并不新颖,但苹果正在修正它使其更加符合天生演习图片的目的。

天生式对抗网络很大程度上通过利用竞争性神经网络(competing neural networks)之间的对抗关系来事情。
在苹果公司的论文中,仿照器通过精髓精辟机(refiner)进行天生图像,然后将这些精髓精辟过的图像发送到鉴别器(discriminator),鉴别器的任务便是区分真实图像和合成图像。

论文:通过对抗演习从仿照的和无监督的图像中学习(Learning from Simulated and Unsupervised Images through Adversarial Training)

择要:随着近年来在图形(graphics)上的进步,在合成的图像上演习模型变得越来越可行了,这也潜在地避免了对昂贵的标注的需求。
但是,由于合成图像分布和真实图像分布之间的差别,从合成的图像中学习可能无法得到预期的表现。
为了弥合这种差距,我们提出了仿照+无监督学习(Simulated+Unsupervised (S+U) learning),个中的任务是利用无标签的真实数据来提升仿照器输出的真实性,同时也为保留来自该仿照器的标注信息。
我们开拓了一种用于 S+U 学习的方法,该方法利用了一个类似于天生对抗网络(GAN)的对抗网络,但它的输入是合成图像而非随机向量。
我们在标准 GAN 算法的根本上做了一些关键的修正,从而可以保留标注、避免伪像(artifact)和使演习稳定:

i. 一个「自正则化(self-regularization)」项;

ii. 一个局部对抗丢失(local adversarial loss);

iii. 利用风雅调节过的图像的历史来更新判别器。

我们的研究表明这能实现高真实度的图像天生——这在定性评估和用户研究上都得到了证明。
我们通过演习用于注目估计和手姿态估计(gaze estimation and hand pose estimation)的模型而对天生的图像进行了量化评估。
研究表明我们在利用合成图像上实现了显著的提升,并且在没有任何有标签的真实数据的情形下实现了在 MPIIGaze 数据集上确当前最佳结果。

算法

图 1:仿照+无监督(S+U)学习。
其任务是利用无标签的真实数据从仿照器中学习能够提升合成图像的真实度的模型,同时还能保留其标注信息。

图 2:SimGAN 概览。
我们利用一个 refiner 神经网络 R 来改进仿照器的输出;该神经网络可以最小化局部对抗丢失和一个「自正则化(selfregularization)」项的组合。
这个对抗丢失会试图欺骗一个判别器网络 D,而 D 则须要试图区分一张图像是否是真实的。
上述的「自正则化」项可以最小化合成图像和改进过的图像的之间的图像差异。
这保留了标注信息(即注目方向),使得改进过的图像可以用于演习机器学习模型。
该 refiner 网络 R 和判别器网络 D 是交替更新的。

图 3:局部对抗丢失(local adversarial loss)的图示。
该判别器网络输出一个 wh 的概率图。
其对抗丢失函数是在局部 patch 上的交叉熵丢失(cross-entropy losses)的总和。

图 4:利用改进过的图像的历史(history of refined images)的图示

图 9:利用一个改进过的图像的历史来更新判别器。
(左图)合成图像;(中图)利用改进过的图像的历史所得到的结果;(右图)没有利用改进过的图像的历史所得到的结果(而仅仅利用了韶光最近的改进过的图像)。
我们可以不雅观察到明显的没有真实感的伪像,尤其是在眼角附近。

图 11:来自 NYU 手势数据集 [35] 的改进过的测试图像样本。
(左图)真实图像;(右图)合成图像(上)和对应的 refiner 网络输出的改进过的图像。
在真实图像中最大的噪声源是不平滑的深度边界(non-smooth depth boundaries)。
该 refiner 网络学习了建模真实图像中的噪声存在,主要的是其不须要任何真实图像的标签。

本站所发布的文字与图片素材为非商业目的改编或整理,版权归原作者所有,如侵权或涉及违法,请联系我们删除,如需转载请保留原文地址:http://www.baanla.com/rsq/134406.html

XML地图 | 自定链接

Copyright 2005-20203 www.baidu.com 版权所有 | 琼ICP备2023011765号-4 | 统计代码

声明:本站所有内容均只可用于学习参考,信息与图片素材来源于互联网,如内容侵权与违规,请与本站联系,将在三个工作日内处理,联系邮箱:123456789@qq.com