特稿 >

行业洞察 >

为什么深度学习取决于数据,而“无监督学习”是深度学习的未来?

为什么深度学习取决于数据,而“无监督学习”是深度学习的未来?

Xtecher编译 丨 行业洞察

20507
2957

2017-07-24

  大琴

Xtecher特稿作者

关注

在之前发表的一篇文章当中,我们探讨了神经网络和深度学习技术之间的相关关系,笔者认为现在是时候来讨论下深度学习的另一组成部分——数据。这个数据包括图像、视频、电子邮件、驾驶模式、短语、其他的一些物体等等。众所周知,这些东西都可以用来训练神经网络。

 

令笔者惊讶的是,尽管我们的世界几乎被数据所淹没,但目前仍然有很大一部分(每天2.5亿万字节)的数据是未经标注过的、未经整理过的,这就意味着,对于目前的大多数监督学习来说,这些数据是不可用的。而据笔者了解,特定化的深度学习尤其需要高质量的、结构化的、标签化的数据。

 

在我们“神经网络非数理化指南(A Mathless Guide to Neural Networks)”的第二部分当中,我们将会研究高质量的、标记过的数据为什么如此重要,以及这些数据来自哪里、如何使用、近期会有什么样的解决方案可以提供给那些我们人类制造的、渴望学习的机器。

 

监督学习:让我抓住你的手

 

在此前发表的关于神经网络的文章中,我们曾解释了如何通过一个精心制作的“香肠印刷机sausage press”(这些印刷机能够进行快速剖析、分析甚至自我精炼),将这些数据传输给机器。

 

人们将这一过程叫做“监督式学习”,因为在这过程当中,大量的数据被输入到机器当中,而在输入之前,这些数据被煞费苦心地贴上了标签。比如,如果你想要训练一个神经网络来识别苹果或者橙子的照片,那么你就需要给将这些图片标签化。通过识别所有标签化的苹果或者橙子的图片,机器可以理解相应的数据。这些被标签化的图片都有一些共同之处,因此,利用这些已经被识别的图片,机器可以更准确地预测新图像中将要出现的内容。它们看到的标签化的数据越多,这个数据集会越来越大,最终机器预测的准确性也会越来越高,达到一个近乎完美的程度。

 

监督式学习在教机器学习视觉数据的时候非常有用,除了能教机器学习视觉数据之外,监督式学习还能教机器学习识别图片、视频、图形、书法等等。最明显的一个优势就是,在许多应用程序当中,在图像识别上,机器学习甚至能比人类还能做得更好。

 

例如,Facebook的深度学习软件能将一个陌生人的两张照片进行匹配,其准确性与人类相当,更重要的是97%的情况下,其准确性要高于人类。在今年早些时候,谷歌也推出了一种可以从医学影像中探测肿瘤的神经网络,据悉,该神经网络的准确识别度高于传统的医师。


无监督式学习:无需监督指导就能得出结论

 

正如你所想象的那样,与监督式学习相反的是无监督学习。从字面意思来说,无监督学习就是你松开系在机器上的皮带,让机器自己潜入数据当中,不需要任何人的监督指导,自己发现数据、体验数据,并从中寻找模式和相关联系,最终得出结论。

 

长期以来,这项技术一直被一部分人工智能科学家们所批评。但是在2012年的时候,谷歌对外展示了一个深度学习的网络,能够从一大堆没有标记过的图片中识别猫、人脸和其他的物体。这项技术成果令人影响深刻,并带来了一些极其有趣和有用的结果。只是,截至目前位置,无监督式学习都难以达到监督学习的准确性和有效性。


 222.gif


大数据:无处不在

 

监督式学习和无监督式学习之前存在着巨大的差异,这种差异使我们进入一个更大的、更令人困惑的话题的探讨。在这里,我想把这些机器比作人类的婴儿,更直观、形象地给大家解释下。我们都知道,如果将婴儿放在一旁,不去指导他也会自己学习,只是,他们学习到的东西不一定是我们想要他学的东西,在此过程当中,学习的方法和方式也无法预测。

 

但是,既然我们通过教育来指导孩子,那么我们就需要去挖掘无穷多的话题,使孩子了解大量的物体和概念。我们需要教给孩子方向,让他们明白什么是动物、植物、重力、阅读和语言,同时了解食物的类型和元素等等。而且,我们知道,随着时间的推移,孩子们就会像十万个为什么一样,他们会问你各种问题,所以前面的几乎所有的物体类型和概念,你都可以通过回答他们的问题来指导孩子。

 

这是一项非常浩大的工程,但是几乎所有的父母,孩子身边的其他人们每天都在做着这样的事情。我们的神经网络有同样的需求,只是它的关注点通常更为狭窄,平时我们也不太会和神经网络进行交流,所以,对于指导神经网络来说,我们的图片标签需要更加精准化。

 

目前,人工智能研究员和科学家们可以采取很多方式来获取数据,然后训练他们的机器人。首先是走出去,自己收集大量的标签数据。在这一方面,谷歌、亚马逊、百度、苹果、微软和Facebook等公司都是这样来做。有意思的是,这些数据都拥有令人惊叹的海量数据——其中,大多数都是由客户免费提供的。

 

如果你想要把这些所有的数据都列出来,那你就太愚蠢了。不过,我们可以考虑一下上传到这些公司数据库、云存储上的数十亿条标记过的图片。然后想想所有的文档,通过语音、文本、照片、光学字符识别来进行的搜索查询,数据位置和地图、评级、赞、分享、购物信息、快递地址、电话号码和联系方式,地址簿和社交网络。

 

只要拥有这些资源,任何一个规模庞大的公司都会在今后的机器学习中占有独特的优势,因为他们拥有丰富的特定类型的数据。


 333.gif


数据带来的困难

 

如果你恰巧没有拥有一家拥有海量数据的世界100强的公司,那么你就应该知道如何与他人来进行分享。大量获取数据是人工智能研究的一个关键部分,幸运的是,目前已经有了大量的免费和公开的标签数据集,此数据集也涵盖了各种各样不同的类型。

 

正如您所想的那样,数据集中包括显示人类面部表情和手语、显示公众人物脸型和肤色的各种数据等等。你还可以从中找到数以百万计的关于人群、森林和宠物的图片,这些照片包括所有宠物的照片。从中,你还可以通过筛选大量的用户和顾客评论来获取相关的信息。此外,还有一些包括垃圾邮件、多语言的推文、博客、帖子、法律案列报告等等的数据集。

 

目前,世界上的传感器的类型越来越多,也越来越无处不在,比如,医疗传感器、运动传感器、智能设备的陀螺仪、热传感器等等,新的数据类型几乎都来自与这些传感器。还有,人们给自己吃的食物、葡萄酒的标签、给讽刺性的标语拍的照片也都会产生相应的数据。

 

所以,问题在哪里呢?

 

尽管目前数据是如此之多,但事实证明许多数据都不是那么有用。要么是它们太小了,要么是它们不太好,要么是只有部分数据被贴上了标签,抑或者是标签贴的不合适,总之它们就是无法满足你的需求。

 

比如,如果你想要去教会一台机器识别图像中的星巴克标志,你可能只能找到一个用来训练的图片数据库,该数据库可能被打上了“饮料”、“饮品”、“咖啡”、“容器”或人名“乔”的标签,标签不正确,它们也就没有用处。

 

一般的律师事务所或者老牌的公司在其数据库中可能会有数百万份合同或其他文书,但是,这些数据却无法被使用,因为它们可能是被简单地、以未打过标签的PDF格式保存的。

 

在获取最优数据方面的另一个挑战是——确保所使用的训练数据集数量够大,并且是多样化的。为什么呢?让我们来用一个简单的实验来探索下训练数据的概念。想象一下,我们身边有一个叫Ned的小男孩,他正在玩抽认卡的游戏,需要从抽认卡中识别“西班牙语”这个卡片。那么,当抽出一张抽认卡的时候,Ned需要做的就是确定这是不是“西班牙语”的卡片。

 

这个孩子手上有10张随机抽认卡,但是他以前从没有见过或者说过西班牙语,因此在学习西班牙语的过程当中十分不想。5张抽认卡中有西班牙语的单词:niño, rojo, comer, uno 和enfermos, 其他5张抽认卡中有这些单词:cat, 猫, céu, yötaivas and नभ。在测试之前,Ned被告知,如果能从抽认卡中挑出每一个西班牙语的话,那么他就会有一大碗冰激凌。经过一小时的学习,他开始考试了。

 

一开始测试的时候,Ned发现了非西班牙语——azul。因为字母A只出现在非西班牙语堆中,所以azul并不是Ned所要的西班牙语。第2张卡片上是葡萄牙语 mãe,Ned立即大喊,但是还是错了。第3张牌上有火山,男孩注意到单词以字幕O结尾,他自信地说是西班牙语。第4张和之前训练的不一样,我们可以看见男孩泪水都流出来了。所以,我们想一下,这是在训练他的推理能力还是训练其数据集呢?


 444 GIF.gif


在这里,一个最明显的问题就是:10张抽认卡,该数据集太小。这个男孩已经花光了所有的精力去记住10张卡片。但是在训练一个如此复杂、深度学习神经网络模型当中,使用小数据集可能会导致过度拟合(overfitting),这是机器学习中的常见缺陷。

 

基本上,过度拟合是训练参数具有大量可学习参数的结果,这个参数是我们之前文章中提到的通过反向传播彻底调整的那些神经元。这个过度拟合的结果是一个记忆的可训练数据的模型,和数据学习的一般概念相反。

 

回想一下我们的苹果-桔子网络。因为作为训练数据的苹果图像很少,而神经网络却很庞大,我们很可能会让网络在特定细节上进行仔细的研究——红色、棕茎,圆形,这些细节需要在训练数据之间被准确地区别化。这些微小的细节可能会很好地描述训练苹果的图片,但当测试中机器被要求识别一个新的苹果时,这些细节可能就被证明是无关紧要,甚至是不正确的,因为在测试的时候,可能会有一个新的、机器之前未见过的苹果。

 

另一个重要的原则就是数据的多样性,从统计学上来说,你所积累的数据越独特,你的数据就越有可能更加多样化。

 

在“苹果-桔子”的例子中,我们希望机器能有合理的概括能力,这样它就能识别所有苹果和桔子的图像,不管这些苹果桔子是否出现在训练集中。

 

毕竟,并不是所有的苹果都是红色的,如果我们只在红色苹果的图片上训练我们的网络,很有可能在测试时它是无法识别出绿色苹果的。因此,如果在培训中使用的数据类型是不全面的,无法囊括测试中所有的可能性,那么就会出现这样的问题。在很多人工智能领域,以偏概全的问题已经开始出现。神经网络和用来训练它们的数据集反映了其制造者人群中的偏见。另外,如果只用红苹果来训练我们的“苹果-桔子”网络,我们可能会让机器具有偏见,认为苹果只能是红色的。

 

如果类推到其他应用之中,比如面部识别,那么不全面数据带来的影响就会变得非常明显,就像老话说的那样:“进来的是垃圾,出去的还是垃圾。”

 

无监督学习:可以独立思考的“捕鼠器”

 

555 GIF.gif


缺少人力去标记数据这是目前存在的一个问题,另一方面,目前用人力去标记数据也相对比较昂贵。如果未来的某一天,世界上的所有公司忽然都统一开放他们的数据资源,并心甘情愿地将其提供给全球的科学家,那么,未来缺乏好的训练数据就不复存在了。

 

人们与其朝着获得尽可能多的数据努力,还不如让深度学习朝着无监督学习技术这一方向发展。


如果我们想一想,当初我们是如何给孩子们讲解关于世界的基本知识,那么您就知道我这样说的做法是有道理的。毕竟无监督学习的确教会了孩子们很多东西。人类最重要的学习工具是经验,是无监督学习!笔者认为,无监督式学习也是深度学习的未来。


原文链接:https://techcrunch.com/2017/07/21/why-the-future-of-deep-learning-depends-on-finding-good-data/

所有版权属于原作者,本文仅出于传播资讯目的翻译转载。

打开微信“扫一扫”,打开网页后点击屏幕右上角分享按钮

账号登录

重置密码

还没有账号?立即注册>

账号注册

已有账号?立即登录>注册企业会员

重置密码

返回

绑定手机