特稿 >

行业洞察 >

观点 | 计算机视觉到底是个什么鬼?

观点 | 计算机视觉到底是个什么鬼?

Xtecher原创 丨 行业洞察

11041
1586

2017-08-29

           微信图片_20170823095134.jpg

翻译 | AI科技大本营(rgznai100)

参与 | Joe



房间的那一边,一个人冲你扔了一个球,你接住了。看上去特别简单,对吧?

事实上,尝试去全面理解的话,这是我们所见过的最为复杂的过程之一,先不说如何再现它。发明一个能像我们一样去观察周围的机器是极其困难的,不只是因为计算机模仿起来很难,还是因为我们自己都没有完全弄懂人类是如何做到这事的。

刚刚那个过程大致是这样发生的:球的图像经过眼球,落在视网膜上:在这个过程当中做了一些基本的分析,并把分析传送到大脑(在大脑里面,视觉皮层会彻底地分析这个图像)。之后再把它发送到大脑皮层的其他部位,然后将它和已知的一切进行对比,再按照对象和维度进行分类,最后做出反应:举起手,抓住球(已经预测了它的路径)。整个过程不到一秒,几乎没有意识的参与,也从不会出错。因此,重建人类的视觉并不是单单一个难题,而是一组,其中的每一个都与另一个相关联。

当然,没有人说过这很容易。除了这位人工智能先驱:Marvin Minsky,他在1966年曾指导过一名研究生,将摄像机连接到电脑上,描述出它所看到的东西。可怜的娃:50年过去了,我们还在做这件事。

50年代开始,开始了以下三个方面的正式研究:模拟眼睛(困难);模拟视觉皮层(非常困难);模拟大脑的其他部分(可以说是有史以来最困难的问题)



看见


模拟眼睛是我们成就最大的领域。过去的几十年间,我们创造了传感器和图像处理器,它们甚至在某些方面超过了人眼能力。纳米范围内,配备更大光学镜片和半导体亚像素的现代相机,其精度和灵敏度都非常不可思议。相机还可以每秒记录数千张图像,并能精确地探测距离。


2.2.jpg

数码相机内的图像传感器


然而,尽管这些设备的输出做到了高度保真,但在许多方面比19世纪的针孔相机也没有先进多少。它们仅记录了特定方向的光子分布。即便是最好的相机传感器也无法识别出球,更别说抓到它了。

换句话说,没有软件,硬件的能力也是非常有限的,而这才是最大的问题。但现代摄影技术确实提供了一个可供选择的方向。



描述


这里并不是想讲解完整的视觉神经解剖学课程,而是想说我们的大脑的反应过程是先看见,然后嘴巴才能说出来。大脑更专注于视觉任务而非其他,其他细胞的工作也是如此。亿万细胞一同工作,从视网膜发出的杂乱无序的信号中提取信息。

当沿着某一特定角度或特定方向快速运动时,神经元就会相互激发。高级网络将这些聚合为元模式:一个圆圈,向上移动着。另一个网络则构成:圆圈是白色的,有红色的线。另一个:它在变大。一幅图像就这样从这些粗糙但互补的描述中组合出来。


2.3.jpg

大脑的视觉区域,会利用“定向梯度的直方图”模式,找到物体边缘和其他特征


考虑到这些网络的复杂性,计算机视觉的早期研究采取了一种不同的方法:“自上而下”的推理— 一本书是“这样的”,记住现在的样子,除非转到另一侧,它看起来更像是“这样”。一辆车看起来是“这样的”,移动起来时,是“这样的”。

我们很难想出一个定义来解释大脑是如何工作的,更不用说模拟它了。

对于给定情景下的物体,还能做到,但想象一下,要从不同的角度,描述周围的每一个物体,光照,运动变化,还有其他很多很多东西。显然,即便是要达到儿童的认知水平,就需要大量的数据。

用“自下而上”模拟大脑处理视觉信息的过程,看起来更有希望。计算机可以将呈现的多张图片做一系列的转换,处理成图像,并分辨出边缘、暗处、透视和运动等。这些过程涉及大量的数学和统计数据,这相当于计算机要尽力把看到的形状和之前被训练时识别过的形状进行匹配,就像我们大脑的处理过程一样。


2.4.jpg

上图所示的图像(来自普渡大学的电子实验室)表明:

通过计算,计算机显示出在某种程度上,目标物体的形状和表现和其他类似物体很相近


自下向上结构的支持者可能会说“我早就这么告诉过你”。最近几年,建立和运行人工神经网络是不切实际的,因为他们需要大量的计算。而并行计算的进步则突破了这些障碍,过去几年,在用系统模拟大脑方面的研究取得了爆炸式的进展,这些系统和我们大脑中的系统非常相似。模式识别的过程不断加快,我们每天都在取得更大的进步。



理解


当然,你可以建立一个系统,它能识别各种各样的苹果,任何角度,任何情景,静止的或是运动,被咬了一口,或任何情况下的苹果。但它不能识别橘子。它甚至不能告诉你苹果是什么,它是否可以食用,它有多大,或者它的用途是什么。

问题就在于,再好的软件和硬件,没有操作系统的参与,也毫无用处。



人工智能与控制


2.5.jpg


于我们而言,说的就是我们的大脑:短期和长期记忆,其他感官的输入,注意力和认知,亿万年进化过程中内化而来的经验教训,以一种我们几乎无法理解的方式写入了大脑神经网络,这比以往遇到的任何事情都要复杂难懂。

计算机视觉的未来在于将已创造出的具体且强大的系统与更广泛的系统集成后的更大发挥。

这是计算机科学前沿技术与更普遍的人工智能交汇的地方,也是我们正在发力攻克的领域。计算机科学家、工程师、心理学家、神经学家和哲学家的工作中,都无法找到任何关于大脑如何工作的定义,模拟也就不在探讨之列了。

但这并不意味着我们穷途末路。计算机视觉的未来在于将我们所创建的强大但具体的系统与更广泛的系统集成在一起,这些系统将更专注于概念理解:背景、注意力、意图等。

也就是说,尽管计算机视觉在萌芽时期,但是它也是非常有用。它出现在相机里,能识别人脸微笑。它出现在自动驾驶汽车里,能识别交通标志,观察行人。它出现在工厂机器人里,能监控问题,并协助人类工作。让计算机拥有人类的视觉,实现这个目标任重道远。不过考虑到目前已有进展给世界带来的变化,如果真到了那一天,简直就太奇妙了。


作者 | Devin Coldewey

原文地址

https://techcrunch.com/2016/11/13/wtf-is-computer-vision/



打开微信“扫一扫”,打开网页后点击屏幕右上角分享按钮

账号登录

重置密码

还没有账号?立即注册>

账号注册

已有账号?立即登录>注册企业会员

重置密码

返回

绑定手机