特稿 >

行业洞察 >

如何做出一个智能工业机器人?

如何做出一个智能工业机器人?

Xtecher原创 丨 行业洞察

71082
10272

2017-07-27

Xtecher

Xtecher特稿作者

关注

人类也许永远不需要机器人拥有创造力、想象力、以及感情但的确需要它们拥有智能。


作者|邵天兰

网址|www.xtecher.com

微信公众号ID|Xtecher


于1913年创立全世界第一条汽车流水装配线的亨利·福特曾说过:

 

“Why is it everytime I ask for a pair of hands, they come with a brain attached?”为何每次我想要一双手时,总是有一个大脑连着?)


如果亨利·福特能够看到如今各大汽车工厂中数以万计的工业机器人,也许会感到很欣慰。这些机器人挥舞着钢铁手臂,精确地完成各种重复性的工作。它们的智能程度大多很低,只是在固定的环境中一遍遍地重复固定的动作,正像是一双双没有大脑相连的手。

 

在刚刚过去短短五年间,中国劳动力成本翻了一番,众多制造业、物流业的企业都在迫切寻找使用机器人替代人力的方案。人们将目光投向了已经在很多简单任务中证明了自己价值的工业机器人。

 

这时人们蓦然发现,亨利·福特的问题似乎得到了一个再明白不过的解答:仅仅有手是远远不够的,要完成更复杂的任务,机器人必须要有一个“大脑”相连。

 

人类也许永远不需要机器人拥有创造力、想象力、以及感情,但的确需要它们拥有智能。


640-1.jpeg


机器人智能之痛


很多人对“机器人”这个词的认知主要来源于科幻作品,但事实上工业机器人的智能程度可能会让不明真相的群众大失所望。

 

以“将物体从一堆物体中一个个拣出”这样人类三岁孩子都可以完成的任务为例,这对机器人来说仍是没有解决的难题。

 

因此当面对堆积如山的快递包裹,或工厂、物流站中常见的纸箱堆、麻袋堆时,没有眼睛和大脑的机器人空有一身力气却不知如何下手。工厂中待加工的工件也通常是无序地放在一起,机器人也难以独自完成抓取、上料的工作。

 

广泛存在的实用场景和困难重重的技术使得混杂物体分拣问题(Random Bin-Picking)被称为机器人学的圣杯。

 

庞大而迫切的需求让机器人从业者前赴后继。工业机器人老牌强国德国和日本都有多家公司参与,连一贯以芯片、软件、互联网而为人称道的硅谷都有数家创业公司进入。一些物流企业也已经进行了使用机器臂抓取货品的演示。然而,智能机器人仍然有着令人叹息的痛:高昂的价格、不尽如人意的效果、复杂的使用方法都是阻止智能机器人迅速落地的拦路虎。因此,机器人在这些新场景中还是远远没有得到大规模的应用。

 

可是让机器人抓个东西怎么就这么难呢?


首先要有一双眼睛


必须要让机器人先看到东西才能谈得上抓取。而困难首先就来自于视觉传感器。

 

工业上传统的2D相机已经被广泛应用于质量检测、传送带跟踪抓取等应用。但是对于混杂分拣、拆垛等应用场景,仅凭单个2D相机是不可能完成任务的。下图展示了一个典型的例子。


640-2.jpeg

这是两张不同角度拍摄的同一组箱子的照片,从侧视图中可以看出中间小箱子明显高于其他物体,但是从顶视图中则完全无法看出。这说明仅凭单一角度的2D图像无法准确判断物体的位置。


而3D相机就能够获取相机到物体表面每一点的距离,从而感知物体的形状和距离。近年来3D成像技术的应用越来越多,比如很多人都熟悉的可用于体感游戏的Kinect。

 

Kinect等民用3D体感产品对于绝对定位精度并不十分看重:只要能看清人体的相对位置关系和姿态即可(例如:左前方,站立,双手举高),而精确的位置信息(例如:x=1235mm, y= 682mm)对于交互来说其实并不十分关键。但是对于机器人抓取来说,3D图像的绝对精度就显得非常重要了。

 

除了绝对定位精度够高,对于机器人混杂物体分拣的应用来说,还希望选用的3D传感器能足够快,从而保证机器人工作的效率;最好还能够适用于各种物体的表面材质、工作距离不要太近、产品稳定可靠、价格合理,等等。

 

虽然这些要求看起来并不过分。但是很遗憾,符合要求的传感器并不容易获得。


640-3.jpeg

部分典型3D相机对比

 

以德国老牌厂商IDS公司生产的Ensenso相机为例。2016年Amazon Picking Challenge的冠军队伍荷兰代尔夫特理工大学,机器人龙头企业ABB,日本机器人明星创业公司Mujin等院校、大公司、和创业公司,都使用了这一系列相机做演示。但是通过后面一组对比图,可以看出其成像效果并不尽如人意。而且其高昂的价格也使得它难以被用于实际应用:一个名牌轻型机器臂的价格也不过十一二万,大部分用户很难接受再花十几万元买一个相机。

 

出身微软的Kinect自2010年面世以来在学术界迅速流行,产生了很多重要的成果。说Kinect催生了上千篇高质量的论文应该也并不为过。随后Kinect V2、Intel RealSense等产品的出现更使得3D体感技术进一步大众化。尽管如此,它们的精度、适用范围、可靠性等指标也并不能直接满足工业应用的需求。

 

除了上面提到的相机外,基于激光线扫描获得3D图像的方案也已经出现了多年。ISRA、SICK、Cognex等公司都有较成熟的产品,国内外一些创业公司也做出了类似的设备。但是此类产品价格动辄十余万甚至数十万,而且需要数秒才能完成一次扫描,所以长久以来也一直无法得到广泛应用。

 

为了解决这一问题,梅卡曼德研发出了Mech-Eye智能相机方案。它不仅仅是一个相机:一块NVIDIA Jetson TX2嵌入式GPU为其注入了澎湃的运算力,让先进的人工智能算法可以在其中运行。在各种光学创新和人工智能算法的加持下,Mech-Eye智能相机可以又快又准地完成3D和2D感知,速度和精度满足机器人抓取的需要,并且可以适应相当程度的反光和暗色表面。


640-4.jpeg

圆形薄铝板的表面反光强烈,使其他3D相机的点云中均出现明显残缺。梅卡曼德3D成像方案获得的点云(最右图)仍然完整、清晰。


640-5.jpeg

针对黑色铝管,其他3D相机的点云中均出现明显残缺或形变。梅卡曼德3D成像方案获得的点云(最右图)仍然完整,准确。


640-6.jpeg

针对曲面,Kinect获得的点云可见明显形变,梅卡曼德3D成像方案获得的点云(最右图)形状准确。


640-7.jpeg

Mech-Eye可以适应相当程度的反光和暗色表面,如:铜、铁、铝、塑料、麻袋、纸箱胶带等。


当然3D视觉也不是万能的:比如当多个箱子紧紧贴合在一起时,仅凭3D信息就无法准确定位每一个箱子的位置了。因此,必须要有机结合3D和2D传感器以及相应的算法,才能让机器人完成任务。


让机器人理解所见


采集到3D和2D图像后,机器人还需要理解它看到的东西,也就是要通过视觉算法对物体进行分割、识别、定位。


640-8.jpeg


近年来深度学习在多个领域取得了重大突破,其中最引人注目的就是对图像的分析和理解,如人脸识别技术已经在一些场景中取得了超越人类的效果。

 

相比其他机器视觉的应用(如人脸识别),应用于工业机器人的视觉算法会被高频次反复地调用,而且结果会引导机器人完成动作(而不只是给出一个数据输出),因此对可靠性和运算速度的要求要苛刻的多。如果一个机器人每3秒完成一次操作,那么99%的正确率意味着这个机器人平均每五分钟就会犯一次错误。

 

视觉算法可以粗略地分为传统算法和机器学习,其中机器学习又可以分为“传统”机器学习和深度学习。在工业机器人的应用场景里,这些算法各有所长,并不能简单说孰高孰低:传统算法应对简单情况时稳定可靠、速度快,但是对于复杂的问题则往往难以下手;传统机器学习算法相比深度学习,需要数据量较小、可解释性好、可以通过人工调整迅速适应新场景,但是应对极为复杂的情况则会遇到性能瓶颈;深度学习可以应对非常复杂的情况,但是准备数据和调试都非常费时费力,也几乎没有可解释性。

 

梅卡曼德视觉方案Mech-Vision中的算法有机结合了这三者,让他们各自发挥长处。此外梅卡曼德还研发出了可视化的机器视觉开发框架,让开发者、集成商、客户都能够无需写任何代码就完成视觉算法的调试和部署。


将手移动过去不就行了?


0.gif

 

到这里机器人已经能够看到并定位物体了,很多人可能会想,“然后直接让手移动过去抓不就行了?”但任务到此其实只完成了一半:要让机器人“正确地”运动过去,其难度恐怕远远超过一般人的想象。

 

指导一个人类工人工作时,如果你告诉他“请不要把手撞到箱子壁”或者“请不要把自己手臂别住”他恐怕会认为你在侮辱他的智商。然而工业机器人本身几乎没有智能,只是按照简单的指令运动,指令不当就很容易出现碰撞或奇异点等问题。

 

传统的机器人运动的路径是固定或受限的,因此可以通过手工调整来避免这些问题。但是当机器人通过视觉应对复杂场景时,手工调整就无用武之地了,自主、智能的轨迹规划的重要性就凸显出来。

 

如果每一个运动都需要较长时间进行规划,整个机器人运动就会很不流畅,严重影响机器人的工作效率。“效率就是金钱”在机器人上可不只是一个比喻。梅卡曼德研发团队在运动规划上有深厚的积累,经过大量艰苦的努力,让机器人能够在0.003秒内就完成复杂的路径规划,有效避免环境碰撞、自碰撞、奇异点等问题。


人人都可以使用机器人


640-9.jpeg


传统机器人编程方法(如上图左):

基于代码,指令及编程;

智能程度低;

学习成本高。


Mech-Viz编程方法(如上图右):

完全可视化、图形化、任务级编程;

内置轨迹规划等多种智能功能;

简单直观,易学易用。


机器人“能够”完成任务仍然不能保证它可以被大部分人使用:没有亲手使用过工业机器人的人通常会大大低估使用机器人的复杂性。

 

上世纪80年代的电脑也可以完成打字、制表等任务,但是真正普及也要等到十年后更简单易用的系统出现。那时会使用电脑、会打字都是值得夸耀的专业技能,正如今天会使用工业机器人一样。

 

传统的工业机器人程序类似汇编语言,用户需要对机器人的底层运动指令。想象一个工人,如果你需要告诉他“把手向上抬高120毫米”,“工具坐标移动到(x,y,z)的位置”,是会多么低效。

 

为了解决这一问题梅卡曼德开发出了Mech-Viz图形化编程环境,让用户能够可视化、图形化地进行任务级编程。Mech-Viz远远不仅是让界面变得友好很多,其中更内置了运动规划、程序检查等诸多智能算法,并可以和视觉系统无缝集成。这使得使用机器人系统变得直观、简洁。

 

All Systems Go


将前面展示的所有技术整合起来(其实背后还有大量底层的工作),一个完整的混杂分拣解决方案就终于可以出现了。


640-10.jpeg


为了让技术真正平民化,梅卡曼德的工程师们进行了大量努力,将算法性能压榨到极限,在保证效果和可靠性的前提下最大限度地控制硬件成本。因此相比于国外厂商动辄十余万甚至数十万的价格,梅卡曼德产品现在预订价格仅为33999元起,其中包含了智能相机以及软件授权。


0-1.gif

视频链接:https://v.qq.com/x/page/g0530byme94.html


智能机器人是终极技术竞争


随着人口红利的消失,中国的制造业、物流业等许多行业都面临着巨大的人工成本压力,各种产业外流的新闻屡见报端。我们相信人工智能+机器人是破局的金钥匙。通过人工智能技术,机器人将会成为每一个企业都能使用的生产力工具,就像电力、计算机、互联网一样。需要人手时不再需要贴招工广告,而是从网上预定个机器人,这将不再是科幻小说的情节,没准还会出现“扫码使用共享机器人”的服务呢。


640-11.jpeg

 

上图是中国和印度人口结构的对比。可以清楚地看到,在人口总数非常接近的情况下,中国年轻人的数量显著的少。中国依靠廉价劳动力红利占领低端产业的日子已不可持续。

 

回顾之前的技术进步,都会使低端产业从发达国家向其他国家转移,日韩、中国港台、中国大陆、乃至现在的东南亚都曾经是低端产业转移的受益者。但是智能机器人是终极技术竞争,因为这一技术会使得产业对低端廉价劳动力的依赖大大降低,从而将低端产业变成高端产业留在高技术国。这一技术之争中国没有退路。

 

当然让机器人变得智能要走的路还有很远,甚至学术界过去十余年的成果绝大部分都还没有得到工业上的广泛应用。但随着最近人工智能产生突破性的进展,我们认为机器人智能化的脚步将被大大加快。



打开微信“扫一扫”,打开网页后点击屏幕右上角分享按钮

账号登录

重置密码

还没有账号?立即注册>

账号注册

已有账号?立即登录>注册企业会员

重置密码

返回

绑定手机