特稿 >

前沿热点 >

AI Challenger开赛,林德康谈数据集的重要性

AI Challenger开赛,林德康谈数据集的重要性

Xtecher原创 丨 前沿热点

13680
1974

2017-09-05

郭宝婷

Xtecher特稿作者

关注

AI Challenger全球AI挑战赛”,是由创新工场、搜狗和今日头条三家国内人工智能领域领军企业共同发起的竞赛活动,面向人工智能领域科研人才,致力于打造大型、全面的科研数据集与世界级竞赛平台。

 

9月4日,“AI challenger全球AI挑战赛”正式开赛。来自世界各地的AI高手,将展开为期三个多月的比拼,获胜团队将分享总额超过200万人民币的奖金,并获得顶级AI专家的指导。主办方此次投入了千万人民币的成本,来打造百万量级的计算机视觉数据集,和千万量级的机器翻译数据集,包括:超过1000万条中英文翻译数据、70万个人体骨骼关键点标注数据、30万张图片场景标注和语义描述数据。以上数据集都已在大赛官网(challenger.ai)上线,供参赛选手下载,进行算法设计、模型训练及评估。

 

这是国内迄今公开的规模最大的科研数据集。然而,许多人还对“数据集”的概念比较陌生。Xtecher受创新工场邀请,对大赛评审之一林德康教授进行了专访,了解数据集对技术和行业发展的重要意义。

 

林德康,曾任加拿大Alberta大学计算机系教授,后出任Google高级管理科学家,Google搜索问答系统的创始人。2016年,回到国内创办了语音智能公司奇点机智。他主攻NLP(自然语言处理)领域,曾发表逾90篇论文、被引用超过14000次,也是国际计算语言学会ACL Fellow里屈指可数的华人之一,是语义识别技术的专家。

 

以下是Xtecher对话林德康的采访实录。

 

Xtecher:什么是数据集,它和普通的数据区别在哪里?

 

林德康:最大的区别是规模,数据的规模不够的话,其实是没用的数据。还有一个区别是标注,数据集是有标注的。比如语言学的数据集,有例如词性等component-wise的标注,也有例如不同语言的字字对应,是任务层次的标注。数据有标注,加上规模很大,才长时间有价值。

 

Xtecher:您如何看待主办方每年投入过千万支持竞赛及数据集建设,学术界是否有对如此大规模数据集的需求?

 

林德康:AI的发展是靠算法、数据集,和计算能力。算法在学术界向来不缺,因为有学生专门做这方面研究,跟工业界比这是最不缺的。但是剩下两个,数据集、计算能力,基本无法和工业界比拼。计算能力是需要钱堆出来的,占多少资源就是多少资源。数据集花销也非常大,但一旦做出来,大家都可以用。比如我在一个小实验室里,计算能力有困难,可以通过有效的算法来弥补,但是没有数据集的困难是绕不过去的。数据集等于解决了数据跟硬件需求两方面的问题,把AI带向民主化。

 

Xtecher:您以前接触了解过哪些数据集,有何问题或优势可借鉴?

 

林德康:从八、九十年代开始,我们做语音识别、自然语言理解研究,用的都是公用的数据集。大家在上面做研究,共同切磋。还有比如Netflix十年前就开放过他们的数据集,设置一百万奖金,然后让大家帮着去想,最后出来很多新的技术。像Google这种大平台会有大量资金投入预算去做数据集。有时不是工业界和学术界的区别,而是必须这种大平台才能采集到大量数据,然后有人力和物力去处理它。

 

前几年有公司发生过,开放了数据,三天就想收回来,因为有人通过和电话本cross-referencing把数据里的个人隐私信息获取了。但是开放的数据就是泼出去的水,收不回来了,copy传播很快。这对工业界是一个特别大的教训。但如果是像AI Challenger这种专门准备好的标注好的数据,就没有隐私和安全性的隐患。

 

Xtecher:这样开放数据集有何益处?

 

林德康:数据集开放出去,能让大家都去想算法,当时Netflix所做的,就是体现了这个商业需求。放了一定奖金上去,得到的结果比他们自己做要好一大截。数据集开放或是开放平台的意义在于,并不靠我自己做出一个完美的产品或体验,但是创造一个机制,让外部的开发者来帮着做这件事,帮的过程中也对开发者自己有好处。这种技术进化机制是可以超过任何一家公司的。

 

Xtecher:这也是AI Challenger邀请您出任评审时,打动您的原因吗?

 

林德康:对,这是其中一个原因。还有一点,因为我原来在高校当教授所以有感触,这件事情对学术界的帮助尤其大,数据集开放了,很多学生愿意来,能够吸引到全国甚至世界上最好的人才来,给他们出名的机会。这对行业来讲是一件非常好的事情,把工业跟学界连接起来了。

 

Xtecher:此次AI Challenger将数据集开放给参赛者,您期待看到具备哪些特质的创业者脱颖而出?

 

林德康:最重要的是,有了数据集,要能figure out这个东西怎么用。比如有人看到语言数据想到要做情感分析,那么要是专门去标注,可能要不少时间,但是要是在整个网络的数据去找,看哪些相关、借用一下,像这样的过程,就是去利用数据的创新的过程,看每个人的创新和想法。

 

Xtecher:您回国创立的奇点机智公司,也是做语义理解技术这一块,当时是出于什么原因选择在中国市场做这项技术呢?

 

林德康:我们现在是做移动端上的东西,在移动这方面,中国要比美国和其他国家发展节奏快很多。举一个最简单的例子,手机操作系统的更新,比如每年安卓版本更新,到第二年已经有30%多中国用户是最新版的。厂商版本更新越来越快,大家也不断更新。而其他国家卖手机的机制不是这样,你拿到一个手机,买的时候是什么版本,几乎就只用这个版本了,因为他中间有运营商等等的,动力不是让你更新软件,而是让你这个觉得你现在的软件太差了,得买新的硬件才能拿到软件,更新节奏很慢。在中国就没有中间这一层,所以手机厂商总是在跟别的厂商竞争,所以在中国做移动端的事情好一些。另外我想做些中文语义理解的技术,在中国做,落地和孵化更快。

 

Xtecher:那么奇点机智现在技术和产品做得如何了?选择什么商业方向呢?

 

林德康:我们在做一个东西,叫应用助手。它有点像Apple的Siri,是个语音助手。但我们为什么叫“应用助手”,是想让每一个应用都能听懂你的话,比如大众点评或者滴滴都可以通过语音操作。Siri或谷歌的语音助手大多匹配原厂应用,比如闹钟、电话、设置,第三方应用覆盖率非常低,比如连微信都控制不了。我们做的是,比如你说一句“把我的位置发送给XXX”,你的位置就在微信里发出去了。

 

Xtecher:听您的描述,感觉您做的事像在打破界线,梳通所有端口。以后不同的应用、软件、硬件,都可用语音作为界面,所以其实您说的也是一个将来的趋势。那么这种全方位打通的语音交互格局,什么时候会实现呢?

 

林德康:可能不是我想实现就能实现的,要靠数据的积累。最后其实是数据问题,需要积累真实用户的使用数据。要达到这点,首先要有用户,要做成有用的东西才有人用。现在很多语义理解技术的产品已经在市面上出现,有更多的人在尝试做这个,需求也非常明显,但是好像还在等待一个突破,我希望我们能够成为最早找到突破点的。

 

Xtecher:那么就国内现在的语音识别、语义理解技术水平来说,这个突破点在哪里?

 

林德康:现在语音识别做得很好,这些年技术进步非常大,几乎可以当作一个已经解决了的问题,机器识别的准确度有时都超过我们自己,有时我们听不清,还能借助软件猜出来。但语义理解技术领域还很不成熟,还处于尝试阶段,技术上需要提高的空间很大。因为自然语言非常灵活,同一件事情有各种各样的说法,非常像甚至完全相同的说法,在不同场景中意思其实不一样,这就比语音识别难多了。我觉得最终的突破是靠数据。要有技术、好的产品的设计、场景,真正让用户觉得这个东西能用、喜欢用,这样就有更多的人参与进来,形成一个闭环,在里面积累用户数据。所以突破点不光是技术问题,要有产品和场景才能使用户参与来进来。

 


与林教授的看法不谋而合的是,AI Challenger的主办方也非常重视数据对行业发展的重要意义。创新工场、搜狗、今日头条三方在“AI Challenger 全球AI挑战赛”发布会上共同宣布社会责任宣言说:“数据、算法、计算能力是人工智能的三大基石,其中,数据更是人工智能科研最宝贵的资产。没有足够好的数据,就无法取得世界顶级的科研成果。在此方面,学术界和创业团队所能获得的数据资源通常远少于产业界中的顶级企业。因此,将高质量的数据集建设与科学研究、技术产品研发、人才培养有效结合,对人工智能发展具有重大意义,也是身为产业先驱应尽的一份社会责任。”

 

在人工智能领域,数据的质和量是科学研究与产品技术研发的核心。高质量训练数据对机器学习模型的建立和优化有关键性的作用。建立大规模、高水准的标注数据集,是推动AI科研和技术前进的驱动力。未来三年,AI Challenger主办方将投入数千万基金,解决数据集缺失的问题,相信将为人工智能的技术发展提供强力的支持。

打开微信“扫一扫”,打开网页后点击屏幕右上角分享按钮

账号登录

重置密码

还没有账号?立即注册>

账号注册

已有账号?立即登录>注册企业会员

重置密码

返回

绑定手机