特稿 >

行业洞察 >

【专访】德国大神Hans Uszkoreit:语言才是AI的关键,深度学习无法解决NLP的核心问题

【专访】德国大神Hans Uszkoreit:语言才是AI的关键,深度学习无法解决NLP的核心问题

AI科技大本营 丨 行业洞察

21135
3055

2017-07-18


德国人工智能研究中心科技总监Hans Uszkoreit博士认为:语言技术是人工智能的核心部分,但当前的深度学习方法还不足以解决NLP领域的核心问题。


在AI科技大本营微信公众号(rgznai100)会话回复“语言”,打包下载Hans Uszkoreit大神被引用的TOP10论文。


 记者 | 胡永波


7 月22 - 23 日,由中国人工智能学会、阿里巴巴集团 & 蚂蚁金服主办,CSDN、中国科学院自动化研究所承办的第三届中国人工智能大会(CCAI 2017)将在杭州国际会议中心盛大开幕。

 

会前,我们采访到了大会Keynote嘉宾、德国人工智能研究中心科技总监Hans Uszkoreit博士

 

Uszkoreit博士是中德两国人工智能合作的核心人物,负责德国人工智能研究中心在中国的所有合作项目,今年3月,他刚被任命为在北京新成立的人工智能技术中心(AITC)总监兼首席科学家。在访谈中,Uszkoreit博士谈到了人工智能在工业4.0和商业智能上的应用,以及中、美、欧在人工智能领域的差异。

 

对于他的老本行,Uszkoreit博士认为:


语言技术是人工智能的核心部分,但当前的深度学习方法还不足以解决NLP领域的核心问题


他提到汉语在语义理解上的潜力。


说起不久前NLP领域的大论战,Uszkoreit博士认为Yoav Goldberg敢于倡导正确科研行为的严格规则,是个英雄。


以下是访谈全文:

 

中国AI研究需要覆盖所有领域

 

CSDN:最近,媒体常常拿中美两国的AI行业和研究成果进行对比。对于中美、中欧在AI领域的差异,您有什么看法?以您的理解,哪一方能引领这一轮的人工智能革命?

 

HansUszkoreit:欧美的AI研究有着长期的广泛基础,但中国正以惊人的力量和热情追赶上来。在某些研究领域,中国的研发速度可能比美国还快。然而,中国的AI研究只是集中在少数几个热门领域,可热点和趋势总是来了又去。下一代AI架构,将会用到具备大量认知任务和能力的、广泛擅长于AI的系统。我希望中国的研究人员能有足够的动力迅速来覆盖所有的AI研究领域。

 

我个人所期待的人工智能突破,是多种感官信息输入的交叉领域,以及AI在常识性知识与直觉的获取。

 

欧洲在语义学技术、神经网络与机器翻译等领域的研发投入上往往准备充足,但研究成果在科学上的成熟与商业上的收获更多发生在美国。其中的例外,是制造业领域的AI,它是欧洲、特别是德国的强项。而今中国在AI领域的下游应用研究与上游资金投入上同美国的大力竞争,则相当耐人寻味。前者是今天AI应用的关键,后者则有可能逆转我们过去的AI创新流程。

 

CSDN:在深度学习近年来的进展上,有许多像李飞飞这样的华人AI科学家和AI研究者,他们在其中做出了突出的贡献。据我了解,您的许多研究伙伴也是华人,您能说说选择他们的理由吗?华人在AI研究领域有什么优势呢?

 

HansUszkoreit:长期以来,我都非常喜欢跟中国的博士生或博士后研究员们一起工作。他们头脑聪明、积极主动、精力充沛而又注重实效。一般说来,中国研究者的高中和大学基础都非常扎实。我个人的体会是,中国和西方研究者的混合团队,其合作效果出奇的好。我会在北京继续推动这种跨文化的合作。我相当期待接下来同过往的亲密同事和学生们的交流,他们现在大都在中科院、中国的大学和公司工作。

 

投资环境和早期市场是AI创业成功的保障

 

CSDN:前不久,您刚任职北京人工智能技术中心(AITC)总监兼首席科学家。您能跟我们介绍一下您这份新工作,以及这个新的研究机构吗?

 

HansUszkoreit:AITC在今年3月份成立于北京的亦庄经济技术开发区。它的使命,是把AI技术从研究成果转化为工业应用。在德国,我们还没有特别成功的商业化AI案例。有好多次,我参与创立的公司都是过早进入市场,好在历经多年的挣扎,这些公司都活下来了。但更多的情况是,由于缺乏资金,我们只能眼睁睁看着美国的竞争对手取得成功。他们不光有着更好的投资环境,同时还拥有一个更大的早期市场。

 

在中国,我也同时注意到了这两大因素的存在:一种友善的投资氛围,加上一个需求庞大而前卫的B2B市场。在我的老东家DFKI(德国人工智能研究中心),我们同20多家工业股东进行过合作研究,还创立过超过80家衍生企业,在AI技术转化方面的这些经验都来之不易。

 

基于这样的经历,AITC有能力实现这样的技术转化及其研究机制,以及成功的商业化AI的最佳实践,这让我们同时也有能力来帮助这一领域的其他人。

 

CSDN:工业4.0和商业智能将成为主流的AI应用场景,但这两大领域的不同之处在哪里?对于AI在此所取得的突出成绩,有没有什么具体的实例?

 

HansUszkoreit:第四次工业革命是由工业界所有的部门、设备、人员之间完全的数字化连接所触发的,工业4.0是一个针对于此的广泛说法。这种完全的数字化连接是由物联网来实现的,其中还包括机器、产品、车辆和建筑之间的连接。

 

商业智能适用于所有的公司,不只针对制造业。它的基础是组织内部有关从战略决策到日常运作的所有决策过程的数据。这些数据大多来自公司内部,但很多重要的信号来自于外部的消费者、投资者、政策制定者、供应商和承包商,以及员工们的生活领域。对所有这些数据的分析,有助于做出更好的决策,甚至优化并调整决策的过程。

 

对于制造业来说,商业智能是工业4.0的一部分。今天我们所能看到的,只是商业智能与工业4.0的第一步。这里的数据通常是需要去主动获取与整合的。对于数据解释,特别是针对非结构化的数据,AI将扮演一个重要角色,并从数据中不断学习。物流与供应链领域的控制、优化以及预测管理,就是这方面AI应用的具体实例。


语言技术是AI的核心

 

CSDN:您是语言技术顶级专家。就语言技术来说,它在AI中的角色是怎样的?前景如何?对于自然语言处理,它是否也存在一个突破性的时刻,正如深度学习之于图像识别、语音识别那样?

 

HansUszkoreit:语言是知识的钥匙,而知识正是AI的终极目标。人类社会的知识,正是通过语言来代代相传的。仅靠观察他人,人类是无法获取到广泛的可复用知识的。对于下一代智能系统所需的知识,人工智能必须能同时进行“阅读”和“聆听”才能获取到。而此等程度的机器学习,其关键技术正是NLP。NLP还是实现人与AI之间成功沟通的技术关键。所以说,语言技术是AI的核心部分,并将在很大程度上同知识技术相结合。


CSDN:您怎么看当前的消费级语言技术?特别是当下大热的智能语音助手,比如亚马逊的Echo、苹果的HomePod等?

 

HansUszkoreit:这些智能助理正在成为我们日常生活的一部分。我自己也每天都在使用。它们还远未完美,但能被快速改进,因为其前卫的用户每天都在提供大量的免费数据给它们。


汉语在语义理解上有一定潜力


CSDN:对于不同的语言,其语言处理技术有何差异?比如说,汉语和英语。

 

HansUszkoreit:不同的语言差异确实很大。尽管作为口语,汉语和英语都能在同样的时间内被小孩学会。但细节上,汉语没有词法,句法也相当简单。二者作为书面语,绝无可能在同样的时间内被人学会。事实上,汉语的复杂性绝无仅有。这对NLP来说更为棘手:汉语词汇甚至都没有起始标识。除了语言本身所固有的复杂性,汉语更难于用电脑处理的原因还有另外一个:NLP一直是被以英格兰为中心的研究所主导。

 

但如果NLP未来的研究方法和算法在处理汉语和其他东亚语言时的效果能超过英语,我也不会特别意外。这有一个先决条件,即找到语义理解上的改进办法,毕竟句法在汉语中的重要性要远小于西方语言。


CSDN:上个月,Yann LeCun对阵Yoav Goldberg的那场NLP大争论十分引人注目。您如何看待这场争论,特别是深度学习和NLP的关系?您支持哪一边的说法?为什么?

 

HansUszkoreit:我认为这场争论被误读了,它不是一场NLP领域的深度学习倡导者与怀疑论者之间争执,它不是那样开始的。Yoav Goldberg不是反对深度学习,他也不是反对深度学习在NLP领域的应用。相反,Yoav大力推动了深度学习在NLP领域的应用。

 

Yoav Goldberg只是对那篇自然语言生成(NLG)领域的标题党论文表示不满,它只是在吹嘘一些很小的成果。Yoav的说法并没有错:那篇标题党论文对于NLG领域的研究进展毫无意义,它未能解决NLG领域所公认的任何问题。

 

而Yann LeCun和Fernande Pereira认为他们应该站在论文作者一边的原因,是确实有很多的NLP研究者极端怀疑深度学习在语言分析和生成上的作用。LeCun和Pereira把这种怀疑主义视为过时的研究范式反抗深度学习大法的无力尝试。保守派对阵革新派,这是科学革命中的古老游戏。但这绝非是Goldberg此次争论的目的。

 

我个人的看法是:


当前的深度学习方法还不足以解决NLP领域的核心问题。但它们已经改善并实现了NLP技术的很多应用。深度学习此处的不足,并不在于当前所用的各种人工神经网络及其各自的学习算法,而在于我们还没有正确类型与足够数量的语言类标注数据。


人类语言和人脑共同进化的方式,是语言能被用来表达信息和知识的同时,还能让儿童用很短的时间就能学会。语言的这种可习得性与基本知识概念的可习得性紧密相连。没有语言就无法学到概念,不与概念想结合也无法学到语言。


如果我们可以找出一个能同时教会人工智能语言和概念的方法,问题就解决了。这里的第一步就是基于人工神经网络的可复用知识的机器学习。

 

在这样的技术变革形势下,Goldberg只是在倡导正确的科研行为的严格规则。但我们都清楚,面对这样的环境,惯常的行为标准并不总是适用。在社会变革中,有勇气在正确的时刻说话的人,往往都是我们历史上的英雄。

 

给年轻从业者的三条建议

 

CSDN:在您的人工智能生涯中,最宝贵的经验是什么?对于新一代的AI从业者,您有哪些建议?

 

HansUszkoreit:我有三条小建议。

 

  • 扩展视野:多去国外看看,或至少能在跨国企业工作一段时间。我在美国待了将近十年,并领导过多个国际项目。我一直都是一个国际博士生项目的共同负责人,我还主持过一个国际研究生项目。我在国际项目、暑期学校与会议中的经历,极大地丰富了我的专业能力和个人生活。

 

  • 爱上数据,尽量为你所爱的数据工作:它可能属于商业统计、图片、音频、视频或文本,所有这些数据都有它们各自独特、丰富且有意义的内在结构。尽量弄懂这里的结构,尽量靠自己来解释数据。一定要坚持做高质量的错误分析,甚至要自己去读这些错误数据。尽量把算法的特性和数据的特性联系起来去看。

 

  • 尽量去接触自身领域之外的研究:至少,要能不时地去考量你的子领域同相邻领域的关系、你的数据同其他类型数据的关系、你的方法同其他方法间的关系。不要因为你不理解就放过同其他领域专家进行交流的机会,敦促他们用最简单的方式来解释他们的问题和解决方案,同时尝试以同样的方式来解释你自己的研究工作。多了解人类的认知机制,即便机器智能的机制是一种完全不同的方式。

 

CCAI演讲亮点

 

CSDN:您在CCAI演讲主题是“结合机器学习和知识解释的商务智能应用”,但相对于上一代基于规则的人工智能,机器学习和深度学习近年来突飞猛进、硕果累累,那么,我们为什么还需要这种基于规则的知识工程?

 

HansUszkoreit:当前,深度学习主要用来获取某种形式的“智能”行为。对于给定的输入,系统能够习得人类的方法并做出反应。这些系统还没有外在的可复用知识,但能够获取到一些内在知识。只是这样的知识通常无法被复用于其他任务。我并不支持人工智能像30年前所尝试的那样来使用知识工程,但我坚信人工智能终将找出办法来使用人类已有的海量的外在知识(如维基百科或结构化的DBpedia等),并且它很快就能自动获取更多的外在知识。

 

与其讨论深度学习与深层知识间的竞争关系,我更愿意去思考这两大技术有效结合起来的前景:只要机器能够从人类身上学习,它就有可能学会数以百万计的人的知识。

 

CSDN:您对本届CCAI大会有何期待?您最想听的演讲时哪一场?

 

HansUszkoreit:中国有很多我还不知道的AI研究团队和研究中心,对于他们的研究成果与应用创新,我特别期待。对于中国公司所能贡献的AI成果,我相当好奇。


【本文来自投稿,文中观点不代表Xtecher立场。】

打开微信“扫一扫”,打开网页后点击屏幕右上角分享按钮

账号登录

重置密码

还没有账号?立即注册>

账号注册

已有账号?立即登录>注册企业会员

重置密码

返回

绑定手机