特稿 >

行业洞察 >

北大AI公开课第八讲 李航:自然语言处理的现象与挑战

北大AI公开课第八讲 李航:自然语言处理的现象与挑战

Xtecher原创 丨 行业洞察

35104
1675

2017-04-19

赵逸禅

Xtecher特稿作者

关注

“北大AI公开课”系统第8讲于本周二晚结束,现任华为技术有限公司诺亚方舟实验室主任,北京大学、南京大学兼职教授李航为我们分享了《自然语言处理的现象与挑战》。以下由Xtecher整理,为不能亲临现场的读者带来本次课程最完整实录。


编辑整理|Xtecher 赵心源

网址|www.xtecher.com

微信公众号ID|Xtecher


李航毕业于日本京都大学电气电子工程系,日本东京大学获得计算机科学博士学位。现任华为技术有限公司诺亚方舟实验室主任,北京大学、南京大学兼职教授。曾任日本NEC公司中央研究所研究员,微软亚洲研究院高级研究员与主任研究员。研究方向包括信息检索,自然语言处理,统计机器学习,及数据挖掘。他一直活跃在相关学术领域,曽出版过三部学术专著,并在顶级国际学术会议和国际学术期刊上发表过上百篇学术论文,拥有40项授权美国专利。


图片1.png


李航从以下几个方面介绍了对自然语言处理领域的看法,特别是技术发展趋势和未来发展前景。讲座分为三个部分:


自然语言处理领域研究问题和特点;


自然研究处理领域里先进的技术,特别是深度学习;


展望未来,自然语言处理发展的机会。


人工智能的理想是未来计算机和人一样做自然交互,或者是理解人写的文章的内容。自然语言处理领域的终极目标是自然语言理解。人使用语言的能力是人独有的,是人最高智能的体现,所以终极目标是具有挑战性的。


图片2.png


我们所说的自然语言理解,学术界有两个定义,一个是基于表示的,你说的话能被计算机映射到其内部的表示,我们认为计算机理解了;另外一个是基于行为的,计算机做出了你指示的行为,后者的定义往往是大家更喜欢采用的。


图片3.png


他从人的语言的五个特征来解释了为什么自然语言理解是非常困难的一件事。


1.语言是不完全有规律的,规律和意外并存,会出现功能冗余,逻辑不一致等情况,如果不遵循规范,交流非常困难,而规范是非常错综复杂的。

2.语言是可以组合的,语言是能把词形成句子,甚至是递归去组织句子,构建出非常复杂的表达。

3.语言的发明创造本身和比喻密切相关,语言的本质是开放的集合,人们可以去发明创造新的表达,一旦形成了以后大家会经常使用,产生新的语义,这是完全开放无穷无尽的。如网络中将“潜水”和沉默不语进行联系,使“潜水”一词出现了新的语义。

4.语言要和世界知识相联系,了解相关的概念和事实。

5.语言的使用是在一个环境里,语言是一种互动,是一个交流的工具。语言终极的理解要结合上下文,结合语境。


以上几点说明了这样一个问题,通过计算机去实现自然语言理解,非常具有挑战。从原理上来说,要做和人脑更近的体系架构才能使用语言,而计算机本质上能实现的东西都是数学模型,我们现在不清楚,这个模型能否通过数学去刻画。如果采用了和人脑更相似的计算机体系架构,或许能解决问题。因此,人工智能的终极挑战是自然语言理解。


图片4.png


现实中,我们不能因为自然语言理解非常困难就放弃,可以将问题简化,进行自然语言处理。比如知识问答,人会经历分析、理解、推理、信息检索、判断并产生回答答句。机器简化步骤为分析问句、检索相关知识、产生答案。


在60多年总结的经验中,机器学习(包括深度学习)是目前最好的办法。它能够在一定程度上把人的知识加进来。深度学习本质上是统计知识学习,大数据让我们能更好的进行处理。短期内很难突破这样一个框架,其他的路径目前比较困难,这是现在能达到的最高的水平。


图片5.png


在这里面,有人工智能闭环这样一个机制,不仅仅是自然语言处理,其他领域也有同样的现象。系统、用户、数据和算法不断循环提升,提高整个系统的性能。这个闭环是人工智能范式本质的现象,机器学习也不例外。


图片7.png


自然语言处理最核心的想法是基于数据驱动,用机器学习实现,问题可以分为五大数学模型:


分类:将标签分配给字符串

匹配:匹配两个字符串

翻译:将一个字符串转换为另外一个

结构化预测:将字符串映射到结构

马尔可夫决策过程:决定下一个状态给予以前的状态和行动


图片8.png


自然语言处理有很多任务,现实当中已经在使用,从数学模型来看,离不开这五种基本模型。


1.分类:


文本分类

情绪识别


2.匹配:


搜索

问答

(产生式的)单轮对话


3.翻译:


机器翻译

语音识别

手写识别


4.结构预测:


专名识别

词性标注

文本句法分析

文本语义分析


5.马尔可夫决策过程:


多轮对话


图片9.png


自然语言处理,考虑是不是实用,一定程度上是看技术的上界和性能下界的关系。不同的用户和场景对性能的要求不同,比如互联网搜索准确度不是极高,但用户都认为很好。


图片10.png


接下来我们看自然语言处理领域,有哪些代表技术和达到的水平。站在抽象角度来看,有五大问题。前四个问题,用深度学习技术来解决远远超过了以前的水平。


图片11.png


我们从应用的角度来看自然语言处理,有些是华为方舟实验室开发的,已经获得了大家的好评。


图片12.png


首先是问答系统。


图片13.png


FAQ系统,会把问答进行索引,当获得了新的问题时,将问题和检索过的相关字符逐个做匹配,和候选进行比较,找到的答案是不是可以做问句的答案,匹配有多个时进行排序,将答案候补,把最有可能的答案排到前面,反馈给用户。


图片14.png


这里面牵扯到几个技术,在线做匹配排序,最先进的技术都是用机器学习来做,传统则只做了表面的匹配。深度学习技术把问句和可能候选用向量来表示,问句每个单词用向量来表示每个词的语义,问句是数值向量的序列,回答后补也是数值向量序列,通过使用大量真实的数据来训练好的二维卷积神经网络来判断这两句话语义上是否相关,哪些词组是对应的,答句候选是不是问句合适的答案。


图片15.png


这个想法还可以用在图片检索中,如“朋友在公园的照片”,这在深度学习技术出现之前是不可能实现的,因为图片和文本是不同的模态,而深度学习模型可以做跨模态的匹配。


图片16.png


图左边是图片表示称向量(模型通过对图片内容描述来训练),右边是文字的内容抽取向量。利用卷积神经网络判断语义上能否匹配,通过多层神经网络判断匹配度有多高,判断两个内容是否相关。

图片17.png


自然语言对话使用了生成式的模型技术。很多自然语言对话是基于检索式的,检索最相关的回答。我们要演示的是产生式的,输入一句话后,能产生无穷多的回复。


这个系统是我们在微博上(微博的发博文和互动形式可看做单轮自然对话)爬取了400万的数据训练而成的。系统产生一句话的比例是96%,真正形成单轮对话的比例是76%。


有意思的一点是,系统能回答你没见过的话,很多深度学习模型共同特点是他能记住训练数据,能记住训练样本,并拥有组织产生一句话的泛化能力。这是以前大家不知道的,这个东西是不是实用还不是很清楚,是不是实用要看技术的发展和演进。目前我们看到的,是话务中心的简单重复对话。


图片18.png


具体模型如图所示,单轮对话的产生可以看成机器翻译。自然语言处理有很多问题是翻译问题,机器翻译技术是对序列学习(sequence to sequence learning),我们把这个技术用在了单轮对话里。


这样的数据大量的到这个系统里,也是用数值向量表示。然后我们把它分解成回复的一句话,一般叫做解码。通过这种编码、解码两个过程,我们把原始的一句话,转换成中间表示,再把中间表示转换成应该回复的话,单轮产生式对话系统是这样产生的。


图片19.png


还有个重要的任务是机器翻译,它的历史和自然语言处理一样悠久,当序列对序列的学习被用到了机器翻译时,使得机器翻译的准确率大幅度提升。


图片20.png

图片21.png


谷歌的神经机器翻译系统是非常强大的,它需要很多的训练数据和计算资源才能实现。它有八层编码器和八层解码器,序列对序列的学习本身的想法就是先做编码,产生中间的表示,然后再做解码,产生输出的字符串,形成文字的序列。此外还运用了很多新的技术和很多细节。它的翻译准确率已经超过了使用统计方法的传统机器翻译系统。


图片22.png


最后李航分享了未来业界的发展趋势和商业上的可能性。


图片23.png


当技术上界遇到用户需求下界,就可以实用化,未来自然语言处理技术常见的应用有以下这些。


语音识别:已经比较实用

单轮对话:这个方法往往把它变成一个分类问题,或者结构预测的问题

多轮对话:还很不成熟,特定环境下才能做好

单轮问答:已经开始实用化(不知道的时候说不知道,反而很有用)

机器翻译:不断提高接近人,但不能完全替代人,本质上和人的做法不同


特定场景下,下界不是很高,技术能达到水平,技术也能实用化。


图片24.png


趋势一:语音识别、机器翻译已经起飞了,大家都在用,真正对话的翻译还有很长的路要走,说不定能做到很好。


自动语音识别被广泛应用于语言输入

书面语言翻译将在实践中得到更广泛的应用

口语翻译将逐步得到利用和改进

还有待解决的问题,例如长尾挑战(专有名词,语音识别遇到中英文夹杂)


原因:深度学习往往基于统计,解决的是多次重复的东西。长尾现象是一个问题,完全彻底的解决还是比较困难,这是机器学习本质上的局限。


图片25.png


趋势二:单轮问答会越来越实用化,特别是场景驱动的。


图片26.png


趋势三:多轮对话需要更多的研究。


多轮对话本质上是大量学习,人做多轮对话不需要重复很多,是天生能力、这种能否用现有技术模拟和近似,还不是很清楚。多轮对话因为数据不够,不容易解决,这也是未来要研究的方向。多轮对话即使是任务特定,也比较困难,聊天机器人更难了。马尔科夫决策过程都用不上。聊天机器人每一轮都是单轮对话,做不成很合理的多轮对话。多轮对话,如果有任务驱动和有更多数据,可能会越来越好。


图片27.png


总结:


1.自然语言理解很难。

2.自然语言处理现在用数据驱动的办法去做五个最基本的问题,可以分到分类、匹配、翻译、结构预测和马尔克夫决策过程这样一些具体问题上。

3.有了数据我们可以跑这种AI的闭环,不断提高我们系统的性能和算法的能力。

4.深度学习在五个大的任务里面的前四个,都能做的很好,特别是机器翻译,基于任务驱动的单轮对话,应该也能做的越来越好。但是还有很多问题,比如多轮对话需要去研究和解决。


问答部分


1.Q:华为诺亚方舟做了很多关于计算语言的一些工作,大概讲一下我们在落地方面都做了哪些产品?大概现在是什么样的一个水平上?


A:语言这方面的话,主要做两个应用了:一个是机器翻译;一个是自然语言对话。机器翻译其实在公司内已经在广泛使用,我们没有推到外面做产品。因为华为是非常国际化的,我们有三四万都不止,就是说非中国籍的员工,就是中英、英中翻译,此外华为也在做跟手机相关的一些东西,欢迎到我们实验室访问。


2.Q:亚马逊Echo迅速发展对技术落地有哪些影响?


A:亚马逊的迅速发展来自于收购公司,被收购的公司很多细节处理的很好,Echo选用了家庭场景降低了维度,提高了体验。Siri开放比较大,但技术并不是一步到位的,一步到位有挑战。


3.Q:语义理解和回答这两块,现在从研究上来看,一体化是比较严重的,就是从长远来看,它应该是分开的,还是合并起来的?以及每一块有什么挑战?


A:人工智能自然语言处理还有很长的路要走的意思就在这,就是说要任务驱动才能去做,就是说你撇开任务,单纯讲语义的话是很难的,包括回答什么之类的。深度学习的好处是让我们现在能够做端到端的学习,不好的地方就是我们不知道中间会发生什么,这是深度学习的局限。


4.Q:关于对人类语言的钻研,复杂度蛮高的,面对这个问题,从学术上来看,有没有方向能往下走。


A:大家对人工智能过于乐观,还有很多努力,有漫长的路要走。华为诺亚方舟实验室在研究怎样把符号处理和神经处理结合,做很多的事情,解决多轮对话的问题,帮助人类做很多事情。


虽然计算机的计算能力和存储能力比人类厉害,但没有让我们感觉更方便,一个想法是通稿神经符号处理,结合深度学习技术,让人们学到更好的知识,让每个人有个智能助手,延伸人的能力。不只是知识可以进行深度学习,信息也是,这是一个发展方向,权威人士对这个意义比较认可,但还有很多未知问题值得探索。


特定技术只能解决特定问题,不同学者可能有不同想法和东西,大家要用自己的智慧理解。


5.Q:从语音到文字,这是一层阶段,从文字到语义是第二层阶段,第三层阶段是有效反馈。从这三层来讲,第一还不错,有效反馈和问题理解,到底纠缠了多深。我们一般对牛弹琴,一种是牛听不懂,一种是不知道是什么意思。不知道该怎么回答。语音理解和回答一体化比较严重,长远来讲是分开还是合并,有什么挑战。


A:牵扯到自然语言处理的本质,我所表示的人工智能自然语言处理还有很长的路要走的意思就在这,也就是说要任务驱动才能去做,单纯讲语义很难,深度学习好处是能做端到端的学习,不好是,他是一个黑箱,你不知道中间发生了什么,这是深度学习局限。一个理想的话能够把人的知识在中间加进来,去帮助语义理解。


6.Q:自然语言研究里面还有个知识库,它在自然语言处理里面占多大位置,是怎样的情况?


A:我更关心,结合观点的,不是应用驱动的,纯粹定义知识的,比较难,知识图谱这个概念很火,大家都在做,很多人想做,但都停顿了,做通用知识库都是很难的,可以做领域知识库,比如医疗、通信,解决实际问题可能更现实。这是趋势和动向,第二结合在实际,我们没有专注知识库本身。


有些认为很高大上技术,做通用解决方案,还是比较困难的。我们的想法是在小领域降低纬度,限制场景。Siri很难,google自动驾驶直接做L5很那,要像小孩一样,先会走,再会跑。


7.Q:小冰小娜的对话,他们主要用什么技术?


A:一般是基于检索。对话生成式有很多风险。有可能会出现说的话是对的,事实是错的(姚明身高一米二)。深度学习不知道怎么去控制系统,说出准确答案,这有一定风险。


8.Q:自然语言处理和创业相结合,有哪些值得做。


A:创业者对未来的判断是非常重要的,要结合实际应用。大公司拥有人力、财力、数据和应用场景,和他们抢市场,难度非常大。如果找到一些没有数据、通道的切入点,可能还有机会。


9.Q:有新闻称,在调查的100顶尖科学家,有半数认为2050年通用人工智能有很大发展。这是不是意味自然语言处理有较大发展。最后等价为通用人工智能问题。


A:5年10年未来可以预测,2050年谁都可能很难预测。预测未来是个很难事情,尤其是技术突飞猛进。往回退一年,谁也不知道阿尔法狗能赢人。此外,大家没有对通用人工智能有准确定义。


系列课程介绍


“人工智能前沿与产业趋势”课程由北京大学开设,并面向公众开放。课程由人工智能创新中心主任雷鸣老师主持,共14节,每节课邀请一位人工智能领域顶级专家和行业大咖作为主讲嘉宾,就人工智能和一个具体行业的结合深度探讨,分析相应技术的发展,如何影响产业,现状及未来趋势、对应挑战和与机遇。


640.jpg


视频回放链接:http://www.iqiyi.com/l_19rrcceoer.html

打开微信“扫一扫”,打开网页后点击屏幕右上角分享按钮

账号登录

重置密码

还没有账号?立即注册>

账号注册

已有账号?立即登录>注册企业会员

重置密码

返回

绑定手机