特稿 >

行业洞察 >

思必驰CMO龙梦竹:AI技术公司应该提供个性化AI产品,智能音箱的核心是对话式交互

思必驰CMO龙梦竹:AI技术公司应该提供个性化AI产品,智能音箱的核心是对话式交互

Xtecher 丨 行业洞察

23197
3345

2017-08-24

Wayne

Xtecher特稿作者

关注

思必驰作为国内领先的语音技术厂商,在AI商业化的道路上已经探索很久。如最近大火的智能音箱,不管小米、联想或是天猫,背后都有思必驰的身影。近日,思必驰CMO龙梦竹作为品途商业x赋能沙龙的嘉宾,在活动现场发表关于AI技术商业场景落地的演讲。

 

思必驰是致力于自然语言人机交互的公司,拥有自主知识产权的人机对话、语音识别、语义理解、语音合成、声纹识别等综合语音技术。公司也升级了品牌,将搭建语音开放平台DUI,迎接AI时代的到来。然而,作为当前最火热的智能终端产品——智能音箱,思必驰又是如何看待的?

 

以Echo为例,其产品形态是一款音箱,背后搭载的语音技术平台为Alexa。它承载的功能是基于智能家居生活服务类的,包括音乐,一些助眠,一些听歌和一些信息搜索的功能,Echo整个的体验打磨使它成为现在最风靡的一款智能家居产品。截止到目前,Echo在全球的销量超过1500万台。

 

如此风靡的产品也引来国内厂商的关注,小米、联想、天猫相继发布智能音箱产品,今年的智能音箱成为了风口之一。龙梦竹表示,智能音箱火起来的核心原因是因为它跟以前的人工智能交互产品的技术不一样,它做的是基于口语对话的自然语言理解。Alexa在做的就是任务式对话,是通过对话、语音或者是文本信息的这种交互方式,让机器去明白任务的意图,从而去帮助用户完成某项功能。

 

Alexa给我们带来的一个很好的启示:不要去批量设计AI商业化产品,而应该做更个性的打动消费者的产品。Alexa这样的平台,是由客户去决定对话的逻辑和体验,使得整个交互的方式更加个性化、更加具体化,更加符合厂商对产品的定义。从产品本身出发再溯源到技术,这是echo给我们技术厂商也是给产品厂商的一个启示。

 

以下为龙梦竹演讲全文:


IMG_0818.JPG

 

大家好,我来自思必驰,今天嘉宾里面大部分是做产品和解决方案的,思必驰应该是唯一一家以技术为核心的2B的公司,我们今天主要想跟大家分享一下人工智能技术的商业化的方向,以及它给现在人工智能产品的公司能带来什么具体的作用?所以我今天分享的题目是《偶然的Echo,必然的Alexa》 。

 

大家都知道,整个人工智能的技术发展60年,最近5-10年是中国人工智能语音语言技术发展得最快的时候。举个例子,其实刺激中国国内公司认识到语音交互技术的时候应该是在2014、2015年,当时在过年的时候一个视频非常爆笑,是一个山东口音的司机通过语音控制车机系统拨号,由于识别一直有bug,每次拨号都稳定错一位数字,使得司机各种发脾气。大家觉得这就是现在语音识别的水平,这就是AI的水平。从我们业界来说,我们认识到语音交互的重要性,11位的电话号码稳定错一位,它的核心问题是说它理解不了交互,它不能纠错,没有办法纠正。所以虽然它的识别率很稳定,90%多,然而这样的技术是不够用的。从那个时候开始,大家一方面提升语音识别率,最近的百度、搜狗还有迅飞都在说现在基于手机端的、移动互联网端的语音识别率已经提升到了97%、98%,微软昨天也宣布他们的英语语音识别率创造了国际上最新的水平。

 

从2015年下半年开始,Echo开始慢慢浮现我们眼前,当我们大众知道Echo这个产品,其实应该是在去年下半年,Echo整个在国际上的影响力都得到的快速提升。大家都会拿Echo跟很多产品比较,说Echo多么好用,Echo能做什么做什么。它的本质是一款智能家居中控产品,它承载的功能是基于智能家居生活服务类的,包括音乐,一些助眠,一些听歌和一些信息搜索的功能,Echo整个的体验打磨使它成为现在最风靡的一款智能家居产品。

 

在Echo出来以后,国内也陆陆续续有了很多类似于Echo的智能音箱产品。做的最早是在2015年,京东和迅飞成立的灵隆科技做的京东音箱从今年开始,整个智能音箱以及智能家居,类Echo产品在国内迅速爆发。今年年初,联想的智能音箱大火,它于5月份正式量产推出,分国内版和海外版,海外版使用了alexa,国内版用的思必驰。

 

小米推的第一款智能音箱是去年399元的互联网音箱。那款音箱是小米的试水,当时用的功能只是简单的识别,主打的是音频的效果跟背后的内容。造型上小米第一代是一个方形的,两个扬声器在两端,所以当用户去使用这个音箱的时候,音质效果是有保证的。而小米再7月新发布的小爱同学,定位是家居中控类产品,采用更适合麦克风阵列的圆柱体,承载更多远场交互的功能。小米这两款音箱都有使用思必驰的语音识别技术。

 

另外阿里推了天猫精灵X1,里面用的也是人工智能的技术,亮点功能是阿里服务和声纹识别等,采用了思必驰的语音和阿里Ali Genie。

 

大概今年上半年以前,我跟大家分享类似于Alexa对话平台的时候,都会讲为什么Echo能火起来?核心原因是因为它跟以前的人工智能的交互产品的技术不一样,它做的是基于口语对话的自然语言理解。什么是对话?大家觉得对话是我跟你说一句话,你跟我说一句话,其实它真正的内涵来讲,对话是整个交互的内容。

 

从我们以前最开始的PC互联网时代,所有信息的交互都是以文本信息在做,那时候我们的对话是QQ聊天,论坛发贴,所有文本信息可以称之为对话。到了移动互联网时代,我们用微信发语音、发表情包,这个时候的对话信息其实是以文本信息为主,会越来越多代入了语音信息。尤其是近两年以来,在整个手机智能助手兴起以后,语音信息的程度越来越高,而在物联网的时代,你的家里从冰箱到空调,都有可能是智能化的物联网的设备,这个量级加在一起非常可怕。所有物联网化的产品都会产生信息的交互,都会产生所有的这种对话式的内容。

 

所以现在我们讲对话这个概念的时候,它不仅包括语音,也包括图像,包括文本信息。它其中的重点是有来有往,而对话这个概念在语音技术上也不是新兴命题,从最开始的小冰小娜等等他们都在做对话,而严格意义上说对话的类型又可以细分。我们根据所有对话的方式,他们的交互方式和轮回次数来作为横向坐标的划分,大概可以划分为四大类:问答式对话、任务式对话、命令式对话、闲聊式对话。

 

闲聊式对话是没有聊天的主体,问话的人没有想要的答案。另外与此相对最简洁最直接的对话方式是命令式对话,它非常直接,我们现在比较直白的话就是这种单轮对话,比如空调调到26度,把灯打开,关灯,一句话的命令。问答式对话主要做信息的搜集,问话的本体非常明确,我要知道什么答案。它跟闲聊式对话非常相反,问话的主体跟回答的内容是非常明确,一对一的绑定关系。现在很多创业公司做NLP和语义理解的时候,它其实很多是做问答对话,连接第三方的服务来给你提供最简单的信息获取。

 

为什么Echo能火起来?是因为Echo做的整个对话方向是区别于以前的,Echo做的或者说Alexa在做的就是任务式对话,是通过对话、语音或者是文本信息的这种交互方式,让机器去明白任务的意图,从而去帮助用户完成某项功能。用户可能会问附近有人均一百的川菜馆吗?这个东西非常深度了,第一它找什么?川菜馆,第二它有一个范围,人均100,这个时候机器会给他反馈三个结果,是用户需要的三个结果,这时候用户说我要导航,做的是下一步多轮的对话,我要导航去我刚刚问的那个地方。整体加下来是一个复杂的任务式对话,在这四种对话里面可以看出,闲聊式对话的目的是让人机交互变得有意思,问答式对话是让机器具有更多内容服务的能力,命令式对话式让人机交互变得简单,而任务式对话是让人机交互变得有意义。

 

去年的时候整个服务型的机器人目前行业特别火,涌现了不止一千家机器人的产品,到今天大家发现机器人的行业慢慢在消磨下去,有在往下走的趋势。我们不说渠道升级,不说品牌的力量和产品的比较力,单从技术来说,有一个很重要的原因,它们背后的智能的程度是大同小异的,很难形成强的产品竞争力。80%都是做的闲聊,都说是一个陪小孩,我陪老人的机器人,但对用户而言,其实没有办法满足刚需。现在还做的比较好的机器人产品,比如小鱼在家,比如乐橙,比如小萝卜,都是在闲聊的基础上加入很多其他刚性的竞争力,比如监控,比如视频通话等等。那么人机交互的技术在里面能起的作用,不仅是闲聊而已,更多是说完成任务。

 

今年机器人整个发展方向,在走两个方向,一个是往低走,所有故事机的升级都可以看成是机器人的下沉。另一方面是专业的机器人,比如说医疗机器人、金融投顾的机器人开始慢慢兴起,去年非常火热的通用服务型陪伴机器人,开始往两极分化,慢慢在走下坡路。

 

思必驰为什么能获得联想、小米、阿里这样的大客户音箱产品的青睐?主要的原因是从开始到现在我们做的就是以任务式的对话为核心,去做的整个对话的方向。其实刚刚我有提到Echo的所有功能里面,它反应的只是一个带着音响外壳功能的集合。最近很多媒体在做智能音箱方向的分析,大家能看出一个什么问题呢?Echo不一定只能是音箱,它可以是任何的产品,外形上为什么选择音箱?有一个很深的原因,是因为在国外这种家居环境里面,音箱算是一个半刚需的产品,另外音箱天生是一个最好的音频内容的载体。但随着下来整个技术的发展,慢慢大家觉得大部分的音箱是一个无屏化的智能终端,在我们需要很多信息的时候,单独的语音信息并不直接,或者说它会有一些问题的存在。

 

举个例子,比如我想找一首欢快的歌曲,音箱说好的,我为你查询到十个结果,第一首,第二首,第三首……用户在这种交互里面其实会产生困扰,如果它是带屏的智能设备,我说我想找一首歌曲,它直接屏幕给我展现十首歌,我再说我要哪一首。这种方式可能会是慢慢在走的一个方向。甚至于echo也在逐步演进,开始有在尝试带屏幕的音箱产品。

 

谈到类似alexa的国内的对话平台,我们之前做一个市场分析,国内大概有将近50家所谓的对话平台,从他们的技术的实力和背后的内容大致可以分为四大类:

 

1.最简单的传统的平台,提供简单的SDK的一些下载,比如说语音的识别、合成,或者简单的理解,单独的知识图谱等等。这种是单一的平台,它也叫对话平台,但它提供的是其中的一个技术点。

 

2.第二种类似于小米水滴,腾讯小微这样语义理解的综合平台,它提供的技术是依靠背后的生态把所有的内容技术聚合。而背后具体怎么用?这种交互方式他们不会为你负责,他们做的是整个语义理解上的,做语义和服务深度聚合。

 

3.第三种,在一些有底层技术能力的公司,它会更容易去做以底层的识别、感知性的能力,去代入一些语义理解的能力,就是我们现在通用的所谓的这种语音交互平台。前端的功能解决,背后的服务可以接第三方,可以自己处理。

 

4.还有一种平台,从感知的识别到认知的理解交互,以及背后第三方服务都在提供,这样的平台包括百度DuerOS,还有我们思必驰7月份正式推的DUI。我们把所有的功能打包放在平台上,需要怎么做?都由用户自己自定义。这个平台可以广泛通用的认为它是类Alexa的平台,但是从国内外开发者的使用来说的话,它会比Alexa更符合国内的需求。

 

传统做音箱或者其他智能家居产品的时候,以天气查询为例,我们一般规定的这种交互方式会是明天北京天气怎么样?它会反馈给我一个北京明天的天气多少多少度。再问深圳的天气怎么样,这属于多轮交互了,如果设备能够反馈,这种情况下大家会觉得满足需求了。而现在的客户会越来越清楚他们要什么,会提出新的口语化的交互需求,用户会问明天下雨吗?明天能洗车吗?明天适合放风筝吗?他会做更多更随心的交互方式,这个时候你背后给他提供什么样回答的内容?对话的深度是由客户定制,我们提供的是前端的识别和理解,背后的内容聚合,而整个对话的逻辑是用户自定义,所以会更加个性化、更加具体化,更加符合产品方对产品的定义。

 

思必驰DUI在做的也是这么一件事情,我们平台正式发布在9月7号,我们非常希望现在的开发者能够多提出自己的产品需求和功能。如果你需要做一个能满足消费者需求的,具有个性化的产品,一个真正能落地能商业化的产品,那么你必须从用户需求和产品定位去出发的,再回到,再往前溯源到技术,你需要什么样的技术?你需要什么样的服务?而不是说看现在的行业,大家都在做什么?我就去做什么。现在的对话平台是以人工智能技术公司的角度给大家提供这样的机会。


打开微信“扫一扫”,打开网页后点击屏幕右上角分享按钮

账号登录

重置密码

还没有账号?立即注册>

账号注册

已有账号?立即登录>注册企业会员

重置密码

返回

绑定手机