特稿 >

前沿热点 >

为什么说语音可能是下一个Big thing

为什么说语音可能是下一个Big thing

腾股创投 丨 前沿热点

3646
525

2017-10-13

腾股创投

Xtecher特稿作者

关注

           

近几年来,我们取得了巨大的技术进步。语音识别引擎的准确性已经提高了很多,现在达到了 95% 的准确度,略高于人类的成功识别率率。 随着这项技术的改进,语音优先的基础设施变得越来越重要,导致亚马逊,苹果,谷歌,微软和百度都迅速进行布局,发布软件构建模块和平台。 语音似乎要兴起了。

在本文中,作者总结了:1、我们目前掌握语音识别技术的现状,以及2、基础设施如何围绕语音发展起来,以了解过去几十年来这一领域发生了什么。由腾股创投编译整理。

语音是最自然的沟通方式,但语音并不是机器交互的主要界面。 自从爱迪生发明留声机之后,人们一直在和机器交谈,但是主要为了与他人进行通信,而不是与机器本身进行通信。 到了 20 世纪 80 年代,语音识别技术将口语转化为文本的识别率开始足够准确。 2001年,计算机语音识别达到了 80% 的准确度。我们可以从口头对话中提取意义,并做出回应。 然而,在大多数情况下,语音技术仍然不足以提供比键盘等界面更好的体验。

1、语音识别历史

语音识别不是新鲜事,起源于上世纪五十年代,但多年来一直存在多种理解语音的方式。

在本文中我将进行总结,以了解过去几十年来这一领域发生了什么。

为什么说语音可能是下一个Big thing

1950 年代 / 1960 年代

第一个语音识别系统是基于简单的模式匹配。 这些早期系统的一个很好的例子是公用事业公司使用自动化系统让客户不用看仪表读数。 在这种情况下,客户端对系统的回答是一个有限的选项列表中的一个字或数字,计算机只需要区分有限数量的不同声音模式。 它通过将每个声音块与其存储器中的类似存储模式进行比较来实现。

在1952年,贝尔实验室的一个团队设计了能够理解口头数字的机器 Audrey。

1970 年代

技术进步导致了基于模式和特征分析的语音识别系统的发展,其中每个单词被分解成小部分并且从关键特征(例如它包含的元音)中被识别。 这种方法涉及声音的数字化和将数字数据转换成频谱图,将其分解成声音帧,分离单词并识别每一个关键特征。 为了识别可能已经说过的内容,计算机必须将每个单词的关键特征与已知功能的列表进行比较。 系统越来越好,因为它集成了来自用户的反馈。 这种方法比以前的方法要高效得多,因为口语的基本组件声音数量相当有限。

从 1971 年到 1976 年,DARPA 资助了五年的语音识别研究,目标是最终能够理解至少 1000 字的机器。 该计划导致卡耐基-梅隆大学大学创造了一个能够理解 1011 个单词的机器。

1980 年代

但是此前的技术仍然不是非常精确的,因为言语中存在的巨大的复杂性:不同的人可以用不同的方式说出同一个词,有许多相似的词(例如 two 和 too )等等。 语音识别系统开始使用统计学方法。 在此期间推出的关键技术是马尔可夫模型(HMM),用于建立声学模型和随机语言模型。

声学模型代表音频信号和语言中的语音单元之间的关系,以重建实际发出的内容(特征→音位)。 语言模型基于最后一个单词预测下一个单词(单词→句子),例如。“God save the“ 之后最可能出现的单词是 Queen (天佑女王),另外,还有一个语音字典/词典提供关于单词及其发音的数据,并且连接声学模型和语言模型(音素→单词)。 最终,语言模型分数与当前单词的声学分数相结合,以确定单词序列的排序。

玩具娃娃 Julie Doll 在 1989 年将家庭语音识别技术带到家庭中。可以帮助儿童训练语音、说话。

为什么说语音可能是下一个Big thing

1990 年代

一直到 20 世纪 90 年代,语音识别系统的速度都太慢,无法开发有用的应用程序,但是当时出现的更快的微处理器可以进行重大改进,而第一个语音识别商业应用开始出现。

Dragon 公司在 1990 年推出 Dragon Dictate,是第一个消费级语音识别产品。在1997年,你可以在一分钟内说100个字。

2000 年代

计算机语音识别在 2001 年达到了 80% 的准确度,但没有多少进展。

2010 年代

在过去十年中,机器学习算法和计算机性能的进步已经导致了更有效的深层神经网络(DNN)训练方法。

因此,语音识别系统开始使用 DNN,更具体地说,是 DNN 的特殊变体,即循环神经网络(RNN)。基于 RNN 的模型显示出比传统模型更好的精度和性能。 事实上,2016 年的语音识别准确度达到了 90 %,Google声称在 2017 年 6 月达到 95% 的准确率。

这是非常惊人的,要知道研究人员估计人类转录精度略低于95%。 然而,这些公布的结果应该仔细考虑,因为它们通常在完美的条件下测量,例如, 没有背景噪音和英语母语的录音。 在“非无菌条件下”的准确度可能快速下降到 75-80 %。

当你需要标记数据来训练算法时,现在面临的挑战是获取现实生活中数千小时的口语音频,以提供给神经网络并提高语音识别系统的准确性。 这就是 Google,亚马逊,苹果和微软正在通过将 Google Now,Siri 和 Cortana 在手机免费提供服务,以便宜的价格销售 Alexa 智能音响的原因。一切都是为了获取训练数据!

2、语音基础设施的开发

语音基础设施开发可以分为 3 个必需的层次:新的应用程序出现:(1)硬件允许更多的人使用语音作为接口(2)软件构建块,使开发人员能够构建相关的语音优先的应用程序(3 )生态系统,以实现有效的分配和商业化。

为什么说语音可能是下一个Big thing

语音硬件的普及

语音分析公司 Voicelabs 将语音优先设备定义为始终在线的智能硬件,而其中主界面是语音,包括输入和输出。 市场上首个语音优先的硬件是 2014 年底发布的智能音箱 Amazon Echo 。根据2017年 VoiceLabs 的报告,2015 年发布的语音优先设备达 170 万台,2016 年将达到 650 万台,2017 年将有 2450 万台设备发货 ,市场总流通设备数达到 3300 万台。

市场上的主要智能音响是 Amazon Echo(2014年11月)和 Google Home(2016年11月)。 然而,新玩家正在迅速进入市场:索尼推出了内置 Google 助手(2017年9月)的LF-S50G,苹果即将推出 Homepod(2017年12月),三星也最近宣布“即将发布”,Facebook 可能会发布带触摸屏的智能扬声器。 Google 助手还将来到一些新的智能音响,其中包括 Anker 的 Zolo Mojo,Mobvoi 的 TicHome Mini 和 松下 的 GA10。

无疑,语音优先的硬件层正在快速发展,预计会有所增长!

语音优先应用程序的软件构建门槛降低

从头开始构建语音应用程序不是一件容易的事情。 Nuance 和其他大型公司已经向第三方开发人员提供语音识别 API,但是使用这些 API 的成本历来相当高昂,并没有获得很好的结果。

随着语音识别技术开始取得更好的成果,语音优先应用的潜力越来越大,像 Google,亚马逊,IBM,微软和苹果以及 Speechmatics 这样的大型公司开始在较低级别提供各种低价的 API 产品。

一些最常用的包括 2016 年 7 月发布的 Google Speech API,和2016年11月发布的亚马逊 Lex 和 Amazon Polly。

现在,大量开发人员可以以合理的成本构建语音优先的应用程序。

语音优先生态系统的出现

随着越来越多的语音优先应用和硬件带来越来越多的语音交互界面,平台不仅需要解决了分发和商业化,分析和营销自动化等第三方服务也越来越重要。

亚马逊,Google 和微软已经开始建立这样的生态系统,预计苹果也即将开始。 衡量这些生态系统成功的一个好方法是总技能:

为什么说语音可能是下一个Big thing

(腾股创投是一家由前华为资深人士成立的早期风险投资公司。投资方向包括5G、云计算、SaaS、大数据、物联网、人工智能。投资阶段天使、Pre-A、A。)

打开微信“扫一扫”,打开网页后点击屏幕右上角分享按钮

账号登录

重置密码

还没有账号?立即注册>

账号注册

已有账号?立即登录>注册企业会员

重置密码

返回

绑定手机