智能化的产品正在逐渐走入消费者的日常生活,但是关于什么样的产品才更智能,市场上一直争论不休。有人说达到一种无感化的控制,让产品能够根据用户的个人喜好而自动调节以达到用户习惯的状态才是最好的,听起来不错,一件能够主动智能的产品是能够带来很多的便利,但是只是根据用户的历史习惯去调控便会陷入另一种机械式的困境,不能随机应变。
笔者个人觉得,作为一款产品,用户能够通过某种手段对其进行控制是 “智能”的基础。而通过什么样途径进行控制呢,虽然不同的应用场景会有不同的操控交互技术,但是对于多数的应用场景来说语音交互便是最方便省事的,可以说语音交互技术将会成为越来越主流的技术。
前不久,英特尔宣布与语音识别技术公司Sensory达成了合作,将在以后Intel最新的芯片中集成整合Sensory公司的TrulyHandsfree语音识别技术。作为芯片行业的龙头企业,此举无疑是对未来语音识别技术的极大认可。
语音交互,主要取决于两点:语音识别,和语义理解
语音识别——通过直接人机语音对话方式即对人类语音的词汇语法的分解,并将内容转换为计算机可读的输入,例如按键、二进制编码或字符序列。思维是人脑的机能,是对外部现实的反映;语言则是现实思维、巩固和传达思维成果即思想的工具。
在日常生活当中,如果只从语音出发,我们根本没有可能听懂“XX牌普通话”,但是我们还是听懂了,更能用另一种牌子的普通话和他交流,这就涉及到语义理解。
有了语义理解的突破,语音识别才能脱离桎梏,更上一层楼。
关于语义理解,目前一门技术正火,神经网络。这是一种十分炫酷的技术,将机器学习的方式模仿人类大脑的神经元,当处理的语言越来越多时,这种网络就可以逐渐理解语言。
实验结果发现,这种技术可使得精确度提升25%以上,这是一个巨大的飞跃,因为这个行业只需要提升5%就具备革命意义。
语音识别国内外现状如何,有哪些差距
Nuance
提及语音识别,就不能不说Nuance,就像提到PC处理器不能跨过intel, Nuance有着辉煌的历史,曾经在语音领域一统江湖。
就算现在,瘦死的骆驼比马大,它仍旧是全球最大的语音技术公司,专利数量和市场份额都遥遥领先。苹果iPhone手机的虚拟语音助手Siri、三星的语音助手S-Voice、各大航空公司和顶级银行的自动呼叫中心以及虚拟在线语音助手,都采用了Nuance的技术。
微软
微软通过深度神经网络技术获语音识别重大突破,错误率降低至 18.5%,准确率比传统技术提升了 33%。这让流利的语音对语音程序变得更加现实。
该技术无需用户对识别系统进行 “训练”,而是通过 “即时、因人而异的自动语音识别” 技术实现。换言之,真正的人声识别。
微软表示该技术突破大大提升了语音技术商业化的潜力。
谷歌
和大名鼎鼎的苹果Siri相比,谷歌的语音搜索服务Google Voice Search显得不那么有名气。而实际上,如果你留意应该会发现,谷歌语音搜索技术最近已经有了飞跃式的进步,其识别率更是甩Siri几条街。
和有美国国防部背景的Siri不同,Google Voice Search一直都备受语音识别算法困扰,而后人工智能大师杰弗里?希尔顿加盟谷歌,同时谷歌还挖走了Nuance的一些职员,这令谷歌的语音识别技术得到提升,并从产品设计之初就自带了AI属性。
谷歌前段时间向第三方开发者开放其语音识别API,与Nuance及其它的语音识别公司竞争。谷歌云语音API(Google Cloud Speech API)将覆盖超过80种语言,兼容任何实时串流或者批处理模式的应用,它将为应用程序提供一整套API,给它们带来“看、听与翻译”方面的功能。谷歌的这一举措将会对整个行业产生不小的影响——尤其是对Nuance。
种种迹象显示,谷歌似乎变得更加注重语音技术和众多的使用案例。例如,该公司在2月宣布将允许Google Docs用户通过语音来编辑和设计文档。
苹果
Google和微软都掺和了,苹果当然不会落后。
2013年,苹果悄悄收购了一家语音识别技术公司Novauris Technologies,价格未知。Novauris公司以语音识别著称,由其推出的产品和语音识别系统并非简单的识别单个的词句,而是理解上下文。Novauris 也曾推出一个名为 Novasystem 的分布式服务器语音识别系统,可同时处理多个并发语音请求,识别完整的句子,并分析音节结构。
另外,在过去几年,苹果不仅吸纳了Siri的语音技术人才,更是将Nuance公司的多名高级语音研究人员挖角过来,包括了前研发副总裁Larry Gillick,以及来自微软语音识别项目高管Alex Acero,后者在微软工作达 20 年之久。
苹果打算利用神经网络来提升语音识别率,微软研究部门主管 Peter Lee 认为,苹果大约需要花6个月才能赶上Google 和微软。
亚马逊
Echo 音箱就是一个黑色的小柱子,相比起其他的智能语音助手比如 Siri,它的特点在于看得见、摸得着。一年多下来,Echo 已经成为了语音控制智能家居的入口。
上市一年多以来,Echo已经学会了朗读小说、用Uber叫车、叫达美诺的匹萨外卖,甚至是配合蝙蝠侠电影上映带着用户玩语音探索游戏。
Alexa从一开始就是一个互联网服务的入口,Siri还停留在苹果硬件支持的程度,这么说起来,更像人工智能的反而是那个最初被称作实体Siri的小黑家伙呢。
再看国内
科大讯飞:中科院典范,站稳教育市场
科大讯飞依靠中科大的语音处理技术以及国家的大力扶持,稳坐“中国的nuance”之位。根据调查,科大讯飞占据了超过60%的市场份额,绝对是语音技术的龙头企业。一提到科大讯飞,可能大家想到的都是语音识别很牛,但其实它最大的收益来源是教育,特别是在2013年左右,收购了很多家语音评测公司,包括启明科技等,对教育市场形成了垄断,经过一系列的收购后,目前所有省份的口语评测用的都是科大讯飞的引擎,由于其占据了考试的制高点,所有的学校及家长都愿意为其买单。这种局面很难打破,所以其霸主的地位也很难撼动。
百度语音:有钱任性,技术实力很强大
百度语音其实很早就被确立为战略方向,2010年与中科院声学所合作研发语音识别技术,但是市场发展相对缓慢。百度几乎成为了很多归国人员刷简历的跳板,因此直到2014年,百度重新梳理了战略,终于找对了人,请来了人工智能领域的泰斗级大师吴恩达,正式组建了语音团队,专门研究语音相关技术,由于有百度强大的资金支持,到目前为止收获颇丰,斩获了近13%的市场份额,其技术实力已经可以和拥有十多年技术与经验积累的科大讯飞相提并论。
其他诸如中科信利,尚科语音,捷通华声等等都是国内做语音交互技术走的比较远的企业,总得来说,语音识别的门槛并不高,因此国内各大公司也逐渐加入进来。搜狗开始采用的是云知声的语音识别引擎,但很快就搭建起自己的语音识别引擎,主要应用于搜狗输入法,效果也还可以。腾讯当然不会落后,微信也建立了自己语音识别引擎,用于将语音转换为文字,但这个做的还是有点差距,想必大家也都体验过。阿里,爱奇艺,360,乐视等等也都在搭建自己的语音识别引擎,但这些多的是自研自用,技术乏善可陈。
国内外巨头布局语音识别的策略差异
上面历数了国内外各个巨头陆续建立语音识别引擎的过程和优势技术,有一点我们还是要特别留意一下:国外巨头欲进入语音识别行业,首先想到的就是收购初创的团队,这些团队大都也在5-20人之间,掌握着一定的优势技术。显然收购一家初创团队很难满足其战略发展,因此一旦技术与公司业务融合以后,这些巨头都会频繁出手再次收购以补齐短板,逐渐建立起适合自己公司发展的语音识别优势。
对于技术相对重要而技术点又比较分散的科技型公司,国外巨头一般不会采取大手笔收购的商业模式,这也是导致Nuance最终无人问津的重要因素。想想也是,巨头自然不会用别人家的引擎以免将来掣肘,何况收购技术类的大型公司无疑也是给自己找了个麻烦。
国内的语音识别发展脉络没有那么清晰,刚开始各个巨头也都是采用专用公司比如科大讯飞、中科信利、云知声等公司的引擎。后来醒悟过来,纷纷谋求自建,但是除了百度不断砸入重金后获得了一定的效果外,其他自建的各大公司没有啥实质性进展。这一点从他们试图低薪聘请语音识别相关人才的策略上,也可知道其战略上没什么可发展的。语音识别行业属于声学和计算机的交叉技术,本来培养的人才就很稀缺,而从上述分析可以看出,国内外的技术源头很集中,无非就是业界相关的研究机构和拥有研发实力的巨头公司。
目前智能语音识别主要有哪些问题亟待解决
1、对自然语言的识别和理解。首先必须将连续的讲话分解为词、音素等单位,其次要建立一个理解语义的规则。
2、语音信息量大。语音模式不仅对不同的说话人不同,对同一说话人也是不同的,例如,一个说话人在随意说话和认真说话时的语音信息是不同的。一个人的说话方式随着时间变化。
3、语音的模糊性。说话者在讲话时,不同的词可能听起来是相似的。这在英语和汉语中常见。
4、环境噪声和干扰对语音识别有严重影响,致使识别率低。
可以说声音已经融入我们的身体,成为一种本能,它是最优的表达方式,自然语言回答代表未来智能化的产品的终极形式。
基于云计算的自然回答功能结合智能家居系统在功能和应用上更是可以开拓无数。
不得不说,智能语音产业正在形成一种趋势,这对于正在发展中的物联网行业来说,又将是一片待开发的新蓝海,很值得关注。
对于智能语音类应用来说,苹果的Siri让用户接受了这种方式,这种交互方式还有很长的路要走,而智能语音真正深入到用户生活,还需要好多个Siri来引爆。