语音识别“在路上”

“钢铁侠”Tony Stark有一位智能管家,人们看不见它,它却无所不知,是居家旅行、拯救世界的必备良 物.

它满足了人类对于“语音识别”技术的终极幻想.你可以把这位智能管家想象成Siri的未来升级版,它不但能够完美执行指令,还能根据设备的工作情况甚至主人的心情提出建议.

下面回到现实.Siri眼下能做的最棒的事情,就是帮忙预订某个酒店房间—诸如此类.不过不用悲观,还有个好消息是,语音识别已经成为众多科技公司的优先发展计划.

2012年3月,一项能够即时语音翻译26种语言的技术被微软研究院推出.与其他语言翻译产品不同的是,这项技术除了翻译多种语言之外,输出的语音还可以模仿说话人的音色和音调,使它们听起来接近使用者的真实声音.当然了,现在它听上去还有些生硬,感彩还不够丰富.

这项技术的第一步仍然是语音识别,后者正被越来越广泛的应用在众多不同的领域.微软用它来翻译,在将语音进行识别之后,变成一项名为“跨语言的文语转换”(Cross-Language Text-to-Speech,简称TTS)的技术.使用者只需要预先录下几十分钟的母语作为训练语音.软件在进行识别、翻译之后,就可以模仿说话人的音调和音色将翻译好的、其他语种的文本说出 来.

此前早已有苹果Siri,它一度是iPhone 4S手机用户的最大乐趣之一.另外在Android 4.1系统中,Google Now除了让用户实现语音搜索,还包含一个自动填充卡片的功能.当用户搜索了一个地点、天气或是航班时间,Google Now会自动建立一个卡片存储细节,供用户以后查阅.

人们对于语音识别的迷恋由来已久,甚至在计算机发明之前.早期的声码器,可以看作是语音识别技术的雏形.1920年代生产的“Radio Rex”玩具狗是眼下有据可查的最早的语音识别器,当这只狗听到自己的名字时,它就会从底座上弹出来,吓人一跳.

作为诸多后继的复杂应用的第一步,语音识别—让机器读懂你在说什么,迄今为止仍然是一个大工程.你甚至也可以把它视为众多语音类智能应用向前发展的绊脚石之一.

现在语音识别的主流技术,由数据统计模型和算法组成.如果把数据统计模型比喻成一个仓库的话,那么算法则是一只机械手臂,从仓库中“抓”出合适的数据进行匹配.算法包括了对数据存放位置的判断等行为规则.数据越多,模型也就越大.

再简单一点说,当你说了一句话之后,算法会从数据库中抓取可能最符合你意思的那句解释.因此模型中包含的数据越多,通常也就意味着识别能力越强.但问题来了.就像没有一个仓库可以存放世界上所有的货品一样,没有一个模型可以解释所有数据.人们可以说任何话,因此数据变化无穷.

所以你应该不难理解,以往一些初级的语音控制类的应用,比如导航、语音拨号等等,人们要启动服务必须按照产品手册的说明,完整地说出固定格式的句子,才能被机器所识别.在这些应用中,数据库是简单而又原始的,在识别过程中也没有太多算法可言,它们只是负责“搬运”.

包括Siri和微软TTS在内,语音识别被发展到了眼下的第二个阶段:它们可以通过一定的规则和算法,将那些事先没有包含在数据统计模型中的“话”也解释出来,并且足够简单.

要实现这一点,仍然必须要有一个基础的数据库.在微软的TTS技术中,那几十分钟的“训练”,也就成了一种搜集数据建立数据库的方式.建立数据库的好处在于,“它不能够保证你肯定对,但它能够保证最可能对,或者说可能最好的答案.”微软亚洲研究院语音组首席研究员和负责人宋謌平对《第一财经周刊》说.

当训练完成之后,语音识别就变成了一个排序过程.当一段语音被输入,模型会通过自己的算法,从数据库中寻找匹配度最大的那一句.各家公司不同的“算法”,以及建立起来的基础数据库,成了它们各自在语音识别上的核心技术.

一段话是谁说的并不重要,更重要的是它的文本识别率.按照宋謌平的说法,一般能达到90%以上的识别率,大部分的用户都可以接受.

要提高准确率,除了数据库和算法,另一个必须解决的问题就是在噪音环境中更准确地分辨出输入的语 音.

眼下要解决噪音问题一般通过两种办法,一是在训练素材中包括噪音数据,让模型“记住”声音在不同环境下的差异,并在最终识别的时候,对噪音进行降噪处理;另外一种办法,则是识别同样噪声环境里的、没有经过降噪处理的语言.

在数据库有可能建立得比较大的情况下,搜集到足够的噪音数据、并在噪音中进行识别是一种最好的办法.但现实是,一般意义上的“噪音”太多.比如汽车的引擎、餐厅中的各种声音,本质上并不相同,但都会对说话人的语音输入造成干扰.对于手机而言,计算和存储能力都有限,建立庞大和复杂的模型并不现实,一般会直接使用降噪处理的办法.

早在1992年,一家名为Nuance的公司就看到了语音识别技术的商机.目前Nuance在美国已经开辟出两部分主要市场,包括咨询业务和医疗诊断记录的听写.2011财年,Nuance的营收共计13.18亿美元,其中产品销售及授权收入占比46%,产品的使用人数已有1600 万.

这家拥有近4000项专利的公司通过提供面向医疗、手机、汽车等企业的语音解决方案盈利.在美国昂贵的人工费用压力之下,包括美联航和大部分医院在内的机构,都开始选择语音听写引擎这样的识别设备,解决部分客户服务和书写病历的问题.

将默默埋头赚钱的Nuance推向前台的正是苹果.由于Siri使用了Nuance的语音识别引擎,这家公司开始获得越来越多的.Siri曾在起步阶段使用过其他平台,但最终切换到了Nuance,不知这是否与Siri和Nuance同样出自斯坦福研究院有关.

曾有传言苹果与Nuance进行了几个月的接触,试图收购后者,但因其价值连城的专利,以及“在谈判时近乎于乔布斯级别难缠的CEO”,这场收购后来不了了之.苹果通过引入Nuance的语音识别,再将识别之后的信息与其他“知识和资讯类数据库”连接,在人机交互领域发起了一场革命.

2011年,通过云端访问Nuance的语音数据库的访问量达到了20亿次.眼下,它们也开始进入中国市场,最新版本的Siri将提供包括普通话、广东话和台湾地区国语的识别.不过中文与英文的识别引擎完全不同,需要重新开发.

在中国,还没有形成大规模的语音识别应用市场.国内语音市场占有60%以上份额的是科大讯飞,主要营收也只是来自于语音合成技术.它只是让电脑“念”出文本,在电信公司和银行的呼叫中心里较为常用.

微软创始人比尔·盖茨曾在2008年预测,五年之内互联网的搜索大部分将通过语音完成.现在看来,他或许乐观了一些.即使语音识别技术已经能够适于应用,真正的人机交互还有待于语音识别的更深层—语义识别技术的发展.

如果从字面上解释,语义识别的意义在于能让机器真正明白信息的含义.当机器听到一个名为“意大利菜”的关 键 词 时,技术优良的语音识别可能会做出搜索意大利菜的反应、或者帮你预订好常去的餐厅,但语义识别则意味着,它还可能明白意大利菜会有什么样的口感、或者探知餐厅的氛围.

语义识别的终极梦想是让机器完全辨知人类说话的语义和情绪,就像“钢铁侠”的那位智能助手一样.

与发展相对迅速的语音识别不同,现有的语义识别仍然处于基础阶段,是一种机械的识别过程.“这一类的技术基本上还是填空法.”宋謌平说.当机器听到语音,进行识别之后,会从“语义数据库”中搜索出与其相匹配的关 键 词 ,与人的语义理解还有很大区别.

不过在一些垂直领域,语义识别已经获得了一定程度的发展和应用.中华英才网的控股公司、美国最大的人力资源网站Monster,最近开始在中国市场推出一种名为6Sense的语义搜索专利技术.它能将求职者的工作经历、技能、教育背景和所在地区,与目标职位匹配起来,再对他们进行分析、评级和排序,从而提高HR筛选简历的效率.在人力资源领域,“甲骨文”意味着那家国际知名的企业软件公司,而不是中国古代文字.如果仅仅是围绕在一个特定领域内,系统判断和识别的难度要小得多.

从长远来看,语义识别目前还有很多尚未突破的难点.最大的障碍事关情感,机器还没有办法理解人类的情感,它们只能通过语音信号的声学变化去捕捉人类的情绪,比如频率和时长这样的参数;此外,因为语言本身的模糊性,识别过程中的关 键 词 抽取也经常出现不准确的现象.


小i机器人的创立者袁辉说,语义识别的下一步发展,需要长期的、系统的平台去处理每天进来的海量知识和信息,经过长期的集聚,形成工程化的产品,最后才能对知识进行筛选,甚至能够学习新的知识点.

看起来,“云”或许会是一个解决办法.因为云服务器可以容纳规模足够大的模型.如果能有一种算法,使这种模型具有学习能力,就可以将用户的语义在云端服务器中进行分析,再借助网络将指令和文本回传.

尽管可以用语音操作的手机、PC甚至汽车都离我们不太远了,但要让这项技术真正达到善解人意的程度,还需要很长一段时间.

还是先慢慢折腾Siri吧.

类似论文

英国英语与美国英语在语音上的差异

【摘 要 】英国英语和美国英语是英语的两大最为重要的语言变体,虽然属于同一种语言,在主体上是一致的,但在各个方面也存在着。
更新日期:2024-2-2 浏览量:9690 点赞量:3925

要学在课堂更要学在“路上”

【摘 要】普通高校新闻专业的新闻采访课程是一门专业基础课,对培养学生的新闻素养有着十分重要的启蒙作用,所以如何进行。
更新日期:2024-3-26 浏览量:46017 点赞量:10991

“反剽窃”在路上

国内对学术论文“”的监督并非始自今日 2000年3月,上海师范大学法商学院的何云峰教授单匹马地建了一个“好汉网。
更新日期:2024-2-16 浏览量:30666 点赞量:7329

超声波探伤缺陷识别

【摘 要】科学技术的发展必然带来应用技术的革新,超声波技术在医学、军事、航天以及科研和建筑领域的广泛。
更新日期:2024-12-13 浏览量:153606 点赞量:32410

小学英语语音教学策略

对于语言的学习来说,学会语言的发音是学习开始的第一步,因而刚开始接触英语的小学生来说,如何打好学习英语的。
更新日期:2024-11-5 浏览量:18861 点赞量:5116

频道推荐