<?xml version="1.0" encoding="UTF-8"?><!DOCTYPE wml PUBLIC "-//WAPFORUM//DTD WML 1.1//EN" "http://www.wapforum.org/DTD/wml_1.1.xml">
<wml>
<head> 
<meta http-equiv="Expires" content="0"/> 
<meta http-equiv="Cache-Control" content="no-cache"/> 
<meta http-equiv="Pragma" content="no-cache"/> 
</head>
<card title="语音助手成为最后一战 但它听的懂口音么?_砍柴网">
	<p><a href="https://wap.ikanchai.com/">首页</a> &gt; <a href="https://wap.ikanchai.com/?action=category&amp;catid=5">科技快报</a> &gt; <a href="https://wap.ikanchai.com/?action=category&amp;catid=25">家电</a> &gt; </p>
	<p align="center"><big>语音助手成为最后一战 但它听的懂口音么?</big></p>
	<p align="right">2017-05-02 17:17</p>
	<p>在使用Alexa访问网页，驾驶汽车，还有做其他杂七杂八事情时，我发现了一件有趣的事：Alexa竟然不能识别我老妈的口音!<br />
<p align="center"><img src="http://upload.ikanchai.com/2017/0502/1493716620415.jpg" /></p><br />
&ldquo;这些软件好像听不懂我在说啥。&rdquo;<br />
我妈等了整整两个月才收到Amazon echo这个软件，不过她还要等我帮她安装到手机上。<br />
当我下载软件的时候，她皱起了眉头。我猜，她可能想到了过去使用Siri的不愉快回忆，也可能她现在会怀疑所有的语音助手设备。 她说：&ldquo;这些软件好像听不懂我在说啥。&rdquo;<br />
我老妈出生在菲律宾，老爸出生在印度。英语是他俩的第三语言。虽然他们在美国已生活了近50年，早已能讲流利的英语，然而多少还是会带点儿口音，并常常夹杂不那么道地的短语。 过去，包括Siri、Alexa在内的语音识别技术设备，基本上都不能识别他们&ldquo;特别&rdquo;的语音指令。<br />
这不是什么我父母才有的特殊经历。(这样的经历甚至被记录在某些喜剧中，比如这个广为流传的被困在语音控制电梯里的段子)我嫂子说，她发现Siri不能识别她朋友和家人的&ldquo;民族名字&rdquo;，所以就放弃了使用Siri。这种沮丧我能想象：某天我命令Siri&ldquo;发短信给Zahir&rdquo;，结果变成了&ldquo;发短信给Zara&rdquo;。<br />
尽管看起来，这还不是什么太大的问题，但考虑到一场语音革命正在进行中，这个问题将会变得愈来愈重要。<br />
　到2020年一半的搜索将会通过语音来执行<br />
目前我们已经有了语音服务支持的可穿戴音频视频娱乐系统。由于在开车时司机们往往不怎么专心，语音控制系统可能很快将成为车辆的标配。GoogleHome和Amazon Alexa正想办法实现数百万美国家庭&ldquo;智慧之家&rdquo;的梦想。Echo是这个圣诞期间Amazon的畅销王牌，它的销量相对于2016年增长了900个百分点，甚至出现了延期交货，这也是我前面提到的，导致我老妈等了好长时间才收到Echo的原因。<br />
研究人员预计美国今年将有2450万台语音驱动设备投入使用，以此来支持人们的日常工作&ndash;&ndash; 这支持了ComScore的一项预测&mdash;&mdash;到2020年，一半的搜索将会通过语音来执行。(译者注：ComScore公司是一家全球性互联网信息服务提供商，是美国知名的互联网统计公司、互联网流量跟踪分析公司和市场调研公司)<br />
随着越来越多的语音控制科技的出现，语音服务如何实现更好地服务带口音人群这一目标?<br />
攻克带口音人群目标，第一步收集更多音频样本<br />
要训练一台机器识别语音，首先我们需要很多音频样本，研究人员必须收集成千上万人讲述各种话题的语音， 然后手动记录这些音频剪辑。 这些数据 (音频剪辑和书面记录的组合 )将会使得机器在声音和单词之间建立关联。其中使用最频繁的短语将被用于AI算法训练，以识别人类说话。<br />
AI只能识别出训练过的内容，所以训练内容的口音多样性决定了语音识别软件的灵活性。 当前，政府、学术界和小型创业公司已经能依靠已有的音频和书面记录(称为语音语料库)来避免人工转录录音内容这样的劳动密集型工作。 宾夕法尼亚大学的语言数据联盟(LDC)是一个强大的语音语料库。它根据许可协议向公司和研究人员提供这些数据集。<br />
二十世纪九十年代早期，TexasInstruments推出了Switchboard语音数据库，然后由LDC把Switchboard提供给其他机器学习程序使用。 Switchboard是一个由543位美国人录制的大约2,400个电话对话组成的集合，共有约250小时的录音。当时研究人员通过赠送长途电话卡来招募参与者。 参与者拨打电话和其他参与者联系， 然后两个陌生人会就特定的话题展开讨论，比如如何抚养小宝贝，或最近的体育赛事如何。<br />
因为LDC位于费城，多年来语言学家一直认为这些收集到的谈话样本总体上来看，应该会更接近美国东北部口音。 但是一直到应用程序Yik Yak的机器智能主管MarsalGavald拿到Switchboard参与者的资料时，他才发现在语言库里中西部地区口音其实更多一些，而南部和北中部的口音比例合起来才到40%左右，远没有预想中那么多。<br />
虽然还有许多其他语料库，Switchboard仍然是语音识别系统模型的基准。IBM和Microsoft都使用Switchboard来测试其语音系统单词的错误率。 Gavald&agrave;告诉我们：&ldquo;几乎所有的语音识别引擎都使用了这套超500人样本的语料库进行训练&rdquo;。<br />
以一个只有26年时间限度的语料库为基础开发出来的语音技术，不能识别某些口音是无法避免的。 虽然英语是语言市场中的专业货币，但现实中许多的人是将它作为第二、三甚至第四语言来学习的，口音无法避免。将该过程与药物试验相比较，Gavald&agrave;认为：&ldquo;比如这种药可能已经在一百名患者中被试验过了，但100人相对庞大的人口基数非常微不足道。如果想以此推断在大多数人身上的效果，试验对象的数量不太具有说服力。&rdquo;<br />
竞争使得数据无法共享，最新语音识别技术流传缓慢<br />
大多数智能手机的销售都在美国以外的地区，所以大公司需要在全球范围内保持竞争力。苹果、谷歌和亚马逊都有自己一套收集语言和口音数据的秘诀。使用他们产品的消费者越多，能搜集到的反馈就越多，然后就能通过Alexa应用程序上的语音培训等程序来改善他们的产品。<br />
虽然大型科技公司在收集语音数据方面取得不错的进展，但是由于相互的竞争关系，和市场份额等原因，这些数据无法实现共享。 这是为什么往往最新的语音识别技术需要花费很长时间才能流传开的原因。 这个秘密也适用于我的这篇报道。 亚马逊从来没有回复过我让他们评论这篇报道的请求，谷歌的发言人让我去看一篇介绍他们深度学习技术的博客，而苹果的公关代表则指出现在可以为36个国家定制不同的Siri版本，并支持21种语言、语言变体和口音。<br />
其他国家和地区的企业也意识到口音的重要性。 中国搜索引擎公司百度的一位代表表示，他们建立在深度学习上的对英语和汉语的语音识别精度，比人类识别的更加高。此外，百度还开发了一种能够识别方言和口音的&ldquo;深度语音&rdquo;算法。当时的百度首席科学家吴恩达(译者注：目前已离职)告诉《大西洋月刊》 ：&ldquo;中国对英语世界发生的情况相当了解，不过英语世界可能并不了解中国在发生什么。&rdquo;<br />
另一方面，无力投资在语音数据收集上的小公司和个人会倾向于使用更便宜、更容易获得的数据库。这些数据库在语音数据多样化方面，可能不如之前提到的著名语音数据库。 会议记录初创公司Remeeting的研究员Arlo Faria说到：&ldquo;至少从我的角度来看，(语音数据)并没有真正变得更加多元化。例如Remeeting研究了一个叫作Fisher的语料库，虽然其中包含一组非英语母语的参与者，但还是忽略了很多其他口音。 比如Fisher里虽然有一些西班牙和印度口音英语，但英国国内不同口音数据却不那么全。&rdquo;<br />
语音科学仍是最终解决口音识别问题的关键所在<br />
这就是为什么语音识别技术与人类的反应不同。Pop UpArchive(奥克兰音频搜索平台)的联合创始人兼首席执行官AnneWootton说：&ldquo;通常软件识别印度口音时更加灵活，而识别像ShenandoahValley南方地区口音会更难一些。我认为这和培训数据是否包括这些口音有重要关系。&rdquo;<br />
华盛顿大学语言学系的社会语言学方向博士研究生Rachael Tatman指出，这些数据中代表性不足的群体往往是在现实中也是被排斥的群体。 例如，美国的语音数据库中缺乏贫困群体、未受过教育的群体、农村群体、非白人群体、母语非英语群体的英语声音。 她说：&ldquo;如果某人具有越多的上述特质，那对其的语音识别效果就越差。&rdquo;<br />
尽管如此，Trint的首席执行官兼联合创始人JeffreyKofman(一个英国自动化语音文本软件公司)却坚信语音科学是最终解决口音识别问题的关键所在。 他谈到，当人们在Trint平台上视频聊天时，Trint可以把澳大利亚口音像英国口音和北美口音一样顺利转为书面记录。 Trint还为十几种欧洲口音的英语提供语音转录记录，并计划在今年晚些时候增加南亚口音。<br />
收集口音语音数据耗资不菲，并且十分麻烦，这也是为什么大多数公司优先考虑收集关键人群语音数据的原因。有南亚口音的Kofman说：&ldquo;比如在印度、巴基斯坦以及英国、美国和加拿大这些人数众多的国家，人们说话很带有明显的口音。&rdquo;他表示接下来会优先考虑南非的口音。<br />
显然，不仅语音识别技术歧视带有口音的人群，人类也有。大众媒体和全球化对人们说话的口音有着很大影响。 演讲专家记载了自1960年以来美国某些区域性口音的变化趋势，人们倾向于对来自混合地理区域的人使用更一致的口音，比如数字助理或接线员就使用没有口音的声音。<br />
我们也可以理解为，是一种没有任何口音的声音。<br />
随着语音识别技术的进步，这种使用机器人才能听懂的标准口音与设备进行互动的方式将面临挑战。如果人们不需要像对机器说话一样来对设备说话，就可以像一个人类朋友那样自然地和设备说话。 当前有不少人在利用与语音助手对话来纠正发音中的方言，但来自旧金山的普通话教学从业者Lisa Wentz老师并不推荐学生这样做。<br />
她的大部分学员或多或少都觉得自己的口音妨碍和他人交流，他们希望通过训练可以让别人听懂自己的话，而不是一遍又一遍的解释刚才的内容。在这种情况下，如果他们使用当前这种还不能很好的适应不同口音的语音设备，无疑会加剧他们的挫败感。<br />
带着口音给Alexa指令就像在教小孩儿学说话<br />
我和我老妈一起设置了她手机上的Alexa应用程序，但她好像并不是很期待。 我都能想象到她对声音驱动汽车的不信任和恐惧。我猜老妈可能永远都不会坐这种车，因为她非常非常担心发生车祸。 不过呢，她还是向Echo问了几个问题。<br />
比如，她说：&ldquo;Alexa，播放Que sera sera(译者注：一首歌名)。&rdquo;<br />
&ldquo;我找不到这首歌：Kissyour ass era.。&rdquo;<br />
这种识别结果真让人哭笑不得。 她又慢慢地重复了一次，就像在和一个小孩儿说话： &ldquo;A-l-e-x-a，播-放-Que- sera-sera 。&rdquo;她甚至还轻轻地唱出了sera 的每个音节，希望软件可以清楚地收录到&ldquo;se-rah&rdquo;。<br />
这次Alexa明白了我妈的意图。 他说&ldquo;这是Doris Day的Que sera sera的歌词。&rdquo;然而它的sera单词发音有些刺耳 ，听起来更像&ldquo;se-raw&rdquo;。<br />
《Kiss your ass era》是首1964的老歌。Alexa能识别我妈出语音和意图，让她高兴了好一阵子。<br />
来源:&nbsp;虎嗅网&nbsp;<br /></p>
		<p><a href="https://wap.ikanchai.com/?action=comment&amp;contentid=130538">共有评论0条</a></p>
	<p>
	<p>相关推荐</p>
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=269610">小米IOT演示不幸翻车了，小米语音又闯祸了，真是不省心啊</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=264615">语音的未来：智能耳机和它所代表的新纪元</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=261389">A16Z创始人预测未来科技：语音之重要重于泰山</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=247134">藏在机器嗓音里的赛车场：我们离完美的AI之声还有多远？</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=210199">硬普及和软开放：移动AI下沉的两个节点</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=207913">语音“淘宝”或将全面爆发，阿里京东撒币死磕！</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=180510">视频直播严控后，色情擦边球在语音直播沉渣泛起</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=160667">除了智能音箱 语音助手将从这五领域深入</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=159294">电台“衰败”，但语音直播会是门好生意吗？</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=151103">下个十亿级用户的风口在视频和语音，互联网文本输入时代将终结</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=128817">当高德地图遇上高晓松，“双高CP”玩转跨界合作</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=125802">不仅听话还要会交流 未来家电发展以语音为尊？</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=122970">出门问问与小米伙伴变仇家,语音AI创业公司艰难行进</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=120565">运营商的“下半场”：放弃语音，发力流量</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=112015">用微信发语音就是情商低和不礼貌的表现？</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=111913">用微信发语音就是情商低和不礼貌的表现？</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=109075">巨头暗战智能语音交互，实时翻译为何成又一个风口</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=108200">智能互联网时代来临，最先爆发的AI应用会是语音吗？</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=101983">从“知音”看搜狗人工智能之道:深耕智能语音交互</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=95027">流量超过语音收入，运营商离真正流量经营有多远</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=88742">微软纳德拉：自然语言对话将淘汰菜单，成为APP用户界面</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=82455">被互联网女皇看好的语音，将成为巨头争夺的焦点</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=67177">语音不只是消灭键盘，而是要改变人机交互之道</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=62469">美调查称手机语音助理功能有限 危机时刻难驰援</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=40321">捷通华声灵云声纹识别技术服务CTI领域</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=17834">爱立信推WiFi语音技术，国际漫游费或无？</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=17076">Android官方语音功能来了，Siri你好~</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=17066">百度语音架构师获全国劳模映射出什么？</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=16428">WhatsApp iOS版更新，正式推出语音通话功能</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=15269">HTC 新作M9+主打用户体验 Hidi语音助手将持续效力</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=13874">FaceBook推出免费语音呼叫服务,运营商们是否感到忧虑？</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=9969">智慧语音何时才能颠覆人机交互模式？</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=9008">爆料！你说不知道的Whatsapp语音通话</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=8250">暴利之下 运营商绝不会放弃语音业务</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=8219">传统语音业务将死，网络语音获新生</a><br />
		</p>
<p><anchor title="返回"><prev/>&lt;返回</anchor><br /><br /><a href="https://wap.ikanchai.com/" title="返回首页">&lt;返回首页</a></p>
<p align="center">Copyright CmsTop.com<br />2026年04月19日 18:36:02</p></card>
</wml>