<?xml version="1.0" encoding="UTF-8"?><!DOCTYPE wml PUBLIC "-//WAPFORUM//DTD WML 1.1//EN" "http://www.wapforum.org/DTD/wml_1.1.xml">
<wml>
<head> 
<meta http-equiv="Expires" content="0"/> 
<meta http-equiv="Cache-Control" content="no-cache"/> 
<meta http-equiv="Pragma" content="no-cache"/> 
</head>
<card title="用 AI 克隆语音，人和自己“对话”的障碍在哪？_砍柴网">
	<p><a href="https://wap.ikanchai.com/">首页</a> &gt; <a href="https://wap.ikanchai.com/?action=category&amp;catid=5">科技快报</a> &gt; <a href="https://wap.ikanchai.com/?action=category&amp;catid=16">业界</a> &gt; </p>
	<p align="center"><big>用 AI 克隆语音，人和自己“对话”的障碍在哪？</big></p>
	<p align="right">2018-03-09 15:14</p>
	<p><p align="center"><img src="http://upload.ikanchai.com/2018/0309/1520579640159.jpg" /></p><br />
如果有一天，你可以将你的声音通过人工智能技术&ldquo;克隆&rdquo;出来，而且你还能和&ldquo;你&rdquo;进行各种对话，你是否愿意尝试？<br />
这个场景并不遥远，不久前，&ldquo;AI&nbsp;First&rdquo;的谷歌表示，其最新版本的人工智能语音合成系统&mdash;&mdash;Tacotron2合成出来的语音几乎和真人声音一模一样。它拥有两个深度神经网络，第一个能够将文本转化为频谱图，第二个则负责将频谱图生成相应的音频。<br />
而麻省理工评论则认为百度的技术则更进一步，百度在最近发布的新论文中表示，该技术只要通过一个半小时的语音数据的学习，就能&ldquo;克隆&rdquo;出原对象的声音。<br />
虽然以前百度的&ldquo;Deep&nbsp;Voice&rdquo;也能够生成语音，但让生成出来的语音附带不同的语言特色正是语音生成的一大突破，而且它除了能&ldquo;克隆&rdquo;之外，还能对该声音的性别或口音进行更改，甚至还能赋予该克隆声音一些简单的情感。<br />
语音克隆技术是什么？又能做些什么？<br />
语音合成技术有三种，但只有AI技术才称为语音克隆<br />
最早的语音合成技术通过预先录制好的字词、短句来实现的，把各个部分串成一行，以此产生完整的句子。生活中各种服务热线的自助语音系统就是用这种方式实现的，所以会经常存在卡顿，音色不一样等问题，语气也很冰冷。<br />
第二种手段虽然能够使语音更加自然，但其中也需要大量的人工处理，首先是制作语音库，确定音色、风格、特性、角色等要求后，投入音库生产线，设计录音脚本、训练录音资源、进行效果优化，在输出的时候还要进行各类语言处理，包括文本规整、词的切分，然后是韵律处理，为其划出音段特征，如音高、音长和音强等等，使合成的语音给人的感觉更加自然些。<br />
但这类合成系统因为进行韵律预测处理方面的工作量巨大、所以也存在表现能力不足等问题，如合成语音对不同情感的表达会不够恰当，使得合成语音听起来缺乏人情味。而语音合成的技术发展不仅要让说话的声音达到真人水准，也应当在情感表达方面有所突破，使语音交互带有情感，达到更好的交流体验。<br />
最近爆出的百度Deep&nbsp;Voice技术，则是通过深度学习技术实现&ldquo;语音克隆&rdquo;的，通过真实语音的训练，能在&ldquo;听&rdquo;的过程中学会每个人说话时字词、音位和句子的发音特点，并通过模仿这个人声音中的情感和语调，&ldquo;说&rdquo;出全新的语句；&ldquo;一听一说&rdquo;之间，整个过程基本不用人工干预，深度学习技术可以自行完成所有工作。<br />
具体来说，百度的研究人员是通过两种具体的方法来实现的：说话人适应（speaker&nbsp;adaption）和说话人编码（speaker&nbsp;encoding）。它们可以只用最少的音频数据来完成任务，并且在深度语音系统中，即使处于一个多扬声器模型，也不会降低质量。<br />
其中&ldquo;说话人适应&rdquo;是使用多个克隆样本，基于反向传播的优化方法对多个说话人语音生成模型做精细调节。这个方法可以只作用于低维度的说话人嵌入，或者作用于整个模型；在低纬度的嵌入时，每个说话人所需的参数量比较少，而且需要较长的克隆时间，生成语音的质量也会差一些。<br />
其中&ldquo;说话人编码&rdquo;则需要训练一个单独的模型，用它直接从语音样本中推断出一个新的嵌入数据，然后再把这个嵌入数据用在多个讲话人语音生成的模型中。<br />
而且这个方法还带有时域和频域的处理模块，可以从音频样本分析中提取到有关说话人的身份信息，然后用注意力模块把各种信息以最优的方式结合起来。这个方法的好处是克隆耗时少、标明说话人信息所需要的参数少，使得这种方法在输入资源有限的场景中也能够使用。<br />
<p align="center"><img src="http://upload.ikanchai.com/2018/0309/1520579640709.jpeg" /></p><br />
语音克隆的功与过<br />
在人机交互的个性化场景中，研究人员预期语音克隆可能会有很重要的作用，如可以用来订制个人AI助手、读书音频以及残疾人语音系统等，且对有语言障碍人来说，这个程序能帮助他们练习发声，使他们更容易与人交流，这种过程就像是在和一个善解人意的朋友在聊天一样，可能会成为一个重要的社交工具。<br />
而在心理医疗领域，如果能复原出逝者的声音，这对于痛失亲人后在心理上造成了创伤的人们来说，也无疑是巨大的安慰。<br />
不过语音克隆也会带来一些麻烦，它可能会被用来对公众人物进行恶意攻击；也可能会使声纹识别形同虚设，因为据《新科学家》报道，使用人工智能技术做出声音识别软件，在测试中，准确率已经超过了95%。<br />
也可能破坏录音作为法律证据的可信度；还可能会用来假冒他人身份，成为语音诈骗的帮凶。它预示着未来的声音可能会像照片一样，可以很容易地进行伪造。<br />
但克隆出的人类声音，这其中还是会有些细微差别，经不起详细推敲&mdash;&mdash;取证专家可能会通过分析语音中的数字签名，从而证明其为合成语音。<br />
而研究人员也开始在研究一种&ldquo;声纹&rdquo;系统，以期其能很容易的分辨出原声和生成的语音；不过语音克隆还是存在着很多隐患，因为在普通的生活当中，足以造成相当严重的误导性效果。<br />
<p align="center"><img src="http://upload.ikanchai.com/2018/0309/1520579640281.jpeg" /></p><br />
实现&ldquo;完美&rdquo;的语音克隆，最大一道坎在哪？<br />
智能相对论认为，完美的语音克隆，也应该能够克隆出说话人携带的情感，而不仅仅是音色等表象的元素，就像是这个声音拥有自己的灵魂。而目前语音克隆能够进行的情感表达，更多的是研究人员修改完成的，而且还需要对各类情感进行标注。<br />
谷歌的Tacotron2系统也还只能进行模式化的情感表达，如根据输入文本的标点符号的不同而在语气上有所区分；在读大写单词时加重语气等。<br />
百度和谷歌的语音合成技术暂时不能达到自行合成情感，这也是语音克隆其技术本身所限，要实现合成出的每一句话有其恰当的情感，这里面有情感识别、情感自动标注、语气调整等大量的数据和工程难度，费用和技术也暂时难以逾越。<br />
而更进一步，想要和机器进行有情感语音的交互就更加困难了，因为这并不是单一技术所能完成的，它除了能输出情感之外，还必须要求自然语言处理技术能够识别出人类表达中的各种情感，以此作为回应的前提，而这已经超出了语音克隆的技术范围。<br />
在语音交互中，让机器能够自然、顺畅的说话是人机交互的一大要求，表现力、音质、复杂度和自然度一直是语音合成所追求的。<br />
而随着AI技术的发展，语音交互的音质、流畅度、自然度都得到了很大的提高，但在表现力方面依旧是其最大的痛点，不过随着各大厂商的持续发力，未来使机器也能像朗读者一样，抑扬顿挫、情感起伏、拿捏到位也不是梦想。<br />
【钛媒体作者介绍：作者&nbsp;|王 志，文章来源&nbsp;|&nbsp;智能相对论（aixdlun）】<br /></p>
		<p><a href="https://wap.ikanchai.com/?action=comment&amp;contentid=199945">共有评论0条</a></p>
	<p>
	<p>相关推荐</p>
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=652960">饭碗被端走了！短剧演员成AI技术第一批牺牲品</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=648112">一代股神巴菲特警告AI技术存在失控风险：堪比“核武器”</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=640580">以AI技术破局版权保护难题，三七互娱“灵察察”亮相版博会</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=615450">三星：将在6G中深度整合AI技术以优化网络质量</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=613975">行业首个！吉利智能汽车全域AI技术，可支持500万在线车辆需求</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=591464">英伟达将在中东五国数据中心部署AI技术，首次在当地大规模推出产品</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=580044">联发科与英伟达合作推出 Dimensity Auto 座舱平台，整合 AI 技术</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=567842">微软Copilot AI技术将对中国大陆开放？内部人士：不准确</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=561263">诺基亚宣布将在迪拜开设“创新实验室”，推动AI技术在网络自动化领域应用</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=552697">宝马正利用AI技术降低汽车工厂生产成本，每年节省100万美元</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=552283">因逃票者过多 纽约开始使用AI技术跟踪“不想付钱”的地铁乘客</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=542524"> G7呼吁出台AI技术标准 欧盟再次走在监管前沿</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=542130">苹果被曝限制使用ChatGPT 正开发自主AI技术</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=483008">AI技术“高考通关” 数字人产业价值凸显</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=453813">瑞士研究人员正在利用机器人和AI技术设计并建造一座“空中花园</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=359406">谷歌揭秘自家翻译系统：如何利用AI技术提高翻译质量</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=276514">给手机配上AI技术 拍出的照片真能比肩单反？</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=264967">顺丰幺宝刚：物流订单实现了99%智能化 AI技术作用突出</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=255161">百度李彦宏 中国唯一拥有全套AI技术与产业能力的CEO</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=242315">三星收购AI技术分析公司 Zhilabs，增强 5G 实力</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=217985">Uber新专利曝光 利用AI技术判断乘客是否醉酒</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=209940">尼康打造机器人相机 AI技术自动跟拍运动员</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=206697">消费升级行业洗牌进行时，零售业需紧抱AI“大腿”</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=170680">功能大爆炸，AI技术正在重塑手机的摄像头价值</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=165415">AI技术已到应用时间点 传统企业要尽快行动起来</a><br />
		<a href="https://wap.ikanchai.com/?action=show&amp;contentid=151317">AI技术领先的微软、谷歌，为何输给了亚马逊！</a><br />
		</p>
<p><anchor title="返回"><prev/>&lt;返回</anchor><br /><br /><a href="https://wap.ikanchai.com/" title="返回首页">&lt;返回首页</a></p>
<p align="center">Copyright CmsTop.com<br />2026年04月19日 02:46:16</p></card>
</wml>