无障碍
x

全部频道

科技> 正文

先声夺人

2021-04-08 05:52 北京日报

来源标题:先声夺人

在电脑屏幕上,手指往上一划,播放出来的声音尾音扬起,似少年般俏皮清亮起来;手指往下一扫,尾音变成降调,声音也瞬间沉稳了……这只是智能语音领域里一个简单的小技术。

一个人无聊时,和人工智能设备聊聊天,它听得懂,还会回答你“无理取闹”的问题,这是智能语音在发挥作用;用微信说一段话,先转换成文字再发送给对方,这种礼貌靠智能语音就能轻松实现。当然,如果你能邀请海绵宝宝录上300句话,智能语音就能模拟出它的音色、语速,每天陪你聊天,这也是智能语音的研究领域。

声音,在智能加持下,愈发迷人。而这背后,是一群研究人员默默读声、辨声、拟声。杨明祺是其中的一位,他所在的猿辅导人工智能实验室研究团队,刚刚斩获了2021年声学、语音和信号处理国际会议(ICASSP2021)的信号处理挑战旗舰任务——多说话人多风格音色克隆大赛(M2VoC)子赛道第一名。这表明,我国在智能语音的部分关键核心技术和应用上取得了重要进展。

声声入耳

今年1月29日,还有不到一周就是小年儿了,杨明祺和同事守在电脑前,点下发送键,正式提交了2021年声学、语音和信号处理国际会议(ICASSP2021)的信号处理挑战旗舰任务——多说话人多风格音色克隆大赛(M2VoC)的参赛作品——一段语音合成音频。

当天,杨明祺给在承德老家的父母打了个电话:不回家过年了。一方面是响应防疫要求,另一方面也因为工作忙。“家人都理解,也支持。”他顿了一下,自己加了一句解释,“我努力的方向是能模拟出有温度的声音,让家人的声音变得可以随身携带。遇到类似情况,可能就会给更多人带去温暖。”

杨明祺和人对话时,有着自己特有的“职业病”——会贴心地将专业术语翻译成白话:“语音合成(TTS)简单地说,就是输一个文本给电脑,然后它产生一个语音。在日常生活中,我们经常会惊叹于手机的语音助手、智能机器人能够‘说出’非常逼真、自然的话,几乎可以以假乱真。但这种令人惊叹的能力其实是通过单一说话人的大量语音数据集‘训练’而成的。我们此次参赛,是要挑战多说话人和多风格的语音合成,特别是在可利用资源极少的情况下,尽可能让语音的质量、发音准确率、和目标说话人的相似度这几个方面都令人满意。”

作为国际语音领域为数不多的顶级会议,M2VoC挑战赛为参赛者提供了一个通用的数据集以及一个公平的测试平台。参赛者需要做的,是利用大赛提供的声音样本和平台,研究并完成语音克隆任务,包含少样本赛道和极少样本赛道两个任务。杨明祺团队参加的是极少样本赛道中的子赛道,他解释说:“在比赛中,主办方会提供3个具有不同讲话风格的目标说话人,每个说话人有5个语音数据样本。我们要做的,就是对这3个目标说话人的声音进行克隆,形成音频,用于最终测试。在最终测试环节,主办方会对收集到的语音合成系统进行评估,系统转化的语音与样本相似度越高,发音越准确,得分就越高。”

如果将这场比赛描述得再刺激一点儿,就是杨明祺和团队其他4名同事要从主办方提供的仅有的5句样本中,抓取到尽可能多的声音特色,再原汁原味地“复刻”它。而正常情况下,拷贝一个声音,大约需要有300句语音样本进行校验、建模和测试。“一般来说,正常数量的样本是300句、半个小时左右的语音,而少样本只有100句,我们挑战的极少样本仅有5句。”

如此苛刻的条件,杨明祺和团队的备赛时间却只用了1周左右。他还没解释,就先笑着卖了个关子:“因为有外援。”

与来自科研院所、高校的参赛队伍不同,杨明祺和团队在比赛期间并不能全身心投入研究,他们还有很多日常工作需要完成,但正是工作中点滴积累的经验帮了大忙。“这次参赛算是我们研究团队的一次检验考,备赛的大部分模块使用的都是日常工作中小组共同设计完成的产品,这些‘养熟’的模型就是最佳外援。”

聪者听于无声,明者见于无形。幕后的努力,往往是研究人员鲜少提及的,因为在他们眼里这是一件再普通不过的事儿。在追问下,杨明祺说,“养熟”一个模型,背后需要积累的数据样本是几十人到上百人的声音解读。“时间越长越好,这样抓取的声音特征就越准确。”他打了个比方,先让100个人说上足够时长的话,来养成一个模型,当模型足够成熟,可以快速准确抓取和识别不同声音样本特征了,再加入主办方提供的5句样本,“让模型带着特定的样本‘训练’,合成音频,可以在保证机器‘发音’标准的基础上,让克隆出的声音音色更接近说话人的本声。”

大赛的真人审核时间持续了大约半个月。这期间,所有参赛队伍提交的音频会被打乱,由普通人听完后进行评分。“这种将文本转换成自然语音的一类技术,是智能语音领域的前沿技术,在语音助手、信息播报、有声读物等方面具有重要的应用价值。而且最终都是要服务人的,所以人耳当裁判最公平。”杨明祺说,平时团队在养成模型的过程中,也会请许多人来当检验官,“他们不需要在听力上有任何特长,甚至越普通越好。如果随便一个人都能认可我们模拟的声音,我们的目的就达到了。”

在一次次塑造声音的过程中,杨明祺等人发现,语音合成中的韵律信息至关重要。“韵律把控得好,可以让语音合成效果更加流畅、自然、有节奏感,也算是团队的秘密武器。”杨明祺耐心解释说,毕竟声音是有感情的,读音是否准确、声音是否流畅,千人千感,听得舒服,是一个产品是否过关的关键。

最终,杨明祺和同事们从极少样本子赛道的20多支队伍中脱颖而出,斩获冠军。

“声”临其境

听上去绝对炫酷、科技感满分的智能语音领域,杨明祺选择入行的理由却是:这行够传统。他解释说,自己本科和研究生专业研究方向是信号处理,临毕业时,他才决定“转专业”。理由给得更是简单且真诚——AlphaGo(阿尔法围棋)人工智能机器人在人机对决中获胜的消息,让很多人都希望投身人工智能领域研究。2019年,杨明祺毕业找工作时就是奔着这个方向去的。

“当时,人工智能领域的研究主要包括智能语音、图像识别、自然语言处理几个方向,后两种备受追捧。而智能语音的研究门槛较高,从事的人也比较少,而且使用的算法、技术都是十几年甚至几十年积累起来的,不会像其他领域一样频繁迭代。”他俏皮地总结,这也算是个“偷懒”的选择。

真正入行,靠的也是最传统的方式——公司有师父带,课本是网上的各种研究论文。“我们会给论文作者发邮件,讨论一些问题,绝大部分都收到了回复。有些论文的作者是企业工程师,在不涉及商业机密的前提下,他们会尽自己所能伸出援助之手。这些无声的帮助,让我们觉得特别温暖。”如今,杨明祺也会收到各种邮件,只要是学术研讨类的,他也会无声地传递自己的温暖。

杨明祺清楚地记得,自己接到的第一份作业——给声码器加速。“简单来说,我们做的语音合成,就是两个过程。第一个过程是分析声音,标注特征,形成文本。第二个过程是用声码器,按需输出,生成新的声音。”他用手比划着解释,正常情况下,声码器翻译一段话要从头到尾进行运算,相当于电路中的“串联”,这种方法耗时较长。由他设计改进后,把一段话分解成几段,同时并行运算,最后合成,相当于“并联”,节省了运算时间,“虽然是个小改动,但是研发效率提高了,获得了团队内部一致好评。”

其实试想一下,最简单的TTS,就是读文本,曾经有官方发布过数据,目前汉字的总数已经超过了8万个,而常用的只有3500字。如果找人将这3500个字都念一遍,然后拼字组句,也可以实现“智能输出”。不过现实生活中,每种声音都有自己的“脾气”,而这些也成了研发人员需要攻克的难题,其中最令杨明祺头疼的是识字。帮助机器识字,需要研发人员将每一句话翻译成机器能够看懂的语言。最常用的方法就是把所有字都转换成汉语拼音。这背后花费的精力,是杨明祺等研发人员鲜少提及的。

多音字,是他们面对的头号难题。“一开始真没有想到,一段话会有那么多的多音字。”杨明祺说,一次合成音频时直接就露了怯。第一批音频出来之后,阴阳怪调,仔细一听发现是多音字惹了篓子。他举例,最简单的“一”字就有好多个音:一个人,读二声;一只碗,读四声;一二三四,读一声。

类似的例子,在日常讲话时习以为常,但在严格按规章办事的程序世界,这就成了一件棘手的事儿。杨明祺等人最初设计的程序,只是简单按字典标注的汉语拼音给每个字注音,后来考虑到多音字问题,团队开始给程序增写规矩。攻关过程中,一遍遍重复听音频、抠字音,让杨明祺对声音格外敏感。其他团队成员没意识到的小问题,都成了他特别关注的点,甚至细到“口语需要的变音”。他解释说:“比如‘你好’这个词,按照标准拼音,这两个字都是三声,但更多时候我们会自然而然地把‘你’字读成二声。”

还有标点符号的处理,数字、字母的处理,这些都需要用各种细致的规范来完成。当然,还包括分词断句的技术。解决办法,在他的描述下也变得很简单:不断试错,尝试了各种办法,反复调整模型,直到效果被人耳认可。

“我们希望合成的语音不仅准确,还能实现让人‘声’临其境的感觉。”杨明祺说,除了成人用户,合成语音在智慧教育方面的应用也越来越广泛,面向正在成长阶段的儿童和学生,如果读错音会对他们产生误导,所以团队对发音的正确率抠得特别严。

“声”而有用

如今,和杨明祺并肩作战的研发同事有二三十人。而5年前,这个团队才只有4个人。夏龙是元老,现在是猿辅导人工智能语音实验室负责人。他回忆,2016年他从广告推荐小组离开,开始“零起点”攻坚智能语音研发。

“4个人没有一个是智能语音专业的,突然转到语音组,能做什么、怎么做,大家都有点儿蒙。”夏龙很坦诚地说,开始多少带着点儿不情愿,但团队已经建起来了,只能硬着头皮往上冲,“我开始带着大家天天啃论文,进行头脑风暴……学着学着,发现智能语音还挺好玩儿的。”

建组半年后,第一个任务来了——研发一个古诗词背诵检测系统。而这个创意来自同事的一次抱怨:“孩子背古诗,家长得守在边上监督,逐字逐句地检查。要是有个工具能自动检查就好了,给家长老师都减减负。”

听者有心。夏龙决定用这个应用场景,检验一下半年的学习成果。

第一步是教电脑“背诗”,这是个大工程。中小学语文课本涉及的所有古诗词背诵篇目,首先要找到专业的语文教师一首一首地准确朗读出来,并逐字标注正确的拼音,再由夏龙团队将每一个拼音转化成代码语言。

在研发过程中,为了检查电脑学会的篇目是否准确,夏龙和同事还会时常扮演一下学生的角色,帮助机器进行自测。“背诵诗词的时候,我们每发出一个字的读音,就会被系统自动识别,并和它已经记住的字音进行比对,如果出现字音错误、漏读等问题,显示器上会实时将错误的地方标红。”夏龙打趣说,上学时候都没这么认真背过课文,真的是学了不少知识。“比如李白的《将进酒》,‘将’字一直以为是读jiāng,后来被系统纠错了,原来正确的应该念qiāng。”

一个月后,夏龙团队研发的第一款智能语音产品顺利投入应用。之后一年,团队根据用户反馈情况,对产品进行了迭代升级,诗词背诵检测准确率不断提高。夏龙笑言:“我们团队的诗词水平直线上升。”

人工智能语音实验室的阵容也不断扩大。如今,团队成员有30人,平均年龄28岁左右,每个人都有各自擅长的研究领域,读声辨声变得更专业。

最令夏龙自豪的是,每逢中高考语文考试前一天,古诗词背诵检测系统的用户需求尤为明显,“我们得加机器才能完成庞大的运算量。”

这种“声”而有用,还体现在很多地方。杨明祺举例说,以前如果找国外的教师来录制英语听力素材,由于时差等原因,一来一回,制作周期需要一周左右。如果后期有修改,反反复复的时间会更长。但现在通过智能语音模型,一段大约3分钟的文本,几秒钟时间就可以实现语音转换,而且保证原汁原味。

杨明祺给自己设定了今年的研究方向——为声音赋情。他说,想比较完整地合成一种个性化的声音,至少需要300句话、半个小时以上的声音样本,才能让电脑学会,以后看到任何文本,都能自然而然地用这个声音读出来。这个过程并不是简单地找样本、建模型、跑数据就可以出成果的。

“比如有些场景需要声音情感饱满度高一点,有的时候希望用一个小男孩清脆一点的声音,有的时候希望要一个温柔一点的语气。而每一个需求,都需要幕后有匹配的人去录制声音样本。以目前业界现有的技术,对声音情绪进行调整,基本需要逐字去操作,工程非常繁琐。”杨明祺说,我们希望可以最终实现“一键调节”,甚至连高兴、悲伤的等级都可以设定,不过辨别声音里的情绪,给这些看不见摸不着的感觉下指标,难度可想而知。“这是我们努力的方向。”

每天虽然面对着冷冰冰的电脑,研发人员的心却比谁都细致、柔软。夏龙说:“如果眼光放长远一些,随着人工智能和其他前沿技术的进步,可能会给社会带来更多积极影响。”可预见的未来,有情感的声音能够被进一步应用到教育、医疗等行业和领域中,可以服务配音合成、智能出题、智能客服诸多应用场景,不断刷新行业效率。

人工智能技术还可以打破地域资源的限制,让农村地区的孩子也可以享受和城市孩子一样的教学,和“外教”交流,学习纯正的发音。杨明祺说:“我们可以通过语音合成、智能语音评测技术,开发语言教学系统,构建标准化的语音教学环境,帮助解决农村等边远地区的学科因师资力量短缺而难以开展的问题。”

夏龙说,让机器学会特定声音,需要花费大量的时间,其中需要工程师做大量的“标注”工作,帮机器完成学习。他和团队正在探索和努力的方向,是要用尽可能少的人力、物力成本,加快机器学会发声的进度,让声音更智能。

责任编辑:詹雨泉(QZ0018)作者:李祺瑶 刘冕

为你推荐

加载更多

北京千龙新闻网络传播有限责任公司版权所有 未经千龙新闻网书面特别授权,请勿转载或建立镜像,违者依法必究新出网证(京)字013号 增值电信业务经营许可证 2-2-1-2004139 跨地区增值电信业务许可证

信息网络传播视听节目许可证0104056号 互联网新闻信息服务许可证11120180003号 京公网安备 11000002000007号

分享到:
QQ空间 新浪微博 微信 腾讯微博 QQ好友 百度首页 腾讯朋友 有道云笔记