微软与浙大开发出新AI模型解决语音助手卡顿问题

雷锋网消息,在 12 月 8 日至 14 日于温哥华召开的机器学习顶会之一 NeurIPS 2019 会议上,微软和浙江大学研究人员介绍了文本-语音模型 FastSpeech,该模型可大幅提升文本语音转换过程中梅尔谱的生成速度,语音生成速度比基线快 38 倍。

目前,Google Assistant 语音助手及最近出现在 Alexa 和 Amazon Polly 服务中的新闻播音员的语音乍听上去几乎与人声无异。事实上,这些语音助手都是由文本-语音模型提供支持的。

研究团队表示,FastSpeech 的质量几乎与谷歌的 Tacotron 2 文本-语音模型相当,在稳定性上轻松超过主流的 Transformer 模型。同时,与基线的 34% 有效错误率相比,FastSpeech 的有效错误率为零。(但不可否认的是,其稳定性测试只涉及 50 个语义复杂的句子) 此外,FastSpeech 能在保持准确度的前提下,将生成的语音速度从 0.5 倍变为 1.5 倍。

更多相关资讯请关注:凤凰点专区

雷锋网原创文章,。详情见转载须知。

速度慢:端到端模型通常以自回归方式生成梅尔谱,再通过声码器合成语音,而一段语音的梅尔谱通常能到几百上千帧,导致合成速度较慢; 稳定性差:序列生成的错误传播及注意力对齐不准,会导致出现重复吐词或漏词现象; 缺乏可控性:自回归的神经网络模型自动决定一条语音的生成长度,不易控制语速或韵律停顿等。

因此,研究团队表示,FastSpeech 兼具快速、鲁棒、可控等特点。

《凤凰点》有很多有趣的想法,可以为回合制策略游戏的复兴做出贡献,但是其中许多内容都需要改进和平衡。 处理派系关系和限制敌方各个身体部位之类的设计非常好,并且可以在复杂性与库存管理之间取得很好的平衡。 同时,在任务多样化和基地建设等一些方面,它表现得很糟糕。游戏后期梦呓谵妄指数的突然上涨非常严重且不平衡,再加上缺乏打磨,《凤凰点》仍处于一种实验性且未经改进的状态。但是可以肯定的是,这是一个有趣的实验。

但是,这种合成方法存在着一些不可避免的问题,主要包括:

论文的最后,研究团队也提到,未来将把 FastSpeech 和速度更快的声码器组合成单一模型,提供完全端到端的文本-语音解决方案。

更为重要的是,FastSpeech 包含长度调节器,可协调梅尔谱序列和音素序列(即感知度不同的声音单位)之间的差异。

为解决这些问题,微软(亚洲)互联网工程院语音团队联合浙江大学提出了一种新的机器学习模型 FastSpeech,并在论文《FastSpeech:快速、强大且可控的文本-语音模型》中详细介绍了该模型。另外,值得一提的是,该论文已被温哥华 NeurIPS 2019 会议录用。

在当下,基于神经网络的端到端文本-语音合成技术发展迅速,大多数模型的合成方法为:从文本生成梅尔谱(Mel-Spectrogram,即一种展示声音功率的光谱图),然后使用声码器(分析和合成语音信号的编解码器)合成语音。

与其他文本-语音模型相比,FastSpeech 模型架构较为独特,且有着更佳的性能(其梅尔谱生成速度比基线快 270 倍,语音生成速度比基线快 38 倍)。不仅如此,它还能够避免了单词跳过等错误,还支持精细调整语速和单词中断。

为验证 FastSpeech 的有效性,研究人员将其与开源的 LJ Speech 数据集进行了对比,该数据集包含 13100 个英语音频片段(相当于 24 个小时的音频)和相应的文本转录。在将数据集随机分成用于训练的 12500 个样本、用于验证的 300 个样本和用于测试的 300 个样本后,他们对语音质量、稳定性等进行了一系列评估。

简单来讲,由于音素序列的长度总是小于梅尔谱序列长度,一个音素对应多个梅尔谱。而长度调节器会根据持续时间,扩展音素序列以匹配梅尔谱序列长度(一个补充时长预测器组件确定一个音素的时长)。 增加或减少与音素或音素持续时间匹配的梅尔谱数目,可成比例地调整语音速度。

budikoral.com

Related Posts

Read also x