当前位置:首页 > 热水器 > 文章正文

运用魔搭开拓自己的语音AI:从入门到精晓

编辑:[db:作者] 时间:2024-08-25 03:39:54

作者 | 袁斌、鄢志杰 阿里达摩院语音实验室

来源 | 阿里开拓者"大众号

运用魔搭开拓自己的语音AI:从入门到精晓

语音AI是最早从实验室走向运用的AI技能,其发展史便是不断创新、解锁运用的历史,从1995年 Dragon Dictate的桌面伶仃词语音识别,到2011年苹果的手机语音助手SIRI,再到当下百花齐放的各种智能语音运用。

由于技能的快速进步,以及各大云打算厂商以API形式供应的语音AI能力,目前开拓者已能便捷利用语音AI去搭建运用。
但API也存在局限性,不少开拓者希望得到更多、更底层的把控力,希望对API背后AI模型有更深入的理解;不但是开拓运用,还可以开拓模型;不但是调用API接口,还可以通过对模型的演习或微调(fine-tuning),以提升实际运用效果。

为了让所有满怀创意的开拓者实现更高水平的创新,在最近推出的魔搭社区ModelScope上,阿里达摩院首批开源开放了40多个语音AI模型,公有云上广受欢迎的付费模型这次也免费开放。
模型背后,我们供应了演习或微调脚本工具链,含盖语音AI各个紧张方向。

下面,就让我们以语音合成、语音识别、语音旗子暗记处理为例,来展示如何玩转魔搭社区的语音AI模型。

一、语音合成

语音合成是将笔墨作为输入,让AI能够将笔墨转换为语音的原子能力。
例如,我们希望AI朗读如下的一段笔墨:

“最当初,他只是以为赛伦看莫颖儿的眼力温顺得超过一样平常父女或是师徒的感情,在不雅观察了一段韶光过后,他才逐渐确定赛伦彷佛很在乎这个少女。

在魔搭社区,可以有两种办法来进行语音合成模型的体验:

第一种办法是利用模型详情页的“在线体验”功能,以最直不雅观的办法对每个语音合成模型进行体验。
这对模型的初步体验和把玩品鉴非常高效。

接下来以“SambertHifigan语音合成-中文-多人预演习-16k”模型为例,先容如何进行在线体验。

模型链接查看文末[1]。

第二种办法是利用编程,通过大略的几行代码,就可以实现自己的语音合成功能,并集成嵌入到详细的运用中去。
这种办法适宜选定喜好的发音人后、进行深度的运用开拓。

魔搭社区供应了免费的CPU算力(不限额)和GPU算力(NVIDIA-V100-16G 限额100小时),供开拓者进行利用,下面我们利用Notebook开拓环境来大略演示如何实现利用代码进行语音合成。

让我们选择CPU做事,稍等几分钟做事启动,我们点击“查看NoteBook”,进入开拓环境,选择启动一个python脚本。

这些语音AI模型都配备了代码示例,我们可以在模型详情页的代码示例中找到:

将该代码进行复制并粘贴至notebook的python脚本当中,我们可以将代码中‘待合成文本’字符串更换成想要的合本钱文,并实行程序,便可以下载天生的音频文件进行试听。

这项语音合成技能背后是达摩院的显式韵律声学模型SAMBERT以及Hifi-GAN声码器的结合。

在语音合成领域,目前以FastSpeech2类似的Non-Parallel模型为主流,它针对基频(pitch)、能量(energy)和时长(duration)三种韵律表征分别建模。
但是,该类模型普遍存在一些效果和性能上的问题:独立建模时长、基频、能量,忽略了其内在联系;完备非自回归的网络构造,无法知足工业级实时合成需求;帧级别基频和能量预测不稳定...

因此达摩院设计了SAMBERT,一种基于Non-Parallel构造的改良版TTS模型,它具有以下优点:

建立时长与基频、能量的依赖关系,并利用自回归构造的时长预测模块,提升预测韵律的自然度和多样性;Decoder利用PNCA自回归构造,降落带宽哀求,支持CPU实时合成;音素级别建模基频、能量,提高容错率;以预演习BERT措辞模型为编码器,在小规模数据上效果更好。

二、语音识别

在魔搭社区上,达摩院语音实验室开放了核心的语音识别模型“Paraformer语音识别-中文-通用-16k-离线”,这是即将大规模商业支配的下一代模型,其演习数据规模达到5万小时以上,通过对非自回归语音识别模型技能的改进,不仅达到当前类Transformer自回归模型的语音识别准确率,而且在推理效率上有10倍的加速比提升。

模型链接参考文末[2]。

在魔搭社区中,语音识别模型与语音合成一样,供应Demo和Notebook两种办法进行效果体验,操作方法请拜会上文,不再赘述。

除了开放最前辈的Paraformer模型之外,语音实验室还免费开放了当红的语音识别模型UniASR,它在公有云上供应商业化的做事,广受欢迎。
UniASR模型含盖了中、英、日、俄等语种,支持8k/16k采样率,可以知足开拓者不同场景的开拓需求。

模型链接参考文末[3]。

三、语音旗子暗记处理

旗子暗记处理也是语音处理的一个主要的技能组成分支,达摩院开源了基于深度学习的反应残余抑制算法。

模型名:DFSMN反应肃清-单麦单参考-16k

模型链接参考文末[4]。

从用户体验角度,一个空想的反应肃清算法要达到以下效果:远端单讲(far end single talk)时零反应透露;近端单讲(near end single talk)时语音无损;双端同时讲话时可以相互听清,也即双讲(double talk)通透。
目前在开源的旗子暗记处理算法当中,双讲时的效果都比较差强人意。
这是由于目前的开源旗子暗记处理算法无法有效区分录音旗子暗记中的反应旗子暗记和近端语音旗子暗记,而且真实通话中双讲涌现的韶光一样平常较短、韶光占比也很低,以是从策略上为了确保零反应透露,只好捐躯双讲时的效果。

点击查看原文,获取更多福利!

https://developer.aliyun.com/article/1103557?groupCode=alitech?utm_content=g_1000365848

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开拓者社区不拥有其著作权,亦不承担相应法律任务。
详细规则请查看《阿里云开拓者社区用户做事协议》和《阿里云开拓者社区知识产权保护指引》。
如果您创造本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将急速删除涉嫌侵权内容。

本站所发布的文字与图片素材为非商业目的改编或整理,版权归原作者所有,如侵权或涉及违法,请联系我们删除,如需转载请保留原文地址:http://www.baanla.com/rsq/103706.html

XML地图 | 自定链接

Copyright 2005-20203 www.baidu.com 版权所有 | 琼ICP备2023011765号-4 | 统计代码

声明:本站所有内容均只可用于学习参考,信息与图片素材来源于互联网,如内容侵权与违规,请与本站联系,将在三个工作日内处理,联系邮箱:123456789@qq.com