最新公告
  • 欢迎来到我的柏昊音乐博客,每天签到领取1积分,免费下载!最新公告
  • 语音合成的出现已经有一段时间了,大家最熟悉的也许就是斯蒂芬·霍金的语音合成机器人了。这项技术这变得更加复杂和真实,近期康奈尔大学的研究团队完成了一个项目 — 只需要一段 5 秒的人声语音样本,他们的语音合成器就能生产完整的语音字符,甚至可以应用于其他语言。

    语音合成技术重大突破,只需 5 秒就能克隆别人的声音插图

    该团队开发了一种基于神经网络的文本到语音(TTS)合成系统,该系统能够生成许多不同说话者的语音音频,包括那些在人工智能训练期间没有囊括的语言。他们的系统由三个独立训练的组件组成:

    1. 说话人编码器网络,使用来自数千名没有抄本的说话人的有噪语音的独立数据集进行说话人验证任务的训练,从来自目标说话人的几秒钟的样本语音生成固定维度的嵌入向量。
    2. 基于 Taco tron 2 的序列-序列合成网络,它根据说话人嵌入的条件,从文本生成 MEL 语谱图。
    3. 基于自回归 WaveNet 的声码器,其将 MEL 谱图转换为时域波形样本序列。

    原 Youtube 连接:https://youtu.be/0sR1rU3gLzQ

    该语音合成器的核心技术是谷歌的 Taco tron 端到端语音合成,结合了神经声码器技术,以生成语调和细微差别。这项技术经过了数千个语音样本进行训练,但尚不清楚生成合成语音需要多长时间 – 例如,它接近实时,或者需要大量的计算资源和时间。

    但它的结果真的非常惊人,它甚至还能够进行跨语言的语音克隆,还能生成非母语语音,甚至在不同程度的口音控制下的语气…. 总而言之,只需要一段 5 秒的音频样本,这个语音 AI 完成可以模拟一个人的说话方式。

    感兴趣的小伙伴可以在官方页面查看该语音合成系统的效果:

    https://google.github.io/tacotron/publications/speaker_adaptation/

    令人好奇的是,这项技术是否可以应用到唱歌上?

    免责声明
    1、本站所有资源来源与网络,不提供任何技术支持和安装服务。请知晓!
    2、本站仅提供学习的平台,所有资料均来自于网络,版权归原创者所有!
    3、在本站下载的资源请在24小时内删除,仅提供学习测试,长期使用请购买正版!
    4、资源使用后造成的一切后果,由用户自行承担,本站并不承担任何法律责任!
    5、如发布的资源侵犯了您的合法权益,请提供相应的资质证明,发送到1939406727@qq.com,我们将于24小时内予以删除。
    柏昊音乐俱乐部 » 语音合成技术重大突破,只需 5 秒就能克隆别人的声音

    常见问题FAQ

    解压密码是什么?
    复制粘贴,并打开这个链接:https://support.qq.com/products/144702/
    台湾和新疆地区无法打开?
    台湾和新疆地区百度网盘被屏蔽,请自行用代理访问即可正常打开下载地址
    链接失效怎么办?
    通过QQ客服,发送本网站链接,进行补链
    版权问题
    如果不小心侵犯了你的版权,请告知我们1939406727@qq.com
    • 972会员总数(位)
    • 688资源总数(个)
    • 6本周发布(个)
    • 0 今日发布(个)
    • 302稳定运行(天)

    升级SVIP尊享更多特权立即升级