开源的文字转人声的大模型【输出】
由 Google Brain 团队开发的端到端的文本到语音合成模型。它使用深度学习技术,将输入的文本转换为自然流畅的语音输出。GitHub 仓库:https://github.com/NVIDIA/tacotron2。
·
Tacotron 2:
由 Google Brain 团队开发的端到端的文本到语音合成模型。它使用深度学习技术,将输入的文本转换为自然流畅的语音输出。
GitHub 仓库:https://github.com/NVIDIA/tacotron2
WaveNet:
由 DeepMind 开发的深度生成模型,用于语音合成任务。WaveNet 基于深度卷积神经网络,能够生成高质量、逼真的语音音频。
GitHub 仓库:https://github.com/deepmind/wavenet
FastSpeech:
一种快速而高效的端到端文本到语音合成模型。FastSpeech 使用自注意力机制和转换器架构,能够生成高质量的语音输出。
GitHub 仓库:https://github.com/mozilla/TTS/tree/master/examples/fastspeech
Mellotron:
一种基于 Transformer 和 WaveNet 的端到端多说话人语音合成模型。它能够根据输入的文本和说话人特征生成逼真的语音输出。
GitHub 仓库:https://github.com/NVIDIA/mellotron
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐



所有评论(0)