开源的文字转人声的大模型【输出】

由 Google Brain 团队开发的端到端的文本到语音合成模型。它使用深度学习技术，将输入的文本转换为自然流畅的语音输出。GitHub 仓库：https://github.com/NVIDIA/tacotron2。

海边de曼彻斯特 · 2023-12-22 16:22:00 发布

Tacotron 2：

由 Google Brain 团队开发的端到端的文本到语音合成模型。它使用深度学习技术，将输入的文本转换为自然流畅的语音输出。

GitHub 仓库：https://github.com/NVIDIA/tacotron2

由 DeepMind 开发的深度生成模型，用于语音合成任务。WaveNet 基于深度卷积神经网络，能够生成高质量、逼真的语音音频。

GitHub 仓库：https://github.com/deepmind/wavenet

一种快速而高效的端到端文本到语音合成模型。FastSpeech 使用自注意力机制和转换器架构，能够生成高质量的语音输出。

GitHub 仓库：https://github.com/mozilla/TTS/tree/master/examples/fastspeech

一种基于 Transformer 和 WaveNet 的端到端多说话人语音合成模型。它能够根据输入的文本和说话人特征生成逼真的语音输出。

GitHub 仓库：https://github.com/NVIDIA/mellotron

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

替你试过了，消费级显卡可以跑的开源文生图SOTA模型，顶级渲染、高密度文本绘图

量化挑战赛冠军专访：4小时啃下W4A8量化，我靠的是这些经验

「极限压缩量化未来」Modelers GeekDay上海站圆满落幕

查看更多评论

已为社区贡献1条内容