开源文本到语音系列，开源TTS系列，Text-to-Speech系列

Dia，开源的文本转语音模型，可以调节音频的输出，从而启用情感和语气控制，可以产生非语言交流，如笑声、咳嗽、清嗓子等。

Github地址：https://github.com/nari-labs/dia

详细与演示：https://www.52wts.cn/7244.html

Orpheus TTS,基于 Llama-3b 构建的开源文本转语音模型。

Github地址：https://github.com/canopyai/Orpheus-TTS

详细与演示：https://www.52wts.cn/6536.html

Spark-TTS，基于 Qwen2.5 构建文本转语音系统，支持中英文，并具备跨语言、代码切换场景的零样本语音克隆能力。

Github地址：https://github.com/SparkAudio/Spark-TTS

详细与演示：https://www.52wts.cn/6235.html

IndexTTS，B站开源的文本到语音（TTS）模型，可以使用拼音纠正汉字的发音，并通过标点符号在任何位置控制暂停。

Github地址：https://github.com/index-tts/index-tts

详细与演示：https://www.52wts.cn/6123.html

Zonos，开源的TTS模型，允许对说话速度、音高变化、音频质量以及快乐、恐惧、悲伤和愤怒等情绪进行精细控制。

Github地址：https://github.com/Zyphra/Zonos

详细与演示：https://www.52wts.cn/5839.html

chatTTS是一款强大的对话式文本转语音模型，它有中英混读和多说话人的能力，可以配置为中文，英文，日文等六种语言。

Github地址：https://github.com/2noise/ChatTTS

详细与演示：https://www.52wts.cn/1673.html

ToucanTTS，开源的文本转语音，支持超过7000种语言的语音合成，具备多说话人语音合成功能，能够模拟多种说话人的节奏、重音和语调。

Github地址：https://github.com/DigitalPhonetics/IMS-Toucan

详细与演示：https://www.52wts.cn/2062.html

Fish Speech，完美支持中英日语言的开源TTS模型，语音处理接近人类水平，模型使用约十五万小时三语数据训练，对中文支持非常的完美。

Github地址：https://github.com/fishaudio/fish-speech

详细与演示：https://www.52wts.cn/2106.html

FunAudioLLM，阿里开源的TTS模型，人与人LLMs之间自然交互的语音理解和生成。

Github地址：https://github.com/FunAudioLLM

详细与演示：https://www.52wts.cn/2174.html

Parler-TTS 是一种轻量级文本转语音（TTS）模型，可以按照给定说话者的风格（性别、音调、说话风格等）生成高质量、自然的语音。

Github地址：https://github.com/huggingface/parler-tts

详细与演示：https://www.52wts.cn/2742.html

F5-TTS，上交大/剑桥开源的TTS，零样本声音克隆，推理实时率达到0.15，支持控制语音速度，支持无缝在不同语言/方言间平滑过渡。

Github地址：https://github.com/SWivid/F5-TTS

详细与演示：https://www.52wts.cn/3828.html

MaskGCT，零样本文本转语音，完全非自回归的 TTS 模型，支持跨语言翻译配音、语音克隆、语言转换、情感控制等。

Github地址：https://github.com/open-mmlab/Amphion/tree/main/models/tts/maskgct

详细与演示：https://www.52wts.cn/4133.html

Smol TTS，开源的基于 LLaMa 架构构建的TTS 模型，零样本语音克隆。

Github地址：https://github.com/edwko/OuteTTS

详细与演示：https://www.52wts.cn/4332.html

Kokoro，开源的TTS模型，8200 万个参数，在 <100 小时的音频上进行训练，支持多种语言。

Github地址：https://github.com/hexgrad/kokoro

详细与演示：https://www.52wts.cn/5495.html

OuteTTS，开源的文本到语音模型，支持六种语言，英语（en）、日语（jp）、韩语（ko）、中文（zh）、法语（fr）和德语（de），通过添加标点符号支持，显著增强了语音合成的自然性和连贯性，提高了生成语音的流畅性和清晰度。

Github地址：https://github.com/edwko/OuteTTS

详细与演示：https://www.52wts.cn/5554.html

Llasa，开源的零样本语音克隆和 TTS 模型，可以仅从输入文本生成语音，或者利用给定的语音提示生成语音。

模型下载地址：https://huggingface.co/HKUSTAudio/Llasa-1B

详细与演示：https://www.52wts.cn/5668.html

微信扫描下方的二维码阅读本文

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

开源文本到语音系列，开源TTS系列，Text-to-Speech系列

评论(0)

提示：请文明发言取消回复

每日推文

开源文本到语音系列，开源TTS系列，Text-to-Speech系列

相关文章

基础项目实战篇三：用DeepSeek+Bolt.New+V0 15分钟写一款AI生图与修图工具基本框架

商业项目实战篇二：基于落地页Prompt，利用V0/Bolt New生成高转化率落地页

商业项目实战篇四：用Cursor接OCR API，网站PDF转MD超简单

开源版Manus，开源的Manus替代方案，开源的Agent智能体

评论(0)

提示：请文明发言 取消回复

标签云

每日推文

提示：请文明发言取消回复