Kyutai TTS,开源的用于流式处理文本到语音转换 (TTS) 的模型。
模型地址:https://huggingface.co/kyutai/tts-1.6b-en_fr
详细与演示:https://www.52wts.cn/8230.html
S1-mini,Fish Audio开源的文本转语音模型,支持多种情感、语气和特殊标记来增强语音合成。
模型地址:https://huggingface.co/fishaudio/openaudio-s1-mini
详细与演示:https://www.52wts.cn/7899.html
vui,开源的可以呈现对话的 100M 语音模型,能够进行语音克隆的 40kh 基础微调。
Github地址:https://github.com/fluxions-ai/vui
详细与演示:https://www.52wts.cn/7922.html
Muyan-TTS,开源可训练的 TTS 模型,专为预算在 5 万美元以内的播客应用而设计,基于超过 10 万小时的播客音频数据进行预训练。
Github地址:https://github.com/MYZY-AI/Muyan-TTS
详细与演示:https://www.52wts.cn/7617.html
OpenF5 TTS,开源的文本转语音模型,基于 F5-TTS 框架并使用 F5-TTS 框架进行训练的零样本语音克隆。
模型下载地址:https://huggingface.co/mrfakename/OpenF5-TTS
详细与演示:https://www.52wts.cn/7520.html
Dia,开源的文本转语音模型,可以调节音频的输出,从而启用情感和语气控制,可以产生非语言交流,如笑声、咳嗽、清嗓子等。
Github地址:https://github.com/nari-labs/dia
详细与演示:https://www.52wts.cn/7244.html
Orpheus TTS,基于 Llama-3b 构建的开源文本转语音模型。
Github地址:https://github.com/canopyai/Orpheus-TTS
详细与演示:https://www.52wts.cn/6536.html
Spark-TTS,基于 Qwen2.5 构建文本转语音系统,支持中英文,并具备跨语言、代码切换场景的零样本语音克隆能力。
Github地址:https://github.com/SparkAudio/Spark-TTS
详细与演示:https://www.52wts.cn/6235.html
IndexTTS,B站开源的文本到语音(TTS)模型,可以使用拼音纠正汉字的发音,并通过标点符号在任何位置控制暂停。
Github地址:https://github.com/index-tts/index-tts
详细与演示:https://www.52wts.cn/6123.html
Zonos,开源的TTS模型,允许对说话速度、音高变化、音频质量以及快乐、恐惧、悲伤和愤怒等情绪进行精细控制。
Github地址:https://github.com/Zyphra/Zonos
详细与演示:https://www.52wts.cn/5839.html
chatTTS是一款强大的对话式文本转语音模型,它有中英混读和多说话人的能力,可以配置为中文,英文,日文等六种语言。
Github地址:https://github.com/2noise/ChatTTS
详细与演示:https://www.52wts.cn/1673.html
ToucanTTS,开源的文本转语音,支持超过7000种语言的语音合成,具备多说话人语音合成功能,能够模拟多种说话人的节奏、重音和语调。
Github地址:https://github.com/DigitalPhonetics/IMS-Toucan
详细与演示:https://www.52wts.cn/2062.html
Fish Speech,完美支持中英日语言的开源TTS模型,语音处理接近人类水平,模型使用约十五万小时三语数据训练,对中文支持非常的完美。
Github地址:https://github.com/fishaudio/fish-speech
详细与演示:https://www.52wts.cn/2106.html
FunAudioLLM,阿里开源的TTS模型,人与人LLMs之间自然交互的语音理解和生成。
Github地址:https://github.com/FunAudioLLM
详细与演示:https://www.52wts.cn/2174.html
Parler-TTS 是一种轻量级文本转语音 (TTS) 模型,可以按照给定说话者的风格(性别、音调、说话风格等)生成高质量、自然的语音。
Github地址:https://github.com/huggingface/parler-tts
详细与演示:https://www.52wts.cn/2742.html
F5-TTS,上交大/剑桥开源的TTS,零样本声音克隆,推理实时率达到0.15,支持控制语音速度,支持无缝在不同语言/方言间平滑过渡。
Github地址:https://github.com/SWivid/F5-TTS
详细与演示:https://www.52wts.cn/3828.html
MaskGCT,零样本文本转语音,完全非自回归的 TTS 模型,支持跨语言翻译配音、语音克隆、语言转换、情感控制等。
Github地址:https://github.com/open-mmlab/Amphion/tree/main/models/tts/maskgct
详细与演示:https://www.52wts.cn/4133.html
Smol TTS,开源的基于 LLaMa 架构构建的TTS 模型,零样本语音克隆。
Github地址:https://github.com/edwko/OuteTTS
详细与演示:https://www.52wts.cn/4332.html
Kokoro,开源的TTS模型,8200 万个参数,在 <100 小时的音频上进行训练,支持多种语言。
Github地址:https://github.com/hexgrad/kokoro
详细与演示:https://www.52wts.cn/5495.html
OuteTTS,开源的文本到语音模型,支持六种语言,英语(en)、日语(jp)、韩语(ko)、中文(zh)、法语(fr)和德语(de),通过添加标点符号支持,显著增强了语音合成的自然性和连贯性,提高了生成语音的流畅性和清晰度。
Github地址:https://github.com/edwko/OuteTTS
详细与演示:https://www.52wts.cn/5554.html
Llasa,开源的零样本语音克隆和 TTS 模型,可以仅从输入文本生成语音,或者利用给定的语音提示生成语音。
模型下载地址:https://huggingface.co/HKUSTAudio/Llasa-1B
详细与演示:https://www.52wts.cn/5668.html
微信扫描下方的二维码阅读本文
评论(0)