开源模型 smolvlm-realtime-webcam,使用 SmolVLM 和 llama.cpp 服务器的实时网络摄像头演示 smolvlm-realtime-webcam,使用 SmolVLM 和 lla...
开源模型 FastVLM,苹果开源的可以在iphone运行的视觉语言模型,旨在输出更少的令牌并显著减少高分辨率图像的编码时间 FastVLM,苹果开源的可以在iphone运行的视觉语言模型,旨在输出更少的令...
开源模型 Muyan-TTS,开源可训练的 TTS 模型,专为预算在 5 万美元以内的播客应用而设计,基于超过 10 万小时的播客音频数据进行预训练 Muyan-TTS,开源可训练的 TTS 模型,专为预算在 5 万美元以内的播客...
开源模型 Parakeet TDT 0.6B V2,英伟达开源的自动语音识别 (ASR) 模型,专为高质量的英语转录而设计,支持标点符号、大小写和准确的时间戳预测 Parakeet TDT 0.6B V2,英伟达开源的自动语音识别 (ASR) ...
开源模型 HunyuanCustom,基于 HunyuanVideo 构建,用于自定义视频生成的多模态驱动架构,支持图像、音频、视频和文本条件的同时强调主题一致性 HunyuanCustom,基于 HunyuanVideo 构建,用于自定义视频...
开源模型 OpenF5 TTS,开源的文本转语音模型,基于 F5-TTS 框架并使用 F5-TTS 框架进行训练的零样本语音克隆 OpenF5 TTS,开源的文本转语音模型,基于 F5-TTS 框架并使用 F5...
开源模型 ACE-Step,开源的音乐生成模型,在 A100 GPU 上只需 20 秒即可合成长达 4 分钟的音乐 ACE-Step,开源的音乐生成模型,在 A100 GPU 上只需 20 秒即可...
开源模型 Watermark-Detection-SigLIP2,使用 SiglipForImageClassification 架构检测图像是否包含水印 Watermark-Detection-SigLIP2,使用 SiglipFor...