开源模型

关于AI的开源的模型

MoshiVis，基于Moshi开发的视觉语音模型，支持自然的对话风格和低延迟

让我们看看演示视频吧！ MoshiVis，基于Moshi开发的视觉语音模型，支持...

Qwen2.5-Omni，Qwen开源的端到端多模态大模型，无缝处理包括文本、图像、音频和视频在内的各种输入，同时支持流式的文本生成和自然语音合成输出

Qwen2.5-Omni，Qwen开源的端到端多模态大模型，无缝处理包括文本、图...

Qwen开源Qwen2.5-VL-32B视觉模型，超越Mistral-Small-3.1-24B 和 Gemma-3-27B-IT

Qwen开源Qwen2.5-VL-32B视觉模型，超越Mistral-Small...

DeepSeek V3升级，增强数学和网页设计能力，仍然是开源，代码能力可以媲美Claude 3.5

DeepSeek V3升级，增强数学和网页设计能力，仍然是开源，代码能力可以媲美...

AMD-Hummingbird-T2V，AMD开源的文本转视频模型

AMD-Hummingbird-T2V，AMD开源的文本转视频模型，对流行的文本...

Fin-R1，开源的基于Qwen2.5的金融推理大模型，通过高质量的可验证金融问题微调训练

Fin-R1，开源的基于Qwen2.5的金融推理大模型，通过高质量的可验证金融问...

StarVector，开源的可缩放矢量图形 (SVG) 生成的多模态视觉语言模型，从图像和文本生成可缩放矢量图形代码

让我们看看演示视频吧！ StarVector，开源的可缩放矢量图形 (SVG) ...

RF-DETR，开源的SOTA 实时物体检测模型，实时识别画面中的物体，准确率和速度优于YOLO系列模型

让我们看看演示视频吧！ RF-DETR，开源的SOTA 实时物体检测模型，实时识...

InfiniteYou，字节跳动开源的实现灵活且高保真且身份保留的图像生成

InfiniteYou，字节跳动开源的实现灵活且高保真且身份保留的图像生成，可以...

Reka Flash 3，RekaAI开源的推理模型，得分超过Command A

Reka Flash 3，RekaAI开源的推理模型，得分超过Command A...

Orpheus TTS,基于 Llama-3b 构建的开源文本转语音模型

让我们看看演示视频吧！ Orpheus TTS,基于 Llama-3b 构建的开...

Step-Video-TI2V，阶跃星辰开源的文本驱动的图像转视频生成模型，能够根据文本和图像输入生成最多 102 帧的视频

让我们看看演示视频吧！ Step-Video-TI2V，阶跃星辰开源的文本驱动的...