开源模型

关于AI的开源的模型

F Lite，开源的专门针对版权安全内容和 SFW 内容进行训练的图像生成模型

F Lite，开源的专门针对版权安全内容和 SFW 内容进行训练的图像生成模型。...

HiDream-E1，开源的基于指令的图像编辑模型，可以根据描述词编辑图像

HiDream-E1，开源的基于指令的图像编辑模型，可以根据描述词编辑图像。 G...

Qwen3，Qwen开源2 个 MoE 模型和 6 个密集模型，规模从 0.6B 到 235B

Qwen3，Qwen开源2 个 MoE 模型和 6 个密集模型，规模从 0.6B...

Step1X-Edit，阶跃星辰开源的图像编辑的实用框架，类似于GPT-4o、Gemini、豆包的图片编辑功能

Step1X-Edit，阶跃星辰开源的图像编辑的实用框架，类似于GPT-4o、G...

Kimi-Audio，Kimi开源的音频基础模型，通用音频基础模型处理各种任务，如语音识别、音频理解、音频到文本聊天、语音到语音对话

Kimi-Audio，Kimi开源的音频基础模型，通用音频基础模型处理各种任务，...

LAM，阿里开源的3D数字人生成模型，支持实时动画和交互功能

让我们看看演示视频吧！ LAM，阿里开源的3D数字人生成模型，支持实时动画和交互...

Phantom-Wan，字节跳动开源的保持主体一致的框架适配Wan2.1模型

Phantom-Wan，字节跳动开源的保持主体一致的框架适配Wan2.1模型，支...

Flex.2-preview，开源的文本到图像模型，同时将文本到图像、通用控制（线条、姿势、深度）和修复都整合到一个模型中

Flex.2-preview，开源的文本到图像模型，同时将文本到图像、通用控制（...

LiveCC，开源的大规模流式语音转录学习视频LLM，第一个能够进行实时评论的视频 LLM

LiveCC，开源的大规模流式语音转录学习视频LLM，第一个能够进行实时评论的视...

Vidi，字节跳动推出的视频理解和编辑的大型多模态模型

Vidi，字节跳动推出的视频理解和编辑的大型多模态模型，适用于各种视频理解和编辑...

HoloPart，生成式 3D 零件非模态分割，将 3D 形状分解为完整的、语义上有意义的部分

HoloPart，生成式 3D 零件非模态分割，将 3D 形状分解为完整的、语义...

Dia，开源的文本转语音模型，可以调节音频的输出，从而启用情感和语气控制，可以产生非语言交流，如笑声、咳嗽、清嗓子等

Dia，开源的文本转语音模型，可以调节音频的输出，从而启用情感和语气控制，可以产...