开源项目

Free4D，无需调整、具有时空一致性的 4D 场景生成，用于从单个图像或文本生成 4D 场景

让我们看看演示视频吧！ Free4D，无需调整、具有时空一致性的 4D 场景生成...

ChatAnyone，阿里推出的使用分层运动扩散模型生成风格化的实时肖像视频，可以生成从整个头部到上半身互动的高保真动画结果，并具有多种面部表情和风格控制

让我们看看演示视频吧！ ChatAnyone，阿里推出的使用分层运动扩散模型生成...

VideoMind，用于长视频推理的 Chain-of-LoRA 代理

VideoMind，用于长视频推理的 Chain-of-LoRA 代理，在各种视...

LeX-Art，通过可扩展的高质量数据合成重新思考文本生成，可以在图像中生成清晰、对齐良好且美观的文本

LeX-Art，通过可扩展的高质量数据合成重新思考文本生成，可以在图像中生成清晰...

BizGen，微软开源的信息图表生成的文章级可视化文本渲染，可以生成信息图表与幻灯片

BizGen，微软开源的信息图表生成的文章级可视化文本渲染，可以生成信息图表与幻...

FirePlace，对 3D 对象放置常识推理，可根据语言指令为要插入 3D 场景的新 3D 对象生成对象位置

让我们看看演示视频吧！ FirePlace，对 3D 对象放置常识推理，可根据语...

Video-T1，视频生成的测试时间缩放，TTS 在不同的视频生成模型中持续带来稳定的性能提升

Video-T1，视频生成的测试时间缩放，TTS 在不同的视频生成模型中持续带来...

TaoAvatar，阿里推出的通过 3D 技术实现实时逼真的全身说话化身

让我们看看演示视频吧！ TaoAvatar，阿里推出的通过 3D 技术实现实时逼...

Bottleneck-Sampling，无需训练的框架，它利用低分辨率先验来减少计算开销，同时保持输出保真度

Bottleneck-Sampling，无需训练的框架，它利用低分辨率先验来减少...

Geometry-Aware，用于多视图场景修复的模型，3D版inpaint，能在3D场景中添加、删除物体

让我们看看演示视频吧！ Geometry-Aware，用于多视图场景修复的模型，...

Zero-1-to-A，利用视频扩散将零样本一图像转换为可动画的头部头像

让我们看看演示视频吧！ Zero-1-to-A，利用视频扩散将零样本一图像转换为...

LHM，阿里开源的大型可动画人体重建模型，可在几秒钟内将单幅图像转换为 3D

让我们看看演示视频吧！ LHM，阿里开源的大型可动画人体重建模型，可在几秒钟内将...