
Open-Sora Plan v1.2
文本到视频生成领域的先进模型架构
- 采用2+1D模型架构快速进行文本到视频的生成任务
- 优化CausalVideoVAE结构,提供更好的压缩视觉表示和推理效率
- 使用3D全注意力架构,增强对世界的理解
- 开源发布,包括代码、数据和模型,促进社区发展
- 在Kinetic400视频数据集上进行训练,并使用EMA权重进行微调
- 使用PSNR、SSIM和LPIPS等指标进行评估,确保视频质量
产品详情
Open-Sora Plan v1.2是一个开源的视频生成模型,专注于文本到视频的转换任务。它采用3D全注意力架构,优化了视频的视觉表示,并提高了推理效率。该模型在视频生成领域具有创新性,能够更好地捕捉联合空间-时间特征,为视频内容的自动生成提供了新的技术路径。