Open-Sora Plan v1.2

Open-Sora Plan v1.2

文本到视频生成领域的先进模型架构

  • 采用2+1D模型架构快速进行文本到视频的生成任务
  • 优化CausalVideoVAE结构,提供更好的压缩视觉表示和推理效率
  • 使用3D全注意力架构,增强对世界的理解
  • 开源发布,包括代码、数据和模型,促进社区发展
  • 在Kinetic400视频数据集上进行训练,并使用EMA权重进行微调
  • 使用PSNR、SSIM和LPIPS等指标进行评估,确保视频质量

产品详情

Open-Sora Plan v1.2是一个开源的视频生成模型,专注于文本到视频的转换任务。它采用3D全注意力架构,优化了视频的视觉表示,并提高了推理效率。该模型在视频生成领域具有创新性,能够更好地捕捉联合空间-时间特征,为视频内容的自动生成提供了新的技术路径。