LLaVA-NeXT

LLaVA-NeXT

大型多模态模型,处理多图像、视频和3D数据。

  • 多图像编码:模型能够基于多图像学习编写代码。
  • 多图像与视频任务转换:模型能够识别两个视频之间的差异,并编写关于视频的Twitter帖子。
  • 真实世界应用:模型能够从多图像中总结和检索信息,识别绘画风格和不同类别,以及创建图像编辑提示。
  • 交错视觉指令调整:使用交错格式统一不同任务的数据输入,涵盖多种具有挑战性的真实世界任务。
  • 多帧(视频)场景:通过将视频数据采样成多帧来保留跨多图像序列的时间线索。
  • 多视图(3D)场景:通过多视图图像从不同角度表示3D环境,进行3D感知。
  • 单图像场景:通过AnyRes设计将单图像分割成多个小块,与交错格式兼容。

产品详情

LLaVA-NeXT是一个大型多模态模型,它通过统一的交错数据格式处理多图像、视频、3D和单图像数据,展示了在不同视觉数据模态上的联合训练能力。该模型在多图像基准测试中取得了领先的结果,并在不同场景中通过适当的数据混合提高了之前单独任务的性能或保持了性能。