video-analyzer

video-analyzer

视频分析工具,结合Llama视觉模型和OpenAI Whisper进行本地视频描述生成。

0
  • 完全本地运行,无需云服务或API密钥
  • 利用openrouter的LLM服务提高速度和规模
  • 从视频中智能提取关键帧
  • 使用OpenAI的Whisper进行高质量音频转录
  • 使用Ollama和Llama3.2 11B视觉模型进行帧分析
  • 生成自然语言描述的视频内容
  • 自动处理音质不佳的音频
  • 详细JSON输出分析结果
  • 通过命令行参数或配置文件高度可配置

产品详情

video-analyzer是一个视频分析工具,它结合了Llama的11B视觉模型和OpenAI的Whisper模型,通过提取关键帧、将它们输入视觉模型以获取细节,并结合每个帧的细节和可用的转录内容来描述视频中发生的事情。这个工具代表了计算机视觉、音频转录和自然语言处理的结合,能够生成视频内容的详细描述。它的主要优点包括完全本地运行无需云服务或API密钥、智能提取视频关键帧、使用OpenAI的Whisper进行高质量音频转录、使用Ollama和Llama3.2 11B视觉模型进行帧分析,以及生成自然语言描述的视频内容。