
video-analyzer
视频分析工具,结合Llama视觉模型和OpenAI Whisper进行本地视频描述生成。
0
- 完全本地运行,无需云服务或API密钥
- 利用openrouter的LLM服务提高速度和规模
- 从视频中智能提取关键帧
- 使用OpenAI的Whisper进行高质量音频转录
- 使用Ollama和Llama3.2 11B视觉模型进行帧分析
- 生成自然语言描述的视频内容
- 自动处理音质不佳的音频
- 详细JSON输出分析结果
- 通过命令行参数或配置文件高度可配置
产品详情
video-analyzer是一个视频分析工具,它结合了Llama的11B视觉模型和OpenAI的Whisper模型,通过提取关键帧、将它们输入视觉模型以获取细节,并结合每个帧的细节和可用的转录内容来描述视频中发生的事情。这个工具代表了计算机视觉、音频转录和自然语言处理的结合,能够生成视频内容的详细描述。它的主要优点包括完全本地运行无需云服务或API密钥、智能提取视频关键帧、使用OpenAI的Whisper进行高质量音频转录、使用Ollama和Llama3.2 11B视觉模型进行帧分析,以及生成自然语言描述的视频内容。