
olmOCR-7B-0225-preview
olmOCR-7B-0225-preview 是一个基于 Qwen2-VL-7B-Instruct 微调的文档图像识别模型,用于高效转换文档为纯文本。
0
- 支持单页文档图像输入,最长边为 1024 像素
- 结合文档元数据生成高质量文本输出
- 提供手动提示生成方法,方便用户自定义使用
- 支持批量处理,可高效处理大规模文档
- 兼容多种文档格式,包括 PDF 和图像文件
产品详情
olmOCR-7B-0225-preview 是由 Allen Institute for AI 开发的先进文档识别模型,旨在通过高效的图像处理和文本生成技术,将文档图像快速转换为可编辑的纯文本。该模型基于 Qwen2-VL-7B-Instruct 微调,结合了强大的视觉和语言处理能力,适用于大规模文档处理任务。其主要优点包括高效处理能力、高精度文本识别以及灵活的提示生成方式。该模型适用于研究和教育用途,遵循 Apache 2.0 许可证,强调负责任的使用。