olmOCR-7B-0225-preview

olmOCR-7B-0225-preview 是一个基于 Qwen2-VL-7B-Instruct 微调的文档图像识别模型，用于高效转换文档为纯文本。

支持单页文档图像输入，最长边为 1024 像素
结合文档元数据生成高质量文本输出
提供手动提示生成方法，方便用户自定义使用
支持批量处理，可高效处理大规模文档
兼容多种文档格式，包括 PDF 和图像文件

产品详情

olmOCR-7B-0225-preview 是由 Allen Institute for AI 开发的先进文档识别模型，旨在通过高效的图像处理和文本生成技术，将文档图像快速转换为可编辑的纯文本。该模型基于 Qwen2-VL-7B-Instruct 微调，结合了强大的视觉和语言处理能力，适用于大规模文档处理任务。其主要优点包括高效处理能力、高精度文本识别以及灵活的提示生成方式。该模型适用于研究和教育用途，遵循 Apache 2.0 许可证，强调负责任的使用。

olmOCR-7B-0225-preview

产品详情

相关项目

CrossPrism for MacOS

Kerqu.Ai

ReviewHawk

Airtable Cobuilder