OCRFlux

2周前发布 25 0 0

OCRFlux 不仅是一个 OCR 工具,更是一套针对现代文档理解深度优化的全能型文字识别方案。

收录时间:
2026-04-16

OCRFlux是由ChatDOC团队开源的**轻量级多模态工具包**,基于仅 3B参数 的视觉语言模型(VLM),能将PDF和图像高效转换为干净、可读的纯Markdown文本。它在复杂布局处理、表格解析和跨页内容合并上达到了当前开源领域的顶尖水平,被誉为“PDF转Markdown的SOTA(State-of-the-Art)工具”。

目前GitHub已获 2.5k+ Stars,深受开发者、研究者和企业用户的喜爱。

OCRFlux

OCRFlux 网站截图

OCRFlux的核心亮点 🔥

  1. 顶级解析质量,碾压同类工具
    • 在单页解析基准(OCRFlux-bench-single)中,平均EDS达到0.967,大幅领先olmOCR-7B(0.872)、Nanonets-OCR-s(0.858)等竞品。
    • 表格重建(TEDS指标):简单表格0.912,复杂表格0.807,总分0.861,远超其他开源模型。
    • 支持多列布局、图表、插图、公式,并按自然阅读顺序输出,自动去除页眉页脚。
  2. 开创性跨页智能合并 👏 这是OCRFlux最亮眼的功能——全球首个全面开源支持跨页表格和段落自动检测与合并的工具!
    • 自动识别跨页元素,智能拼接段落、处理重复表头、跨行单元格等。
    • 跨页检测准确率高达 0.986,表格合并TEDS达 0.950。 特别适合长文档,如金融年报、学术论文、法律合同等。
  3. 真正轻量高效
    • 3B参数,在 RTX 3090(12GB显存) 上即可流畅运行。
    • 推理速度比7B模型快 3倍以上,兼顾精度与成本。
    • 支持vLLM加速、Docker部署、离线推理和在线服务。
  4. 结构化输出,保留原文档精髓 输出干净的Markdown,同时完美支持复杂表格(rowspan/colspan)、公式和图表描述,让后续编辑、知识提取或RAG应用更加轻松。

适用场景 📚

  • 金融/企业:财报、合同、投资分析报告的结构化提取
  • 学术研究:论文扫描、带公式和图表的文档数字化
  • 法律领域:判决书、法规条文的高精度识别
  • 出版与档案:书籍扫描、多栏杂志、历史文献处理
  • AI开发者:构建高质量文档RAG系统或知识库
OCRFlux

如何快速上手? 🚀

安装(推荐conda环境)

conda create -n ocrflux python=3.11
conda activate ocrflux
git clone https://github.com/chatdoc-com/OCRFlux.git
cd OCRFlux
pip install -e . --find-links https://flashinfer.ai/whl/cu124/torch2.5/flashinfer/

一键转换PDF

python -m ocrflux.pipeline ./results --data your_document.pdf --model /path/to/OCRFlux-3B
python -m ocrflux.jsonl_to_markdown ./results

支持批量处理文件夹、图像输入、跨页合并开关、GPU内存优化等参数。还提供Docker镜像和vLLM在线部署方案,部署非常友好。

为什么强烈推荐OCRFlux?

与其他OCR工具相比,OCRFlux真正做到了轻量 + 高精度 + 跨页智能的完美平衡。它不是简单识别文字,而是像人类一样“理解”文档结构,还原自然阅读体验。无论你是个人开发者、研究者还是企业用户,都能大幅降低文档处理成本,提升数据质量。

相关导航

暂无评论

none
暂无评论...