PDF跨页表格解析，我把 6 个主流方案挨个测了一遍

8.1

深览指数

产品人人都是产品经理·产品经理伯庸·3小时前·AI 生成

PDF跨页表格解析，我把 6 个主流方案挨个测了一遍

文章基于5种真实场景（原始PDF+扫描件，含/不含页脚与印章）评测了MinerU、PaddleOCR-VL-1.6、PP-OCRv6、Qwen、DeepSeek、Claude在跨页表格解析上的表现。核心发现：跨页表格的难点不在于OCR文字识别，而在于跨页结构重组与单元格合并。Claude效果最佳（含印章场景下直接生成Excel），MinerU私有化部署性价比高但印章场景失败，Qwen与DeepSeek不稳定且会缺字漏页。作者指出B端选型时，数据安全与成本边界比效果指标更关键。适合正面临PDF文档处理技术选型、或希望了解多模态大模型在实际文档场景中应用效果的开发/产品人员。原文 ↗原文 ↗

核心观点

▍PDF跨页表格解析的核心难点不在文字识别，而在结构重组——跨页表格的合并决策以及被切断单元格的拼接修复。
▍B端技术选型时，数据安全约束（数据能否出域）和成本上限往往比模型效果指标更为关键，能直接决定方案的生死。

01评测构建了5个数据集，拆分为两类维度：PDF来源（原始PDF vs 扫描件）和干扰项（无页脚、含页脚、含印章），其中含印章的扫描件测试了工具对非表格元素的抗干扰能力。
02Claude Opus 4.8是唯一在所有场景（包括含印章扫描件）中都能正确合并跨页表格与单元格的工具，并在印章场景下自动生成了正确的Excel文件。
03MinerU在原始PDF和扫描件（无论含否页脚）中均能成功合并跨页表格与单元格，但含印章的扫描件合并失败。
04PaddleOCR-VL-1.6能合并5种场景的跨页表格（粗粒度层面正确），但无法正确处理跨页单元格的合并（细粒度失败）。
05作为对照组的纯OCR方案PP-OCRv6在所有5个数据集上均完全失败，无法处理任何层面的表格合并。
06Qwen3.7在多数场景能合并跨页表格，但有稳定缺陷：单元格内容缺失「往返」二字，且含页脚时会将表格错误切分。
07DeepSeek识图在原始PDF场景能合并表格（同缺「往返」二字），但扫描件场景第二页表格直接识别失败，更无法跨页合并。

反方 / 局限

— 作者承认评测范围有限：未纳入专攻原始PDF的Python库（如pdfplumber），也未覆盖多页跨页表格、复杂嵌套表格或带合并单元格的异常结构等更复杂的边缘场景。
— 当前表现最好的文档解析工具MinerU，在含印章场景下失败，仍需要后处理补救，无法做到开箱即用。
— 效果最好的Claude方案面临token费用持续支出与数据必须出域的合规风险，这两者对于金融、政企等B端客户构成实质门槛。

MinerU PaddleOCR-VL-1.6 PP-OCRv6 Qwen3.7 DeepSeek Claude Opus 4.8 产品经理伯庸人人都是产品经理

7 分钟 · 3 卡片 · 8 资料

读原文 →

PDF跨页表格解析，我把 6 个主流方案挨个测了一遍

前置背景

平行视角

延伸追问