8.1
深览指数
产品人人都是产品经理·产品经理伯庸··AI 生成
PDF跨页表格解析,我把 6 个主流方案挨个测了一遍
文章基于5种真实场景(原始PDF+扫描件,含/不含页脚与印章)评测了MinerU、PaddleOCR-VL-1.6、PP-OCRv6、Qwen、DeepSeek、Claude在跨页表格解析上的表现。核心发现:跨页表格的难点不在于OCR文字识别,而在于跨页结构重组与单元格合并。Claude效果最佳(含印章场景下直接生成Excel),MinerU私有化部署性价比高但印章场景失败,Qwen与DeepSeek不稳定且会缺字漏页。作者指出B端选型时,数据安全与成本边界比效果指标更关键。适合正面临PDF文档处理技术选型、或希望了解多模态大模型在实际文档场景中应用效果的开发/产品人员。原文 ↗
核心观点
- ▍PDF跨页表格解析的核心难点不在文字识别,而在结构重组——跨页表格的合并决策以及被切断单元格的拼接修复。
- ▍B端技术选型时,数据安全约束(数据能否出域)和成本上限往往比模型效果指标更为关键,能直接决定方案的生死。
- 01评测构建了5个数据集,拆分为两类维度:PDF来源(原始PDF vs 扫描件)和干扰项(无页脚、含页脚、含印章),其中含印章的扫描件测试了工具对非表格元素的抗干扰能力。
- 02Claude Opus 4.8是唯一在所有场景(包括含印章扫描件)中都能正确合并跨页表格与单元格的工具,并在印章场景下自动生成了正确的Excel文件。
- 03MinerU在原始PDF和扫描件(无论含否页脚)中均能成功合并跨页表格与单元格,但含印章的扫描件合并失败。
- 04PaddleOCR-VL-1.6能合并5种场景的跨页表格(粗粒度层面正确),但无法正确处理跨页单元格的合并(细粒度失败)。
- 05作为对照组的纯OCR方案PP-OCRv6在所有5个数据集上均完全失败,无法处理任何层面的表格合并。
- 06Qwen3.7在多数场景能合并跨页表格,但有稳定缺陷:单元格内容缺失「往返」二字,且含页脚时会将表格错误切分。
- 07DeepSeek识图在原始PDF场景能合并表格(同缺「往返」二字),但扫描件场景第二页表格直接识别失败,更无法跨页合并。
反方 / 局限
- — 作者承认评测范围有限:未纳入专攻原始PDF的Python库(如pdfplumber),也未覆盖多页跨页表格、复杂嵌套表格或带合并单元格的异常结构等更复杂的边缘场景。
- — 当前表现最好的文档解析工具MinerU,在含印章场景下失败,仍需要后处理补救,无法做到开箱即用。
- — 效果最好的Claude方案面临token费用持续支出与数据必须出域的合规风险,这两者对于金融、政企等B端客户构成实质门槛。
7 分钟 · 3 卡片 · 8 资料
读原文 →