272 讀數

为什么从PDF中提取文本仍然感觉像是黑客 - 以及保持AI陷入困境的遗产设计

经过 Paolo Perrone6m2025/07/01
Read on Terminal Reader

太長; 讀書

PDF 设计于 90 年代,以确保文件在任何地方都看起来都相同 - 这是印刷时代的辉煌解决方案,但对于现代机器处理来说是一个噩梦。 它们的第一次打印设计将内容锁定在僵硬的,布局驱动的结构中,没有多少语义意义,使得清洁数据提取变得困难,容易出现错误。 像标记 PDF 和 PDF/A 这样的尝试旨在现代化格式,但采用延迟了。 现在,AI 模型必须通过布局分析, OCR 和模型编排来扭转结构,仅仅仅是为了分析文本。 像 Chunkr 这样的工具通过将复杂的文档变成结构化、LLM 和 RAG 准备的片段提供实用解决方案。 教训:在源头内嵌入语义,或者
featured image - 为什么从PDF中提取文本仍然感觉像是黑客 - 以及保持AI陷入困境的遗产设计
Paolo Perrone HackerNoon profile picture
0-item
1-item
2-item

与法学硕士合作的开发人员不断地进行文档分析,每隔几个月就会出现围绕PDF问题的新浪潮(或挫折)。


在LLM进入图像之前,整个SaaS业务都是围绕管理PDF的混乱而构建的。


当软件变得像Adobe Acrobat和PDF格式一样普遍时,它开始感觉像是一个永久性的景观的一部分,很容易忘记这种普遍性背后是真正的设计决策,限制和交易,由真正的工程师解决真正的问题。


是的,PDF是令人沮丧的,但它们不是生来破碎的,事实上,它们是他们这个时代的惊人的优雅解决方案。


这个故事回归了一步,探索PDF格式的起源:它是如何形成的,它解决了哪些问题,以及90年代初的决策仍然如何通过今天的堆栈。

回到80年代,从纸到像素。

个人电脑的普及正在爆炸,纸质文档不再是默认的软件,如VisiCalc,WordStar,WordPerfect和早期Microsoft Word标志着写作,编辑和共享的新方式的黎明。

到20世纪80年代末,PC套件除了打印机之外,都被杀死了,高管可以在会议前几分钟调整报告,分析师在电子表格中运行“如果是什么”场景,教师在飞机上打印测试,工程师用数字蓝图替换了编写表。


越来越多的文件成为新的工作场所,不仅是最终产品,而且是工作实际发生的地方。

90年代和PDF的诞生。

在20世纪90年代初,基于PC的文字处理和电子文件共享的兴起解决了许多问题,同时引入了新的问题. 每个计算机都有自己的字体,打印机驱动程序和布局奇怪。


为了解决这一问题,在1991年,Adobe联合创始人John Warnock和他的团队推出了一个代号为“Camelot”的项目,以创建一个真正的通用文档格式. 结果是PDF,一个嵌入字体,图形和页面布局在一个地方的文件。


通过将每个字体、图像和布局细节组合成一个单一的文件,PDF允许用户无惊喜地共享文档,而你在屏幕上看到的内容在任何地方都印刷完全相同。


到2000年代初,“作为PDF导出”几乎是每个创作工具中的一个单击选项,各个行业的组织都采用了它来进行分发,存档和合规。

The PDF Design Trap

PDF 设计陷阱

正是使PDF如此吸引人(他们对像素完美的忠诚度的承诺)也引入了一种隐藏的妥协:它将内容锁定在一个僵硬的,打印第一的结构中。


每个完整的页面底下基本上都是一张数字截图,用来模仿打印机出来的内容. 标题,表格,段落,其中的任何一个都没有语义意义。


起初,这并不重要,但随着文档从桌面移动到网页浏览器,移动屏幕和自动化管道,裂缝开始显示。
Ideal vs. canvas: why PDF feels uniquely hostile

标签 PDF 和其他现代化尝试

Adobe 并未盲目考虑这个问题. 标记 PDF (于 2001 年引入,后来在 PDF/UA 进行可访问性) 添加了类似 HTML 的逻辑结构. 它从未成为普遍的,但它是可访问的政府文件的义务,并广泛用于大型企业工作流程。 其他里程碑,如 PDF/A 用于长期存档,XMP 元数据支持,以及2008 年将规格交给 ISO,显示了不断的努力来现代化格式。


你可以看到它在像DocuSign这样的重量级软件中,在许多基于Web的PDF编辑器中,如DocHub,以及像Poppler这样的开源库中,开发人员只依赖于从PDF中提取文本。


這也是為什麼大雲端玩家都在為這個問題投入嚴重的AI肌肉的原因: AWS 與 Textract,Google 與 Document AI,以及 Microsoft 與 Azure AI 文檔智能. 市場出現,產品隨之而來,大量的收入流入。

AI 原生 PDF 处理的崛起

当ChatGPT遭到打击时,“PDF问题”爆炸了,公司纷纷将数据输入到LLM中,只是为了打墙:大部分有价值的信息都被锁在PDF中。


起初,目标很简单:简单地提取Retrieval-Augmented Generation(RAG)的清洁文本,但这很快就证明过于基本,没有布局意识,从列的文本变得混乱,表变成荒谬,图像被忽视,重要背景消失了。


现代文档人工智能现在训练模型来理解文档的视觉和逻辑布局:识别标题,段落,表和图像,因此,人工智能可以参考信息,跳过重复的标题 / 脚印,并掌握整体结构。


这个AI堆栈揭示了我们正在处理的混乱的全部范围,现在应该简单的数据提取需要多个专业层:

  • 布局分析,了解文档结构,
  • OCR 用于从图像和扫描文档中提取文本,
  • VLM 管弦,协调这些不同的 AI 组件。

Custom AI pipelines layers required for document processing 

讽刺的是,我们正在使用一些迄今为止最先进的AI模型来解决一个问题,该问题源于一个30年前的决定来处理文档,如照片。


虽然PDF已经逐步演变,但它们的印刷第一代DNA仍然在每个现代工作流中积累成本. 结构化格式,无论是扫描或拍摄,确实引入了一些相同的障碍,但PDF的设计增强了痛苦。

一条前进之路

我们无法在一夜之间删除数十个PDF文件,但我们可以避免重复历史. 对于新内容,请选择默认保存语义的生数字格式:

  • HTML5 对于 Web 来说,
  • 技术文档的 Markdown 衍生标准,
  • 或 DOCX/OOXML 当 Office 兼容性是必不可少的。


当固态布局文件是不可避免的,以完整的标签和元数据进行导出;一些编写工具现在可以自动化这一点。政府采购规则要求PDF/UA合规是积极的先例。


长期开放的标准,如W3C的Portable Web Publication或EPUB 3,以及即将到来的基于容器的JSON格式,承诺忠诚,而不牺牲结构。


PDF的故事证明,早期设计选择回响了几十年的时间。教训不是要欺骗解决1991年的问题的工程师;它是要认识到今天的“足够好”捷径成为明天的昂贵手套。


对于已经处理传统格式的团队,如工具Chunkr提供基于开源API的管道,将复杂的文档转换成针对LLM和RAG工作流程的结构化、碎片化的格式,既可作为托管终端,也可作为自我管理的基础设施。

唐人

Chunkr’s document section detection features in action


努力成长你的观众作为一个技术专业人士?

技术观众加速器对于技术创作者来说,这是一个非常严肃的新闻稿,你会得到我30多万印象(和计算)背后的经过验证的框架,模板和策略。




Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks