与法学硕士合作的开发人员不断地进行文档分析,每隔几个月就会出现围绕PDF问题的新浪潮(或挫折)。
在LLM进入图像之前,整个SaaS业务都是围绕管理PDF的混乱而构建的。
当软件变得像Adobe Acrobat和PDF格式一样普遍时,它开始感觉像是一个永久性的景观的一部分,很容易忘记这种普遍性背后是真正的设计决策,限制和交易,由真正的工程师解决真正的问题。
是的,PDF是令人沮丧的,但它们不是生来破碎的,事实上,它们是他们这个时代的惊人的优雅解决方案。
这个故事回归了一步,探索PDF格式的起源:它是如何形成的,它解决了哪些问题,以及90年代初的决策仍然如何通过今天的堆栈。
回到80年代,从纸到像素。
个人电脑的普及正在爆炸,纸质文档不再是默认的软件,如VisiCalc,WordStar,WordPerfect和早期Microsoft Word标志着写作,编辑和共享的新方式的黎明。
到20世纪80年代末,PC套件除了打印机之外,都被杀死了,高管可以在会议前几分钟调整报告,分析师在电子表格中运行“如果是什么”场景,教师在飞机上打印测试,工程师用数字蓝图替换了编写表。
越来越多的文件成为新的工作场所,不仅是最终产品,而且是工作实际发生的地方。
90年代和PDF的诞生。
在20世纪90年代初,基于PC的文字处理和电子文件共享的兴起解决了许多问题,同时引入了新的问题. 每个计算机都有自己的字体,打印机驱动程序和布局奇怪。
为了解决这一问题,在1991年,Adobe联合创始人John Warnock和他的团队推出了一个代号为“Camelot”的项目,以创建一个真正的通用文档格式. 结果是PDF,一个嵌入字体,图形和页面布局在一个地方的文件。
通过将每个字体、图像和布局细节组合成一个单一的文件,PDF允许用户无惊喜地共享文档,而你在屏幕上看到的内容在任何地方都印刷完全相同。
到2000年代初,“作为PDF导出”几乎是每个创作工具中的一个单击选项,各个行业的组织都采用了它来进行分发,存档和合规。
The PDF Design Trap
PDF 设计陷阱正是使PDF如此吸引人(他们对像素完美的忠诚度的承诺)也引入了一种隐藏的妥协:它将内容锁定在一个僵硬的,打印第一的结构中。
每个完整的页面底下基本上都是一张数字截图,用来模仿打印机出来的内容. 标题,表格,段落,其中的任何一个都没有语义意义。
起初,这并不重要,但随着文档从桌面移动到网页浏览器,移动屏幕和自动化管道,裂缝开始显示。
标签 PDF 和其他现代化尝试
Adobe 并未盲目考虑这个问题. 标记 PDF (于 2001 年引入,后来在 PDF/UA 进行可访问性) 添加了类似 HTML 的逻辑结构. 它从未成为普遍的,但它是可访问的政府文件的义务,并广泛用于大型企业工作流程。 其他里程碑,如 PDF/A 用于长期存档,XMP 元数据支持,以及2008 年将规格交给 ISO,显示了不断的努力来现代化格式。
你可以看到它在像DocuSign这样的重量级软件中,在许多基于Web的PDF编辑器中,如DocHub,以及像Poppler这样的开源库中,开发人员只依赖于从PDF中提取文本。
這也是為什麼大雲端玩家都在為這個問題投入嚴重的AI肌肉的原因: AWS 與 Textract,Google 與 Document AI,以及 Microsoft 與 Azure AI 文檔智能. 市場出現,產品隨之而來,大量的收入流入。
AI 原生 PDF 处理的崛起
当ChatGPT遭到打击时,“PDF问题”爆炸了,公司纷纷将数据输入到LLM中,只是为了打墙:大部分有价值的信息都被锁在PDF中。
起初,目标很简单:简单地提取Retrieval-Augmented Generation(RAG)的清洁文本,但这很快就证明过于基本,没有布局意识,从列的文本变得混乱,表变成荒谬,图像被忽视,重要背景消失了。
现代文档人工智能现在训练模型来理解文档的视觉和逻辑布局:识别标题,段落,表和图像,因此,人工智能可以参考信息,跳过重复的标题 / 脚印,并掌握整体结构。
这个AI堆栈揭示了我们正在处理的混乱的全部范围,现在应该简单的数据提取需要多个专业层:
- 布局分析,了解文档结构,
- OCR 用于从图像和扫描文档中提取文本,
- VLM 管弦,协调这些不同的 AI 组件。
讽刺的是,我们正在使用一些迄今为止最先进的AI模型来解决一个问题,该问题源于一个30年前的决定来处理文档,如照片。
虽然PDF已经逐步演变,但它们的印刷第一代DNA仍然在每个现代工作流中积累成本. 结构化格式,无论是扫描或拍摄,确实引入了一些相同的障碍,但PDF的设计增强了痛苦。
一条前进之路
我们无法在一夜之间删除数十个PDF文件,但我们可以避免重复历史. 对于新内容,请选择默认保存语义的生数字格式:
- HTML5 对于 Web 来说,
- 技术文档的 Markdown 衍生标准,
- 或 DOCX/OOXML 当 Office 兼容性是必不可少的。
当固态布局文件是不可避免的,以完整的标签和元数据进行导出;一些编写工具现在可以自动化这一点。政府采购规则要求PDF/UA合规是积极的先例。
长期开放的标准,如W3C的Portable Web Publication或EPUB 3,以及即将到来的基于容器的JSON格式,承诺忠诚,而不牺牲结构。
PDF的故事证明,早期设计选择回响了几十年的时间。教训不是要欺骗解决1991年的问题的工程师;它是要认识到今天的“足够好”捷径成为明天的昂贵手套。
对于已经处理传统格式的团队,如工具Chunkr提供基于开源API的管道,将复杂的文档转换成针对LLM和RAG工作流程的结构化、碎片化的格式,既可作为托管终端,也可作为自我管理的基础设施。
唐人努力成长你的观众作为一个技术专业人士?
技术观众加速器对于技术创作者来说,这是一个非常严肃的新闻稿,你会得到我30多万印象(和计算)背后的经过验证的框架,模板和策略。