与法学硕士合作的开发人员不断地进行文档分析,每隔几个月就会出现围绕PDF问题的新浪潮(或挫折)。 在LLM进入图像之前,整个SaaS业务都是围绕管理PDF的混乱而构建的。 当软件变得像Adobe Acrobat和PDF格式一样普遍时,它开始感觉像是一个永久性的景观的一部分,很容易忘记这种普遍性背后是真正的设计决策,限制和交易,由真正的工程师解决真正的问题。 是的,PDF是令人沮丧的,但它们不是生来破碎的,事实上,它们是他们这个时代的惊人的优雅解决方案。 这个故事回归了一步,探索PDF格式的起源:它是如何形成的,它解决了哪些问题,以及90年代初的决策仍然如何通过今天的堆栈。 回到80年代,从纸到像素。 个人电脑的普及正在爆炸,纸质文档不再是默认的软件,如VisiCalc,WordStar,WordPerfect和早期Microsoft Word标志着写作,编辑和共享的新方式的黎明。 到20世纪80年代末,PC套件除了打印机之外,都被杀死了,高管可以在会议前几分钟调整报告,分析师在电子表格中运行“如果是什么”场景,教师在飞机上打印测试,工程师用数字蓝图替换了编写表。 越来越多的文件成为新的工作场所,不仅是最终产品,而且是工作实际发生的地方。 90年代和PDF的诞生。 在20世纪90年代初,基于PC的文字处理和电子文件共享的兴起解决了许多问题,同时引入了新的问题. 每个计算机都有自己的字体,打印机驱动程序和布局奇怪。 为了解决这一问题,在1991年,Adobe联合创始人John Warnock和他的团队推出了一个代号为“Camelot”的项目,以创建一个真正的通用文档格式. 结果是PDF,一个嵌入字体,图形和页面布局在一个地方的文件。 通过将每个字体、图像和布局细节组合成一个单一的文件,PDF允许用户无惊喜地共享文档,而你在屏幕上看到的内容在任何地方都印刷完全相同。 到2000年代初,“作为PDF导出”几乎是每个创作工具中的一个单击选项,各个行业的组织都采用了它来进行分发,存档和合规。 The PDF Design Trap PDF 设计陷阱 正是使PDF如此吸引人(他们对像素完美的忠诚度的承诺)也引入了一种隐藏的妥协:它将内容锁定在一个僵硬的,打印第一的结构中。 每个完整的页面底下基本上都是一张数字截图,用来模仿打印机出来的内容. 标题,表格,段落,其中的任何一个都没有语义意义。 起初,这并不重要,但随着文档从桌面移动到网页浏览器,移动屏幕和自动化管道,裂缝开始显示。 标签 PDF 和其他现代化尝试 Adobe 并未盲目考虑这个问题. 标记 PDF (于 2001 年引入,后来在 PDF/UA 进行可访问性) 添加了类似 HTML 的逻辑结构. 它从未成为普遍的,但它是可访问的政府文件的义务,并广泛用于大型企业工作流程。 其他里程碑,如 PDF/A 用于长期存档,XMP 元数据支持,以及2008 年将规格交给 ISO,显示了不断的努力来现代化格式。 你可以看到它在像DocuSign这样的重量级软件中,在许多基于Web的PDF编辑器中,如DocHub,以及像Poppler这样的开源库中,开发人员只依赖于从PDF中提取文本。 這也是為什麼大雲端玩家都在為這個問題投入嚴重的AI肌肉的原因: AWS 與 Textract,Google 與 Document AI,以及 Microsoft 與 Azure AI 文檔智能. 市場出現,產品隨之而來,大量的收入流入。 AI 原生 PDF 处理的崛起 当ChatGPT遭到打击时,“PDF问题”爆炸了,公司纷纷将数据输入到LLM中,只是为了打墙:大部分有价值的信息都被锁在PDF中。 起初,目标很简单:简单地提取Retrieval-Augmented Generation(RAG)的清洁文本,但这很快就证明过于基本,没有布局意识,从列的文本变得混乱,表变成荒谬,图像被忽视,重要背景消失了。 现代文档人工智能现在训练模型来理解文档的视觉和逻辑布局:识别标题,段落,表和图像,因此,人工智能可以参考信息,跳过重复的标题 / 脚印,并掌握整体结构。 这个AI堆栈揭示了我们正在处理的混乱的全部范围,现在应该简单的数据提取需要多个专业层: 
 
 
 
 布局分析,了解文档结构, OCR 用于从图像和扫描文档中提取文本, VLM 管弦,协调这些不同的 AI 组件。 讽刺的是,我们正在使用一些迄今为止最先进的AI模型来解决一个问题,该问题源于一个30年前的决定来处理文档,如照片。 虽然PDF已经逐步演变,但它们的印刷第一代DNA仍然在每个现代工作流中积累成本. 结构化格式,无论是扫描或拍摄,确实引入了一些相同的障碍,但PDF的设计增强了痛苦。 一条前进之路 我们无法在一夜之间删除数十个PDF文件,但我们可以避免重复历史. 对于新内容,请选择默认保存语义的生数字格式: 
 
 
 
 HTML5 对于 Web 来说, 技术文档的 Markdown 衍生标准, 或 DOCX/OOXML 当 Office 兼容性是必不可少的。 当固态布局文件是不可避免的,以完整的标签和元数据进行导出;一些编写工具现在可以自动化这一点。政府采购规则要求PDF/UA合规是积极的先例。 长期开放的标准,如W3C的Portable Web Publication或EPUB 3,以及即将到来的基于容器的JSON格式,承诺忠诚,而不牺牲结构。 PDF的故事证明,早期设计选择回响了几十年的时间。教训不是要欺骗解决1991年的问题的工程师;它是要认识到今天的“足够好”捷径成为明天的昂贵手套。 对于已经处理传统格式的团队,如工具 提供基于开源API的管道,将复杂的文档转换成针对LLM和RAG工作流程的结构化、碎片化的格式,既可作为托管终端,也可作为自我管理的基础设施。 Chunkr 唐人 努力成长你的观众作为一个技术专业人士? 对于技术创作者来说,这是一个非常严肃的新闻稿,你会得到我30多万印象(和计算)背后的经过验证的框架,模板和策略。 技术观众加速器 https://techaudienceaccelerator.substack.com/?embedable=true

The is an opinion piece based on the author’s POV and does not necessarily reflect the views of HackerNoon.

Walkthroughs, tutorials, guides, and tips. This story will teach you how to do something new or how to do something better.

This story will praise and/or roast a product, company, service, game, or anything else people like to review on the Internet.

👉 Join The Tech Audience Accelerator 👈

Read My Stories

該音頻是用故事的原始語言製作的！

为什么从PDF中提取文本仍然感觉像是黑客 - 以及保持AI陷入困境的遗产设计

About Author

註釋

標籤

这篇文章刊登在

Related Stories

想赢得 HackerNoon 写作比赛吗？以下是 #crypto-api 比赛获奖者的推荐

架构师指南：构建 AI/ML 数据湖参考架构

释放人工智能的力量。前沿技术的系统评价：摘要与介绍

成功云迁移的完整指南：策略和最佳实践

想赢得 HackerNoon 写作比赛吗？以下是 #crypto-api 比赛获奖者的推荐

架构师指南：构建 AI/ML 数据湖参考架构

释放人工智能的力量。前沿技术的系统评价：摘要与介绍

成功云迁移的完整指南：策略和最佳实践

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps