275 การอ่าน

ทําไมการสกัดข้อความจาก PDFs ยังคงรู้สึกเหมือนการสับ - และการออกแบบที่ยังคงมี AI Stuck

โดย Paolo Perrone6m2025/07/01
Read on Terminal Reader

นานเกินไป; อ่าน

PDFs ได้รับการออกแบบในปี 1990 เพื่อให้แน่ใจว่าเอกสารดูเหมือนเหมือนกันทุกที่ - แก้ไขที่ยอดเยี่ยมสําหรับยุคการพิมพ์ แต่เป็นความฝันร้ายสําหรับเครื่องประมวลผลที่ทันสมัย การออกแบบการพิมพ์ครั้งแรกของพวกเขาล็อคเนื้อหาลงในโครงสร้างที่แข็งแกร่งขึ้นโดยการวางแผนที่มีความหมายเชิงลามิเนตน้อยทําให้การสกัดข้อมูลที่สะอาดเป็นเรื่องยากและมีแนวโน้มที่จะเกิดข้อผิดพลาด การพยายามเช่น Tagged PDF และ PDF / A มีวัตถุประสงค์เพื่อปรับปรุงรูปแบบ แต่การนํามาใช้ล่าช้า ตอนนี้โมเดล AI ควรเปลี่ยนโครงสร้างวิศวกรรมผ่านการวิเคราะห์การวางแผน OCR และการจัดระเบียบรูปแบบเพียงแค่เพื่อแก้ไขข้อความ เครื่องมือเช่น Chunkr ให้การแก้ปัญหาในทางปฏิบัติโดยการเปลี่ยนเอกสารที่ซับซ้อนเป็นชิ้นส่วนที่มีโครงสร้าง LL
featured image - ทําไมการสกัดข้อความจาก PDFs ยังคงรู้สึกเหมือนการสับ - และการออกแบบที่ยังคงมี AI Stuck
Paolo Perrone HackerNoon profile picture
0-item
1-item
2-item

ผู้พัฒนาที่ทํางานร่วมกับ LLMs ทํางานในการสํารวจเอกสารอย่างต่อเนื่อง และทุกไม่กี่เดือนมีคลื่นใหม่ของ hype (หรือความผิดหวัง) เกี่ยวกับปัญหา PDF ในช่วงเวลานั้นมันไม่ได้เป็นเรื่องแปลกที่จะเห็นคนซอฟต์แวร์ระยําเกี่ยวกับวิธีที่รูปแบบไฟล์หนึ่งกลายเป็นอาการปวดศีรษะขนาดใหญ่ แต่การต่อสู้ไม่ใช่เรื่องใหม่


นานก่อนที่ LLMs เข้าไปในรูปภาพธุรกิจ SaaS ทั้งหมดถูกสร้างขึ้นเพื่อจัดการความยุ่งยากของไฟล์ PDF และด้วยเหตุผลที่ดีมันเป็นรูปแบบที่ไม่เคยถูกออกแบบมาสําหรับชนิดของการเข้าถึงที่โครงสร้างขึ้นและสามารถอ่านได้ด้วยเครื่องที่เราคาดหวังตอนนี้


เมื่อซอฟต์แวร์กลายเป็นที่แพร่หลายเช่น Adobe Acrobat และรูปแบบ PDF มันเริ่มรู้สึกเหมือนเป็นส่วนหนึ่งของภูมิทัศน์อย่างถาวร มันเป็นเรื่องง่ายที่จะลืมว่าอยู่เบื้องหลังความทุกข์ทรมานนั้นคือการตัดสินใจการออกแบบที่แท้จริงข้อ จํากัด และข้อตกลงที่ทําโดยวิศวกรที่แท้จริงในการแก้ปัญหาที่แท้จริง ปัญหาที่ตามเวลาพัฒนาและกลายเป็นรากของความเจ็บปวดของวันนี้


ใช่ PDFs นั้นน่าประหลาดใจ แต่พวกเขาไม่ได้เกิดแตก ในความเป็นจริงพวกเขาเป็นโซลูชั่นที่สง่างามอย่างน่าประหลาดใจสําหรับเวลาของพวกเขา


ดังนั้นให้เรายืดออก เรื่องนี้จะย้อนกลับไปในการสํารวจแหล่งกําเนิดของรูปแบบ PDF: วิธีที่มันเกิดขึ้นปัญหาใดที่มันตั้งค่าเพื่อแก้ปัญหาและวิธีการที่ตัดสินใจที่ทําในช่วงต้นปี 90 ยังคงรบกวนผ่านสแต็คของวันนี้ วัตถุประสงค์: เพื่อเข้าใจไม่เพียง แต่“ ทําไมสิ่งนี้เป็นเรื่องยาก” แต่ยัง “วิธีการที่เรามาถึงที่นี่?”

กลับมาถึงยุค 80 จากกระดาษไปจนถึงพิกเซล

การเปลี่ยนแปลงเริ่มขึ้น เครื่องคอมพิวเตอร์ส่วนบุคคลถูกระเบิดในความนิยมและเอกสารกระดาษไม่ได้เป็นมาตรฐานอีกต่อไป ซอฟต์แวร์เช่น VisiCalc, WordStar, WordPerfect และ Microsoft Word เริ่มต้นเป็นจุดเริ่มต้นของวิธีใหม่ในการเขียนแก้ไขและแบ่งปัน

ในตอนท้ายของปี 80 ชุดพีซีมีทุกอย่างยกเว้นการทําลายเครื่องพิมพ์ ผู้บริหารสามารถปรับปรุงรายงานนาทีก่อนการประชุม นักวิเคราะห์กําลังเรียกใช้สถานการณ์ "อะไรถ้า" ในแผ่นคํานวณ นักเรียนกําลังพิมพ์การทดสอบบนเครื่องบิน นักวิศวกรแทนตารางการวาดภาพด้วยแม่พิมพ์ดิจิตอล


มากขึ้นเอกสารกลายเป็นสถานที่ทํางานใหม่ ไม่เพียง แต่ผลิตภัณฑ์สุดท้าย แต่ที่ทํางานเกิดขึ้นจริง

90s และเกิดของ PDF

ในช่วงต้นปี 1990 การเพิ่มขึ้นของการประมวลผลข้อความบนพื้นฐานพีซีและการแบ่งปันไฟล์อิเล็กทรอนิกส์ได้แก้ปัญหามากมายในขณะที่แนะนําปัญหาใหม่ ๆ ทุกคอมพิวเตอร์มีตัวอักษรของตัวเองไดรเวอร์เครื่องพิมพ์และข้อผิดพลาดในการวางแผน รายงานที่ดูสมบูรณ์แบบบนเครื่องหนึ่งสามารถพิมพ์เป็นความผิดปกติในอีกเครื่องหนึ่ง การแบ่งปันไฟล์กลายเป็นเกม


เพื่อแก้ไขปัญหานี้ในปี 1991 ผู้ร่วมก่อตั้ง Adobe John Warnock และทีมของเขาเปิดตัวโครงการที่มีชื่อรหัส “Camelot” เพื่อสร้างรูปแบบเอกสารที่สากลจริงๆ ผลลัพธ์คือไฟล์ PDF ซึ่งเป็นไฟล์ที่แทรกตัวอักษรกราฟิกและ layout หน้าทั้งหมดในสถานที่เดียว “กระดาษดิจิตอล” นี้รับประกันว่าเอกสารดูเหมือนกันอย่างแน่นอนทุกที่ทั้งบน Windows, Mac หรือเครื่องพิมพ์ใด ๆ


โดยการ bundling ทุกตัวอักษร รูปภาพ และรายละเอียดการวางแผน เป็นไฟล์เดียว PDFs ช่วยให้ผู้ใช้แบ่งปันเอกสารโดยไม่มีความประหลาดใจและสิ่งที่คุณเห็นบนหน้าจอจะพิมพ์เหมือนกันอย่างแน่นอนทุกที่ Adobe ทํา Acrobat Reader ฟรีพร้อมใช้งานในปี 1994 และภายในห้าปีแล้ว PDF ได้กลายเป็นรูปแบบที่สามารถใช้ได้สําหรับทุกอย่างตั้งแต่คู่มือผลิตภัณฑ์และรายงานองค์กรไปจนถึงแบบฟอร์มของรัฐบาลและกระดาษวิชาการ


ในช่วงต้นปี 2000 "ส่งออกเป็น PDF" เป็นตัวเลือกคลิกเดียวในเกือบทุกเครื่องมือการเขียนและองค์กรทั่วอุตสาหกรรมได้ยอมรับมันสําหรับการกระจายการจัดเก็บและการปฏิบัติตาม และยังคงเป็นมาตรฐานในวันนี้

The PDF Design Trap

การออกแบบแฟ้ม PDF

สิ่งที่ทําให้ไฟล์ PDF ที่น่าดึงดูด (สัญญาของความไว้วางใจของพิกเซลที่สมบูรณ์แบบ) ยังนําเสนอการแลกเปลี่ยนที่ซ่อนอยู่: มันล็อคเนื้อหาลงในโครงสร้างที่แข็งแกร่งและพิมพ์เป็นครั้งแรก


ภายใต้ทุกหน้าที่ไม่มีข้อบกพร่องส่วนใหญ่เป็นภาพถ่ายแบบดิจิตอลที่สร้างขึ้นเพื่อจําลองสิ่งที่ออกมาจากเครื่องพิมพ์ หัวข้อตาราง paragraphs ไม่มีส่วนหนึ่งของมันมีความหมายทางคําอธิบาย สําหรับคอมพิวเตอร์มันเป็นเพียงประสานงานและกล่องข้อความที่กระจายไปทั่วผ้าใบ


ในตอนแรกสิ่งนี้ไม่สําคัญ แต่เมื่อเอกสารย้ายจากเดสก์ท็อปไปยังเบราว์เซอร์เว็บหน้าจอมือถือและท่อระบายความร้อนอัตโนมัติการรั่วไหลเริ่มปรากฏขึ้น ต้องการสกัดข้อมูลที่สะอาดหรือไม่ Reflow ข้อความบนโทรศัพท์? เข้าใจโครงสร้างเอกสารหรือไม่ ทันทีสิ่งที่ดูสะอาดให้กับมนุษย์กลายเป็นความผิดปกติสําหรับเครื่องจักร
Ideal vs. canvas: why PDF feels uniquely hostile

แท็ก PDF และความพยายามที่ทันสมัยอื่น ๆ

Adobe ไม่เคยเป็นคนตาบอดกับปัญหานี้ แท็ก PDF (นํามาใช้ในปี 2001 และเป็นทางการใน PDF / UA สําหรับความสามารถในการเข้าถึง) เพิ่มโครงสร้างเชิงล็อกที่คล้ายกับ HTML มันไม่เคยกลายเป็นสากล แต่ก็ถูกบังคับให้ใช้สําหรับเอกสารของรัฐบาลที่สามารถเข้าถึงได้และใช้กันอย่างแพร่หลายในกระบวนการทํางานขององค์กรขนาดใหญ่ ขั้นตอนอื่น ๆ เช่น PDF / A สําหรับการจัดเก็บระยะยาว XMP สนับสนุนข้อมูลเมตาและ 2008 การส่งมอบข้อกําหนดไปยัง ISO แสดงให้เห็นถึงความพยายามอย่างต่อเนื่องในการปรับปรุงรูปแบบ อย่างไรก็ตามการนํามาใช้อย่างกว้างขวางล่าช้า การแท็กเป็นไปไม่ได้สําหรับผู้ใช้ส่วนใหญ่เป็นเรื่องเบื่อสําหรับผู้สร้างและมักจะถูกลบออกโดยการตั้งค่าการส่งออกที่ไม่ระมัดระวัง


คุณเห็นมันในเครื่องมือหนักเช่น DocuSign ในเครื่องมือแก้ไข PDF ที่ใช้บนเว็บมากมายเช่น DocHub และในห้องสมุดแหล่งที่มาเปิดเช่น Poppler ซึ่งนักพัฒนาขึ้นอยู่กับเพียงเพื่อดึงข้อความออกจากไฟล์ PDF


นี่คือเหตุผลที่ผู้เล่นระบบคลาวด์ขนาดใหญ่ทั้งหมดกําลังกระตุ้นปัญหานี้อย่างจริงจัง: AWS กับ Textract, Google กับ Document AI และ Microsoft กับ Azure AI Document Intelligence ตลาดปรากฏขึ้นผลิตภัณฑ์ติดตามและรายได้มากมายไหลไป Adobe ไม่ว่าเราจะชอบหรือไม่เปลี่ยนเกม

การเติบโตของ AI-Native PDF Handling

เมื่อ ChatGPT ระเบิด "ปัญหา PDF " บริษัท มีความยากลําบากที่จะให้อาหารข้อมูลของพวกเขาลงใน LLMs, เพียงที่จะตีผนัง: ส่วนใหญ่ของข้อมูลที่มีค่าถูกล็อคไว้ภายใน PDFs


ในตอนแรกวัตถุประสงค์ที่เรียบง่าย: เพียงเอาข้อความที่สะอาดสําหรับ Retrieval-Augmented Generation (RAG) แต่ที่เร็ว ๆ นี้พิสูจน์แล้วว่าเป็นพื้นฐานเกินไป โดยไม่มีความตระหนักถึงการวางแผนข้อความจากคอลัมน์ก็ถูกขัดแย้งตารางกลายเป็นความไร้สาระภาพและบรรทัดฐานที่สําคัญหายไป


หน่วยงานเอกสารอัจฉริยะที่ทันสมัยตอนนี้ฝึกอบรมรูปแบบเพื่อเข้าใจการวางแผนภาพและตรรกะของเอกสาร: identifying titles, paragraphs, tables, and images ดังนั้น AI สามารถอ้างอิงข้อมูล skip repeated headers/footers และเข้าใจโครงสร้างโดยรวม


Stack AI นี้แสดงให้เห็นถึงระดับเต็มของความผิดปกติที่เราจัดการกับ สิ่งที่ควรจะเป็นการสกัดข้อมูลที่เรียบง่ายตอนนี้ต้องใช้ชั้นพิเศษหลายชั้น:

  • การวิเคราะห์ layout เพื่อเข้าใจโครงสร้างเอกสาร
  • OCR เพื่อสกัดข้อความจากภาพและเอกสารที่สแกน
  • การประสานงาน VLM เพื่อประสานงานองค์ประกอบ AI ที่แตกต่างกันเหล่านี้

Custom AI pipelines layers required for document processing 

แต่ละชั้นเพิ่มความล่าช้าข้อผิดพลาดที่อาจเกิดขึ้นและค่าใช้จ่ายในการคํานวณ irony เป็นที่น่าตื่นตาตื่นใจ: เราใช้บางส่วนของรุ่น AI ที่ทันสมัยที่สุดที่เคยสร้างขึ้นเพื่อแก้ปัญหาที่เกิดจากการตัดสินใจ 30 ปีที่ผ่านมาในการจัดการกับเอกสารเช่นภาพถ่าย


ในขณะที่ PDFs มีการพัฒนาอย่างค่อยๆ DNA พิมพ์ครั้งแรกของพวกเขายังคงสะสมค่าใช้จ่ายในแต่ละกระบวนการทํางานที่ทันสมัย รูปแบบโครงสร้างการสแกนหรือถ่ายภาพทําให้เกิดอุปสรรคบางอย่างเดียวกัน แต่การออกแบบของ PDF ช่วยเพิ่มความเจ็บปวด

เดินทางไปข้างหน้า

เราไม่สามารถขจัดไฟล์ PDF หลายทศวรรษในเวลากลางคืน แต่เราสามารถหลีกเลี่ยงการทําซ้ําประวัติศาสตร์ สําหรับเนื้อหาใหม่ให้เลือกรูปแบบดิจิตอลที่สร้างขึ้นซึ่งเก็บความหมายตามค่าเริ่มต้น:

  • HTML5 สําหรับเว็บ
  • มาตรฐานที่มาจาก Markdown สําหรับเอกสารทางเทคนิค
  • หรือ DOCX/OOXML เมื่อความเข้ากันได้กับ Office เป็นสิ่งจําเป็น


เมื่อไฟล์การวางแผนแบบคงที่ไม่สามารถหลีกเลี่ยงได้การส่งออกด้วยแท็กเต็มรูปแบบและข้อมูลเมตาเป็นไปไม่ได้; บางเครื่องมือการเขียนตอนนี้อัตโนมัติสิ่งนี้ กฎการจัดซื้อของรัฐบาลที่ต้องการการปฏิบัติตาม PDF / UA เป็นขัดแย้งเชิงบวก ความกดดันที่คล้ายกันจากองค์กรกับผู้จัดจําหน่ายและหน่วยงานกํากับดูแลสามารถกระตุ้นการติดแท็กจาก "ดีที่จะมี" ไปยัง "การวางเดสก์ท็อป"


มาตรฐานเปิดระยะยาวเช่น W3C's Portable Web Publication หรือ EPUB 3 พร้อมกับรูปแบบ JSON-based ที่จะมาถึงสัญญาถึงความเชื่อถือโดยไม่ต้องเสียโครงสร้าง การสนับสนุนเหล่านี้ในเครื่องมือการเขียนหลัก (และการศึกษาผู้ใช้เพื่อใช้พวกเขา) จะช่วยให้รุ่นต่อไปไม่เขียนรูปแบบวิสัยทัศน์เพียงเพื่อดึงข้อความออกจากสัญญา


เรื่องราวของ PDFs แสดงให้เห็นว่าการเลือกการออกแบบครั้งแรกย้อนกลับไปเป็นเวลาหลายทศวรรษ หลักสูตรนี้ไม่ได้คือการเลียนแบบวิศวกรที่แก้ปัญหาของ 1991 มันคือการยอมรับว่าการสั้น ๆ ของวันนี้ "ดีเพียงพอ" จะกลายเป็น handcuffs ค่าใช้จ่ายของวันพรุ่งนี้ ลองแทรกเซมนาติกที่แหล่งที่เปิดกลับมาตรฐานที่สามารถอ่านได้ด้วยเครื่องและให้มั่นใจว่าคลื่นต่อไปของเทคโนโลยีเอกสารจะถูกสร้างขึ้นสําหรับมนุษย์และเครื่องจักร


สําหรับทีมที่มีการจัดการกับรูปแบบโบราณเครื่องมือเช่นชิงค์เสนอท่อ API ขึ้นอยู่กับ Open-Source เพื่อแปลงเอกสารที่ซับซ้อนไปเป็นรูปแบบที่โครงสร้างขึ้นและแยกส่วนที่กําหนดเองสําหรับกระบวนการทํางาน LLM และ RAG ซึ่งสามารถใช้ได้ทั้งในฐานะจุดปลายทางที่โฮสต์หรือโครงสร้างพื้นฐานที่จัดการด้วยตนเอง

ชิงค์

Chunkr’s document section detection features in action


การต่อสู้เพื่อเติบโตผู้ชมของคุณเป็นผู้เชี่ยวชาญด้านเทคโนโลยี

Tech Audience Acceleratorเป็นจดหมายข่าวสําหรับผู้สร้างเทคโนโลยีอย่างจริงจังเกี่ยวกับการเติบโตของผู้ชมของคุณ คุณจะได้รับโครงสร้างที่พิสูจน์แล้วเทมเพลตและกลยุทธ์ที่อยู่เบื้องหลังความประทับใจของฉัน 30M + (และนับ)




L O A D I N G
. . . comments & more!

About Author

Paolo Perrone HackerNoon profile picture
Paolo Perrone@paoloap
No BS AI/ML Content | ML Engineer with a Plot Twist 🥷 40k+ Followers on LinkedIn

แขวนแท็ก

บทความนี้ถูกนำเสนอใน...

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks