272 mga pagbabasa

Bakit Pag-extracting Text mula sa PDFs Kumuha ng isang Hack - at ang Legacy Design na Nagtatagumpay sa AI

sa pamamagitan ng Paolo Perrone6m2025/07/01
Read on Terminal Reader

Masyadong mahaba; Upang basahin

Ang mga PDF ay dinisenyo sa 90s upang matugunan na ang mga dokumento ay nakikita na identical sa lahat - isang brilliant fix para sa panahon ng printing, ngunit isang kahanga-hangang para sa modernong machine processing. Ang kanilang print-first na disenyo ay naka-locked ng content sa rigid, layout-driven structures na may maliit na semantic meaning, na nagbibigay ng clean data extraction ay karaniwang at error-prone. Ang mga pagsubok tulad ng Tagged PDF at PDF/A ay nagtatakda upang modernize ang format, ngunit ang pag-adopsiyon ay umalis. Ngayon, ang mga modelo ng AI ay dapat i-reverse-engineer structure sa pamamagitan ng layout analysis, OCR, at model orchestration - lamang upang parse text. Tool tulad ng Chunkr ay nag-aalok ng isang
featured image - Bakit Pag-extracting Text mula sa PDFs Kumuha ng isang Hack - at ang Legacy Design na Nagtatagumpay sa AI
Paolo Perrone HackerNoon profile picture
0-item
1-item
2-item

Ang mga developer na nagtrabaho sa mga LLM ay patuloy sa pag-parsing ng dokumento. At bawat ilang buwan, mayroong isang bagong wave ng hype (o frustration) sa paligid ng problema ng PDF. Sa mga oras na iyon, hindi ito ay hindi karaniwang upang makita ang mga software na mga tao na nagtatampok tungkol sa kung paano ang isang format ng file ay naging isang malaking sakit ng ulo. Ngunit ang pag-aari ay hindi bagong.


Marami bago ang LLMs dumating sa larawan, ang buong SaaS na negosyo ay binuo tungkol sa pag-manage ang mga PDFs. At para sa isang mahusay na dahilan, ito ay isang format na hindi na sinusubukan para sa uri ng estrukturadong, makinarya-readable access na naghahanap namin ngayon.


Kapag ang software ay naging tulad ng Adobe Acrobat at ang format ng PDF, ito ay nagsisimula na maging isang permanenteng bahagi ng landscape. Ito ay madaling mag-atubiling na sa ilalim ng iyon ubiquity ay mga katotohanan ng disenyo, limitasyon, at kompromiso na ginawa ng mga katotohanan na engineers na mag-solve ang mga katotohanan na mga problema.


Oo, ang mga PDF ay frustrating. Ngunit hindi nila ipinanganak na napatunayan. Sa katunayan, ito ay isang mahirap na eleganteng solusyon para sa kanilang oras.


Kaya, mag-zoom out. Ang aklat na ito ay nagsimula ng isang step back upang i-explore ang mga orihinal ng format ng PDF: kung paano ito ay dumating, kung ano ang mga problema na ito ay nagsimula upang solve, at kung paano ang mga pag-uugali na ginawa sa unang 90s ay patuloy sa pagitan ng kasalukuyang pila. Ang target: upang malaman hindi lamang ang "hindi ito ay napaka-kakaibang?" ngunit din ang "hindi namin dumating dito?"

Back sa 80s, mula sa papel sa mga pixel.

Ang pagbabago ay nagsimula. mga personal na computer ay bumaba sa popularidad, at papel na dokumento ay hindi pa rin ang default. Software tulad ng VisiCalc, WordStar, WordPerfect, at unang Microsoft Word ay nagsimula ng araw-araw ng isang bagong paraan ng pag-script, edit, at pag-share.

Noong katapusan ng 1980s, ang mga suite ng PC ay may lahat ng iba na matatagpuan mula sa tipwriter. Ang mga manunulat ay maaaring i-tune ang mga ulat minuto bago ang isang meeting. Ang mga analyst ay gumagana ang mga scenarios ng "what-if" sa mga spreadsheet. Ang mga manunulat ay inilathala ng mga test sa fly. Ang mga engineer ay nahahati ang drafting tables sa pamamagitan ng digital blueprints.


Sa karamihan, ang mga dokumento ay naging ang bagong lugar ng trabaho. Hindi lamang ang katapusan na produkto, ngunit kung saan ang trabaho ay nangangahulugan.

Ang mga '90s at ang pagdating ng PDF.

Sa simula ng 1990s, ang pag-unlad ng PC-based na pagproseso ng teksto at electronic file sharing solved maraming mga problema, habang nag-introduce ang mga bagong. Ang bawat computer ay may kanilang sarili na fonts, printer drivers, at layout quirks. Ang isang ulat na nakita na perfect sa isang makina ay maaaring i-print bilang isang jumbled mess sa ibang. Pag-sharing ng mga file ay naging isang gamble.


Upang i-correct ang mga ito, noong 1991, ang co-founder ng Adobe na si John Warnock at ang kanyang team ay nagsimula ng isang proyekto na tinatawag na "Camelot" upang lumikha ng isang tunay na universal na format ng dokumento. Ang resulta ay ang PDF, isang file na binubuo ng mga font, graphics, at layout ng pahina lahat sa isang lugar.


Sa pamamagitan ng pakikipag-ugnayan ang lahat ng mga detalye ng font, larawan, at layout sa isang single file, ang mga PDF ay nagbibigay-daan sa mga gumagamit na ibahagi ng mga dokumento nang walang pag-uusap, at ang kung ano ang makikita mo sa screen ay inilathala ng katulad na katulad sa lahat. Adobe ay inilathala ang libreng Acrobat Reader noong 1994, at sa loob ng limang taon, ang PDF ay naging ang go-to format para sa lahat ng bagay mula sa mga manual ng produkto at mga korporasyon na ulat sa mga government forms at academic papers.


Noong simula ng 2000s, ang "export as PDF" ay isang one-click na pagpipilian sa halos lahat ng mga tool ng pag-aari, at mga organisasyon sa buong industriya ay ipinakilala ito para sa pag-distribusyon, archiving, at pag-compliance.

The PDF Design Trap

Ang PDF Design Trap

Ang halimbawa na ginawa ng PDFs ay napaka-attractive (ang kanilang promise ng pixel-perfect fidelity) ay din na-introduce ang isang nasabing kompromiso: ito ay naka-locked content sa isang rigid, print-first structure.


Sa ilalim ng bawat pag-asa ay isang digital snapshot, na binuo upang imite kung ano ang dumating mula sa isang printer. Headings, tables, paragraphs, walang isa sa mga ito ay may semantic meaning. Para sa isang computer, ito ay lamang ang mga coordinates at mga box ng teksto na binubuo sa buong canvas.


Sa simula, ito ay hindi mahalaga. Ngunit kapag ang mga dokumento ay lumipat mula sa desktop sa mga web browser, mobile screen, at automated pipelines, ang mga cracks ay nagsimula upang ipakita. Gusto mong i-extract clean data? Reflow text sa isang telepono? Malalaman ang strukturong dokumento? Nag-iisa, kung ano ang nakikita clean para sa mga tao ay naging isang mess para sa mga makinarya.
Ideal vs. canvas: why PDF feels uniquely hostile

Tagged PDF at iba pang mga pagsusuri ng modernization

Ang Adobe ay hindi nakakaalam sa problema. Tagged PDF (impormasyon noong 2001 at pagkatapos ay formalized sa PDF/UA para sa accessibility) ay nagdagdag ng isang HTML-like logical structure. Ito ay hindi naging universal, ngunit ito ay kinakailangan para sa access na mga dokumento ng pamahalaan at ginagamit nang karamihan sa mga workflows ng malaking kumpanya. Ang iba pang mga milestones, tulad ng PDF/A para sa long-term archiving, XMP metadata suporta, at ang 2008 hand-off ng mga spesifikasyon sa ISO, ay nagpapakita ng patuloy na mga pagsusuri upang modernize ang format. Gayunpaman, ang karagdagang pag-adopsiyon ay nakalipas; tagging ay hindi nakikita para sa karamihan ng mga gumagamit, mabuti para sa mga tagas, at karamihan na nakalipas sa


Maaari mong makita ito sa mga heavyweights tulad ng DocuSign, sa maraming web-based PDF editors tulad ng DocHub, at sa open-source libraries tulad ng Poppler, na kung saan ang mga developer ay tumutulong lamang sa pagdraw ng teksto mula sa PDFs.


Ito ay ang dahilan kung bakit ang mga pangunahing player ng cloud ay nag-aalok ng karaniwang AI muscle sa problema na ito: AWS na may Textract, Google na may Document AI, at Microsoft na may Azure AI Document Intelligence. Ang merkado ay nilikha, ang mga produkto ay nagsimula, at maraming mga revenue na lumilitaw. Adobe, kung gusto namin ito o hindi, ay nagbabago ang laro.

Mga pahinang tumuturo sa AI-Native PDF Handling

Pagkatapos ng ChatGPT, ang "problema ng PDF" ay bumaba. Ang mga kumpanya ay nagkakahalaga upang i-feed ang kanilang data sa LLMs, lamang upang i-hit sa isang wall: ang karamihan ng mahalagang impormasyon ay naka-locked sa loob ng PDFs.


Sa unang pagkakataon, ang target ay simple: lamang i-extract clean text para sa Retrieval-Augmented Generation (RAG). Ngunit ito ay mabilis na natagpuan na masyadong pangunahing. Walang awareness ng layout, teksto mula sa mga columns ay mababago, mga tables ay bumabago sa nonsense, mga imahe ay inilathala, at importante na konteksto ay nawala.


Ang Modern Document AI ngayon ay nagtrabaho sa mga modelo upang malaman ang visual at logical na layout ng isang dokumento: pag-identifying mga titulo, paragraphs, tables, at mga imahe.


Ang ibig sabihin naman ng non-repeating, walang numero o magkakatabing numero na nauulit ng infinite number of times.

  • Layout analysis upang malaman ang strukturong dokumento,
  • OCR upang i-extract ang teksto mula sa mga imahe at scan ng mga dokumento,
  • VLM orchestration upang i-coordinate ang mga iba pang mga bahagi ng AI.

Custom AI pipelines layers required for document processing 

Ang ironyong ito ay mahigpit: ginagamit namin ang ilang mga pinaka-mahalagang mga modelo ng AI na lumikha ng isang problema na binubuo mula sa isang 30-taon na taon na tagapangasiwa sa pagtatrabaho ng mga dokumento tulad ng mga larawan.


Habang ang mga PDF ay gradually evolutioned, ang kanilang print-first DNA ay patuloy na kumita ng mga gastos sa bawat modernong workflow. Structured formats, naka-scanned o na-photographed, ay nagpapakita ng ilang mga parehong mga halimbawa, ngunit ang disenyo ng PDF ay bumubuo ang sakit.

isang path forward

Hindi namin maaaring i-scrap ang mga dekada ng mga PDF sa isang gabi, ngunit maaari naming i-evitate ang pag-repeating ng kasaysayan. Para sa bagong nilalaman, piliin ang mga digital na format na preserves semantics sa default:

  • HTML5 para sa Web
  • Markdown-derived standards para sa mga teknikal na dokumento,
  • o DOCX/OOXML kung ang Office compatibility ay isang must.


Kapag ang isang fixed-layout file ay hindi kinakailangan, i-export na may buong tag at metadata intact; ilang mga tool sa pag-aaralan ngayon ay automatize ito. Government procurement rules na nangangailangan ng PDF/UA compliance ay isang positibo na precedent. Similar pressure mula sa mga negosyo sa mga vendor at mga regulator ay maaaring i-push ang tagging mula sa "good-to-have" sa "table stakes."


Ang long-term, open standards tulad ng W3C's Portable Web Publication o EPUB 3, kasama ang mga nakaraang containerized JSON-based formats, mga promise ng fidelity nang hindi na-sacrifice ang strukturong. Supporting ang mga ito sa mainstream authoring tools (at educating users to adopt them) will spare the next generation from writing vision models just to pull text out a contract.


Ang kasaysayan ng mga PDFs ay nagpapakita na ang unang mga pagpipilian ng disenyo ay nag-echo para sa mga dekada. Ang leksyon ay hindi upang humingi ng mga engineer na nag-solve ang problema ng 1991; ito ay upang maunawaan na ang mga “good enough” shortcuts ng araw na ito ay naging mga mahalagang mga handcuffs ng araw na ito. I-embed semantics sa source, back-open, machine-readable standards, at magtatagumpay na ang susunod na wave ng teknolohiya ng dokumento ay binuo para sa mga tao at mga makinarya sama.


Para sa mga team na nagtatrabaho sa mga legacy formats, mga tool tulad ngang chunkrmag-aalok ng isang pipeline na batay sa Open-Source API upang i-convert ang mga kompleksong dokumento sa estruturadong, mga format na tinutukoy para sa mga workflows ng LLM at RAG, na magagamit bilang hosted endpoints o self-managed infrastructure.

ang chunkr

Chunkr’s document section detection features in action


Magkakasakit upang bumuo ang iyong audience bilang isang tech professional?

Mga Accelerator ng TeknolohiyaIto ay ang go-to newsletter para sa tech creators serious about growing their audience. You will get the proven frameworks, templates, and tactics behind my 30M+ impressions (at counting).




Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks