Ang mga developer na nagtrabaho sa mga LLM ay patuloy sa pag-parsing ng dokumento. At bawat ilang buwan, mayroong isang bagong wave ng hype (o frustration) sa paligid ng problema ng PDF. Sa mga oras na iyon, hindi ito ay hindi karaniwang upang makita ang mga software na mga tao na nagtatampok tungkol sa kung paano ang isang format ng file ay naging isang malaking sakit ng ulo. Ngunit ang pag-aari ay hindi bagong. Marami bago ang LLMs dumating sa larawan, ang buong SaaS na negosyo ay binuo tungkol sa pag-manage ang mga PDFs. At para sa isang mahusay na dahilan, ito ay isang format na hindi na sinusubukan para sa uri ng estrukturadong, makinarya-readable access na naghahanap namin ngayon. Kapag ang software ay naging tulad ng Adobe Acrobat at ang format ng PDF, ito ay nagsisimula na maging isang permanenteng bahagi ng landscape. Ito ay madaling mag-atubiling na sa ilalim ng iyon ubiquity ay mga katotohanan ng disenyo, limitasyon, at kompromiso na ginawa ng mga katotohanan na engineers na mag-solve ang mga katotohanan na mga problema. Oo, ang mga PDF ay frustrating. Ngunit hindi nila ipinanganak na napatunayan. Sa katunayan, ito ay isang mahirap na eleganteng solusyon para sa kanilang oras. Kaya, mag-zoom out. Ang aklat na ito ay nagsimula ng isang step back upang i-explore ang mga orihinal ng format ng PDF: kung paano ito ay dumating, kung ano ang mga problema na ito ay nagsimula upang solve, at kung paano ang mga pag-uugali na ginawa sa unang 90s ay patuloy sa pagitan ng kasalukuyang pila. Ang target: upang malaman hindi lamang ang "hindi ito ay napaka-kakaibang?" ngunit din ang "hindi namin dumating dito?" Back sa 80s, mula sa papel sa mga pixel. Ang pagbabago ay nagsimula. mga personal na computer ay bumaba sa popularidad, at papel na dokumento ay hindi pa rin ang default. Software tulad ng VisiCalc, WordStar, WordPerfect, at unang Microsoft Word ay nagsimula ng araw-araw ng isang bagong paraan ng pag-script, edit, at pag-share. Noong katapusan ng 1980s, ang mga suite ng PC ay may lahat ng iba na matatagpuan mula sa tipwriter. Ang mga manunulat ay maaaring i-tune ang mga ulat minuto bago ang isang meeting. Ang mga analyst ay gumagana ang mga scenarios ng "what-if" sa mga spreadsheet. Ang mga manunulat ay inilathala ng mga test sa fly. Ang mga engineer ay nahahati ang drafting tables sa pamamagitan ng digital blueprints. Sa karamihan, ang mga dokumento ay naging ang bagong lugar ng trabaho. Hindi lamang ang katapusan na produkto, ngunit kung saan ang trabaho ay nangangahulugan. Ang mga '90s at ang pagdating ng PDF. Sa simula ng 1990s, ang pag-unlad ng PC-based na pagproseso ng teksto at electronic file sharing solved maraming mga problema, habang nag-introduce ang mga bagong. Ang bawat computer ay may kanilang sarili na fonts, printer drivers, at layout quirks. Ang isang ulat na nakita na perfect sa isang makina ay maaaring i-print bilang isang jumbled mess sa ibang. Pag-sharing ng mga file ay naging isang gamble. Upang i-correct ang mga ito, noong 1991, ang co-founder ng Adobe na si John Warnock at ang kanyang team ay nagsimula ng isang proyekto na tinatawag na "Camelot" upang lumikha ng isang tunay na universal na format ng dokumento. Ang resulta ay ang PDF, isang file na binubuo ng mga font, graphics, at layout ng pahina lahat sa isang lugar. Sa pamamagitan ng pakikipag-ugnayan ang lahat ng mga detalye ng font, larawan, at layout sa isang single file, ang mga PDF ay nagbibigay-daan sa mga gumagamit na ibahagi ng mga dokumento nang walang pag-uusap, at ang kung ano ang makikita mo sa screen ay inilathala ng katulad na katulad sa lahat. Adobe ay inilathala ang libreng Acrobat Reader noong 1994, at sa loob ng limang taon, ang PDF ay naging ang go-to format para sa lahat ng bagay mula sa mga manual ng produkto at mga korporasyon na ulat sa mga government forms at academic papers. Noong simula ng 2000s, ang "export as PDF" ay isang one-click na pagpipilian sa halos lahat ng mga tool ng pag-aari, at mga organisasyon sa buong industriya ay ipinakilala ito para sa pag-distribusyon, archiving, at pag-compliance. The PDF Design Trap Ang PDF Design Trap Ang halimbawa na ginawa ng PDFs ay napaka-attractive (ang kanilang promise ng pixel-perfect fidelity) ay din na-introduce ang isang nasabing kompromiso: ito ay naka-locked content sa isang rigid, print-first structure. Sa ilalim ng bawat pag-asa ay isang digital snapshot, na binuo upang imite kung ano ang dumating mula sa isang printer. Headings, tables, paragraphs, walang isa sa mga ito ay may semantic meaning. Para sa isang computer, ito ay lamang ang mga coordinates at mga box ng teksto na binubuo sa buong canvas. Sa simula, ito ay hindi mahalaga. Ngunit kapag ang mga dokumento ay lumipat mula sa desktop sa mga web browser, mobile screen, at automated pipelines, ang mga cracks ay nagsimula upang ipakita. Gusto mong i-extract clean data? Reflow text sa isang telepono? Malalaman ang strukturong dokumento? Nag-iisa, kung ano ang nakikita clean para sa mga tao ay naging isang mess para sa mga makinarya. Tagged PDF at iba pang mga pagsusuri ng modernization Ang Adobe ay hindi nakakaalam sa problema. Tagged PDF (impormasyon noong 2001 at pagkatapos ay formalized sa PDF/UA para sa accessibility) ay nagdagdag ng isang HTML-like logical structure. Ito ay hindi naging universal, ngunit ito ay kinakailangan para sa access na mga dokumento ng pamahalaan at ginagamit nang karamihan sa mga workflows ng malaking kumpanya. Ang iba pang mga milestones, tulad ng PDF/A para sa long-term archiving, XMP metadata suporta, at ang 2008 hand-off ng mga spesifikasyon sa ISO, ay nagpapakita ng patuloy na mga pagsusuri upang modernize ang format. Gayunpaman, ang karagdagang pag-adopsiyon ay nakalipas; tagging ay hindi nakikita para sa karamihan ng mga gumagamit, mabuti para sa mga tagas, at karamihan na nakalipas sa Maaari mong makita ito sa mga heavyweights tulad ng DocuSign, sa maraming web-based PDF editors tulad ng DocHub, at sa open-source libraries tulad ng Poppler, na kung saan ang mga developer ay tumutulong lamang sa pagdraw ng teksto mula sa PDFs. Ito ay ang dahilan kung bakit ang mga pangunahing player ng cloud ay nag-aalok ng karaniwang AI muscle sa problema na ito: AWS na may Textract, Google na may Document AI, at Microsoft na may Azure AI Document Intelligence. Ang merkado ay nilikha, ang mga produkto ay nagsimula, at maraming mga revenue na lumilitaw. Adobe, kung gusto namin ito o hindi, ay nagbabago ang laro. Mga pahinang tumuturo sa AI-Native PDF Handling Pagkatapos ng ChatGPT, ang "problema ng PDF" ay bumaba. Ang mga kumpanya ay nagkakahalaga upang i-feed ang kanilang data sa LLMs, lamang upang i-hit sa isang wall: ang karamihan ng mahalagang impormasyon ay naka-locked sa loob ng PDFs. Sa unang pagkakataon, ang target ay simple: lamang i-extract clean text para sa Retrieval-Augmented Generation (RAG). Ngunit ito ay mabilis na natagpuan na masyadong pangunahing. Walang awareness ng layout, teksto mula sa mga columns ay mababago, mga tables ay bumabago sa nonsense, mga imahe ay inilathala, at importante na konteksto ay nawala. Ang Modern Document AI ngayon ay nagtrabaho sa mga modelo upang malaman ang visual at logical na layout ng isang dokumento: pag-identifying mga titulo, paragraphs, tables, at mga imahe. Ang ibig sabihin naman ng non-repeating, walang numero o magkakatabing numero na nauulit ng infinite number of times. 
 
 
 
 Layout analysis upang malaman ang strukturong dokumento, OCR upang i-extract ang teksto mula sa mga imahe at scan ng mga dokumento, VLM orchestration upang i-coordinate ang mga iba pang mga bahagi ng AI. Ang ironyong ito ay mahigpit: ginagamit namin ang ilang mga pinaka-mahalagang mga modelo ng AI na lumikha ng isang problema na binubuo mula sa isang 30-taon na taon na tagapangasiwa sa pagtatrabaho ng mga dokumento tulad ng mga larawan. Habang ang mga PDF ay gradually evolutioned, ang kanilang print-first DNA ay patuloy na kumita ng mga gastos sa bawat modernong workflow. Structured formats, naka-scanned o na-photographed, ay nagpapakita ng ilang mga parehong mga halimbawa, ngunit ang disenyo ng PDF ay bumubuo ang sakit. isang path forward Hindi namin maaaring i-scrap ang mga dekada ng mga PDF sa isang gabi, ngunit maaari naming i-evitate ang pag-repeating ng kasaysayan. Para sa bagong nilalaman, piliin ang mga digital na format na preserves semantics sa default: 
 
 
 
 HTML5 para sa Web Markdown-derived standards para sa mga teknikal na dokumento, o DOCX/OOXML kung ang Office compatibility ay isang must. Kapag ang isang fixed-layout file ay hindi kinakailangan, i-export na may buong tag at metadata intact; ilang mga tool sa pag-aaralan ngayon ay automatize ito. Government procurement rules na nangangailangan ng PDF/UA compliance ay isang positibo na precedent. Similar pressure mula sa mga negosyo sa mga vendor at mga regulator ay maaaring i-push ang tagging mula sa "good-to-have" sa "table stakes." Ang long-term, open standards tulad ng W3C's Portable Web Publication o EPUB 3, kasama ang mga nakaraang containerized JSON-based formats, mga promise ng fidelity nang hindi na-sacrifice ang strukturong. Supporting ang mga ito sa mainstream authoring tools (at educating users to adopt them) will spare the next generation from writing vision models just to pull text out a contract. Ang kasaysayan ng mga PDFs ay nagpapakita na ang unang mga pagpipilian ng disenyo ay nag-echo para sa mga dekada. Ang leksyon ay hindi upang humingi ng mga engineer na nag-solve ang problema ng 1991; ito ay upang maunawaan na ang mga “good enough” shortcuts ng araw na ito ay naging mga mahalagang mga handcuffs ng araw na ito. I-embed semantics sa source, back-open, machine-readable standards, at magtatagumpay na ang susunod na wave ng teknolohiya ng dokumento ay binuo para sa mga tao at mga makinarya sama. Para sa mga team na nagtatrabaho sa mga legacy formats, mga tool tulad ng mag-aalok ng isang pipeline na batay sa Open-Source API upang i-convert ang mga kompleksong dokumento sa estruturadong, mga format na tinutukoy para sa mga workflows ng LLM at RAG, na magagamit bilang hosted endpoints o self-managed infrastructure. ang chunkr ang chunkr Magkakasakit upang bumuo ang iyong audience bilang isang tech professional? Ito ay ang go-to newsletter para sa tech creators serious about growing their audience. You will get the proven frameworks, templates, and tactics behind my 30M+ impressions (at counting). Mga Accelerator ng Teknolohiya https://techaudienceaccelerator.substack.com/?embedable=true

The is an opinion piece based on the author’s POV and does not necessarily reflect the views of HackerNoon.

Walkthroughs, tutorials, guides, and tips. This story will teach you how to do something new or how to do something better.

This story will praise and/or roast a product, company, service, game, or anything else people like to review on the Internet.

👉 Join The Tech Audience Accelerator 👈

Read My Stories

Ang audio na ito ay ginawa sa orihinal na wika ng kuwento!

Bakit Pag-extracting Text mula sa PDFs Kumuha ng isang Hack - at ang Legacy Design na Nagtatagumpay sa AI

About Author

MGA KOMENTO

HANG TAGS

ANG ARTIKULONG ITO AY IPINAKITA SA

Related Stories

How I deployed my spark document classification(Logistic Regression) model/s as a standalone app…

Getting intimate with Ethereum tokens

COVID-19: We Need More Than Data, We Need Insights!

Encrypted Instant Messaging Recommendations January 2017

How I deployed my spark document classification(Logistic Regression) model/s as a standalone app…

Getting intimate with Ethereum tokens

COVID-19: We Need More Than Data, We Need Insights!

Encrypted Instant Messaging Recommendations January 2017

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps