275 საკითხავი

რატომ ტექსტი ექსტრაქტი PDFs ჯერ კიდევ გრძნობს hack - და საწყისი დიზაინი, რომელიც გაგრძელებს AI Stuck

მიერ Paolo Perrone6m2025/07/01
Read on Terminal Reader

Ძალიან გრძელი; Წაკითხვა

PDF-ები განკუთვნილია 90s- ში, რათა უზრუნველყოს, რომ დოკუმენტები ჩანს იგივე – ბედნიერი გადაწყვეტა ბეჭდვის ასაკში, მაგრამ ღრმა თანამედროვე მანქანების დამუშავება. მათი ბეჭდვის პირველი დიზაინი შეზღუდული შინაარსი სტრუქტურებს მყარი, layout-driven სტრუქტურებს ნაკლებად სემანტიკური მნიშვნელობა, რაც სუფთა მონაცემების ექსპერიმენტი რთული და შეცდომა მოპოვება. გამოცდილება, როგორიცაა Tagged PDF და PDF/A მიზნით, რათა მოდულიზოს ფორმატში, მაგრამ აღდგენა დასაწყისში. ახლა, AI მოდელები უნდა შეცვალოთ ინჟინერი სტრუქტურა მეშვეობით
featured image - რატომ ტექსტი ექსტრაქტი PDFs ჯერ კიდევ გრძნობს hack - და საწყისი დიზაინი, რომელიც გაგრძელებს AI Stuck
Paolo Perrone HackerNoon profile picture
0-item
1-item
2-item

პროგრამული უზრუნველყოფის განვითარებლები, რომლებიც მუშაობს LLM- სთან, მუდმივად დოკუმენტების შეამოწმოებს. და რამდენიმე თვის განმავლობაში, PDF- ის პრობლემის გარშემო ახალი ჰიპის (ან frustration) ტვინისა. ამ დროს, ეს არ არის უარყოფითი, რომ პროგრამული უზრუნველყოფის ხალხებს ვხედავ, თუ როგორ ერთი ფაილი ფორმატში შევიდა ასეთი ფართო ტკივილი. მაგრამ კმაყოფილება არ არის ახალი.


დიდი ხნის წინ, სანამ LLMs შევიდა სურათი, მთლიანად SaaS ბიზნესები შეიქმნა გარშემო მართვის PDFs. და კარგი მიზეზი, ეს არის ფორმატი, რომელიც არასდროს განკუთვნილია ტიპის სტრუქტურული, მანქანა წაიკითხული ხელმისაწვდომობა ჩვენ ახლა მოითხოვს.


მას შემდეგ, რაც პროგრამული უზრუნველყოფა იზრდება, როგორც Adobe Acrobat და PDF ფორმატში, იგი იწყებს, როგორც მუდმივი ნაწილი პლატფორმა. ადვილად დაგავიწყდეთ, რომ ამ ყველაფერს მდებარეობს რეალური დიზაინი გადაწყვეტილებები, შეზღუდვა და კომფორტი, რომელიც რეალური ინჟინერები გადაწყვეტა რეალური პრობლემები. პრობლემები, რომ, დროის განმავლობაში, განვითარდა და გახდა რკინიგზები დღეს.


რა თქმა უნდა, PDF-ები frustrating. მაგრამ ისინი არ მოხდა დაზიანებული. რა თქმა უნდა, ისინი იყო შეუზღუდავი ელეგანტური გადაწყვეტილება მათი დრო.


ეს ისტორია წაიკითხა PDF ფორმატში: როგორ იყო ეს, რა პრობლემები იგი გადაიხადოს, და თუ როგორ გადაიხადეთ 90s- ის დასაწყისში მიღებული გადაწყვეტილებები ჯერ კიდევ გაგრძელდება დღეს. მიზანია: შეინახოთ არა მხოლოდ “არით რა ეს ძალიან რთული?”, არამედ “არით როგორ მივიღეთ აქ?”

80s, წლიდან ფურცელი pixels.

პერსონალური კომპიუტერების პოპულარობა გაზრდა, და პერსონალური დოკუმენტები არ იყო უფრო default. პროგრამული უზრუნველყოფა, როგორიცაა VisiCalc, WordStar, WordPerfect, და ადრე Microsoft Word დაარსდა ახალი გზა წაიკითხვა, რედაქტირება და გაზიარება.

1980-ის ბოლოში, PC- სუტიები ყველა არაფერი შეხვდა, ვიდრე ბეჭდვა. მენეჯმენტებს შეუძლიათ შეამოწმოთ ანგარიშები წუთი წინ, სანამ შეხვედრა. ანალიზიტორები აწარმოებენ “What-if” სტანდარტებს ბეჭდვის ფურცებში. სამეცნიერო მენეჯმენტები ბეჭდვის ტესტიებს ბეჭდვა. ინჟინერები შეცვალოს ბეჭდვის ფურცლები ციფრული ბეჭდვის ფურცებში.


უფრო მეტად, დოკუმენტები გახდა ახალი სამუშაო ადგილი. არა მხოლოდ საბოლოო პროდუქტი, არამედ სადაც მუშაობა ნამდვილად მოხდა.

90s და დასაწყისში PDF.

1990 წელს, PC-based ტექსტის დამუშავების და ელექტრონული ფაილების გაზიარების გაზიარება მრავალფეროვანი პრობლემები გადაწყვეტა, ხოლო ახალი პრობლემები. თითოეული კომპიუტერს აქვს საკუთარი ფაილები, ბეჭდვის დისკები, და სტრუქტურული ცუდი. ანგარიშები, რომლებიც შესანიშნავი იყო ერთი მანქანა, შეუძლია ბეჭდვა, როგორც ცუდი ცუდი სხვაში. ფაილების გაზიარება გახდა სათამაშო.


იმისათვის, რომ ეს გააუმჯობესდეს, 1991 წელს Adobe- ის პარტნიორმა John Warnock და მისი გუნდი დაიწყო პროექტის კოდექსი "Camelot" შექმნას ნამდვილად უნიკალური დოკუმენტის ფორმატი. შედეგად იყო PDF, ფაილი, რომელიც შეიცავს ფერი, გრაფიკები და გვერდზე განლაგება ყველა ერთი ადგილას. ეს "დიიტალური ფურცელი" უზრუნველყოფს, რომ დოკუმენტები ხედავთ მხოლოდ იგივე, თუ არა Windows, Mac, ან ნებისმიერი ბეჭდვა.


Adobe- ის უფასო Acrobat Reader- ის ხელმისაწვდომია 1994 წელს, და 5 წლის განმავლობაში, PDF- ის გახდა go-to ფორმატში ყველაფერს, მათ შორის პროდუქტის მექანიკაციები და კომპანიის ანგარიშები, მთავრობის ფორმები და უნივერსიტეტის დოკუმენტები.


2000 წლის დასაწყისში, "პროგნოზი როგორც PDF" იყო ერთ-ერთი კლიკური ვარიანტი თითქმის თითოეული ავტორიზაციის ინსტრუმენტში, და ინდუსტრიების საწარმოები შეესაბამება ის გაფართოებას, archiving და კონფიგურაცია. და ეს ჯერ კიდევ არის სტანდარტი დღეს.

The PDF Design Trap

PDF დიზაინი Trap

იგივე რამ, რაც PDFs ძალიან მოწინავე (თუ შეთავაზება pixels სრულყოფილი სიზუსტით) ასევე შეიმუშავებს შეუზღუდავი კომპიუტერული: იგი დახურა შინაარსი მყარი, print-first სტრუქტურა.


თითოეული ფურცელი ფურცელი ძირითადად ციფრული snapshot იყო, რომელიც შექმნილია, რათა იმიტომ, რა გამოჩნდა ბეჭდვა. ტაბლეტები, ტაბლეტები, პარამეტრები, არაფერი არ იყო სმენტური მნიშვნელობა. კომპიუტერისთვის, ეს იყო მხოლოდ კონდიტორები და ტექსტური ყუთი, რომელიც გაზაფხულებულია ფურცელი.


პირველი, ეს არ იყო მნიშვნელობა. მაგრამ, როგორც დოკუმენტები გადაიხადეს desktop-დან ვებ ბრაუზერებს, მობილური ეკრანებს და ავტომატური pipelines, ფარები დაიწყო გამოჩნდეს. გსურთ გააუმჯობესოთ სუფთა მონაცემები? Reflow ტექსტი ტელეფონზე? ცოდნა დოკუმენტების სტრუქტურა? ერთხელ, ის, რაც ჩვეულებრივ ჩვეულებრივ ადამიანებს ჩვეულებრივ გახდა მანქანები.
Ideal vs. canvas: why PDF feels uniquely hostile

PDF და სხვა მოდულიზაციის გამოცდილება

Adobe არ იყო ცუდი პრობლემა. Tagged PDF (დაწვრილებული 2001 წელს და შემდეგ ფორმალურიზებული PDF / UA ხელმისაწვდომობისთვის) დაამატა HTML- ის სახის ლოგიკური სტრუქტურა. ეს არასდროს არ იყო ერთობლივი, მაგრამ ეს არის მოთხოვნა ხელმისაწვდომი მთავრობის დოკუმენტები და ფართოდ გამოიყენება დიდი საწარმოების სამუშაო ფართებში. სხვა მატჩები, როგორიცაა PDF / A გრძელვადიანი archiving, XMP metadata მხარდაჭერა, და 2008 წლიდან მოცემული სპეციფიკაცია ISO- ს, აჩვენებს სტანდარტული მძღოლებს ფორმატში. თუმცა, ფართო მოპოვება შეუწყობს; მაგიგება ყველაზე მომხმარებლისთვის არ არის ჩანს, შექმნილებებისთვის


თქვენ ვხედავ, რომ ეს არის heavyweights, როგორიცაა DocuSign, ბევრი ვებ-ფუძნებული PDF რედაქტორები, როგორიცაა DocHub, და open-source ბიბლიოთეკები, როგორიცაა Poppler, რომელიც განვითარებლები დამოკიდებულია მხოლოდ ტექსტი PDFs.


ეს არის ასევე მიზეზი, რომ დიდი cloud მოთამაშეები ყველა განიცდიან ამ პრობლემას: AWS ერთად Textract, Google ერთად Document AI, და Microsoft ერთად Azure AI Document Intelligence. ბაზარზე გამოჩნდა, პროდუქცია შემდეგ, და ბევრი წვრთნები გამოჩნდა. Adobe, თუ გსურთ ან არ გსურთ, შეიცვალა თამაში.

AI-Native PDF მიწოდება

როდესაც ChatGPT შეხვდა, “PDF პრობლემა” გაფართოდა. კომპანიები განიცდიან, რომ მათი მონაცემები LLMs, მხოლოდ შეხვდა ფურცელი: უმსხვილესი, რომ ღირებულება ინფორმაცია დახურულია PDFs.


პირველი, მიზანი იყო მარტივი: უბრალოდ ატვირთოთ სუფთა ტექსტი Retrieval-Augmented Generation (RAG). მაგრამ ეს სწრაფად გამოჩნდა ძალიან ძირითადი. გარეშე განლაგების აღიარება, ტექსტი კოლადებში შეჩერდა, ტაბლეები გადაიხადეს ცუდი, სურათები შეუზღუდავი და მნიშვნელოვანი კონტაქტი დაკარგა.


თანამედროვე დოკუმენტის AI ახლა მოდელები აწარმოებს დოკუმენტის ვიზუალური და ლოგიკური განლაგება: აღინიშნა Titles, Paragraphs, Tables, და სურათები. ასე რომ, AI შეუძლია რეაგირება ინფორმაცია, შეუწყოს რეაგირებული headers/footers, და შეინახოთ საერთო სტრუქტურა.


რა უნდა იყოს მარტივი მონაცემთა აღჭურვილობა ახლა მოითხოვს მრავალფეროვანი სპეციალიზებული ფართობი:

  • Layout ანალიზი დოკუმენტის სტრუქტურა,
  • OCR- ის გამოყენება სურათების და სკანირებული დოკუმენტების ტექსტში,
  • VLM არქიტექტურა ამ სხვადასხვა AI კომპონენტების координиება.

Custom AI pipelines layers required for document processing 

თითოეული ფართობი დაამატებს თარიღი, პოტენციური შეცდომები, და კომპიუტერული ღირებულება. უარყოფითი არის: ჩვენ გამოიყენებთ ზოგიერთი ყველაზე მოწინავე AI მოდელები, რომლებიც უკვე შექმნილია, რათა გადაიხადოს პრობლემა, რომელიც იწვევს 30 წლის წლიური გადაწყვეტილება დოკუმენტების შენარჩუნებლად, როგორიცაა ფოტოები.


მიუხედავად იმისა, რომ PDF-ები შეიცვალა, მათი ბეჭდვის ორიგინალური DNA- ს ყველა თანამედროვე სამუშაო ფოსტის ღირებულება იზრდება. სტრუქტურული ფორმატები, სინთრირებული ან ფოტოგომატირებული, შეიცავს ზოგიერთი იგივე გარიგებები, მაგრამ PDF- ის დიზაინი გაზრდის ტკივილი.

გზა წინასწარ

ჩვენ არ შეგვიძლია ღამით წუთი წუთი PDF, მაგრამ ჩვენ შეგვიძლია თავიდან ავიცილოთ ისტორიის რეპუტაცია. ახალი შინაარსითვის, აირჩიეთ ინდივიდუალური ციფრული ფორმატები, რომლებიც შეინარჩუნებენ სიტყვას default:

  • HTML5 for the Web – HTML5 for ინტერნეტ
  • Markdown- ის გამოქვეყნებული სტანდარტები ტექნიკური დოკუმენტებისთვის,
  • ან DOCX/OOXML, როდესაც Office- ის თავსებადი უნდა იყოს.


როდესაც მუდმივი ფაილი არ არის თავიდან ავიცილოთ, ექსპორტი სრული ტაქსები და მეტატეგატები შეუზღუდავი; ზოგიერთი საავტომობილო ინსტრუმენტები ახლა ავტომატებს ეს. საავტომობილო მიწოდების წესები, რომლებიც მოითხოვს PDF / UA შეესაბამება, არის პოპულარული პრაქტიკა. მსგავსი საწარმოების წნევა მომწოდებლები და რეგისტრატორები შეიძლება დატოვოს ტაქსების “კედური-to-have” to “tabel stakes”.


W3C- ის Portable Web Publication- ის ან EPUB-3- ის როგორიცაა მომავალი კონტეინერიზებული JSON-based ფორმატები გთავაზობთ საბოლოო სტანდარტების უზრუნველყოფს სტრუქტურა. ეს ინსტრუმენტების მხარდაჭერა (და მომხმარებელს განათავსება მათ მისაღებად) შემდეგი Generation- ს შეუწყობს ხაზის მოდულების შექმნას მხოლოდ კონტაქტში ტექსტში.


PDF- ის ისტორია უზრუნველყოფს, რომ ადრეული დიზაინი არჩევანი იღებს წლების განმავლობაში. სასწავლო არ არის ინჟინრები, რომლებიც 1991 წლის პრობლემას გადაწყვეტა; ეს არის ის, რომ აღიაროთ, რომ დღესასწაული "მახვეწილი საკმარისი" კეთილდღეობა გახდება მომავალში ძვირადღირებული კეთილდღეები. გთხოვთ შეფუთვა სემანტიკა წყაროში, ღია, მანქანით წაიკითხული სტანდარტებს და უზრუნველყოს, რომ მომავალი დოკუმენტის ტექნოლოგია შექმნილია ადამიანის და მანქანებისთვის.


ამჟამად, ამჟამად, ამჟამად, ამჟამად, ამჟამად, ამჟამად, ამჟამად, ამჟამად, ამჟამადChunkrუზრუნველყოფს Open-Source API- ის დაფუძნებული pipeline, რათა კონვერტაცია კომპლექსური დოკუმენტები სტრუქტურული, crunked ფორმატები განკუთვნილია LLM და RAG workflows, ხელმისაწვდომია ორივე სასტუმრო endpoints ან თვითმართველობის მართვის ინფრასტრუქტურის.

Chunkr

Chunkr’s document section detection features in action


ძალისხმევა გაზრდის თქვენი კლიენტს როგორც ტექნიკური პროფესიონალი?

Tech Audience Accelerator-ის გამოყენებაარის go-to ბილეთები ტექნოლოგიური შექმნათები მნიშვნელოვანია ზრდის მათი კლიენტებს. თქვენ მიიღებთ გამოცდილი Frameworks, ნიმუშები, და ტაქტიკები შემდეგ ჩემი 30M+ შეჩერება (და შეზღუდვა).




Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks