cave: Textextraktion aus PDF

QuerDenker, Samstag, 10.08.2024, 15:43 (vor 76 Tagen) @ Andudu1880 Views

Hallo Andudu,

PDF war, als mit PS/Postscript verwandt, immer an der Schriftsetzung orientiert.
D.h. es geht um 'schöne Visualisierung' und eben nicht darum, 'textuelle Inhalte' zu transportieren.

Deswegen wird beim Speichern als PDF nicht zwingend der Textfluss erhalten!

Das erschwert es generell Text - oder auch Tabellen - aus PDFs zu extrahieren.

Folge ist, dass ohne 'stabilen' Urtext, auch keine 'stabile' Übersetzung zu erwarten ist... ;)

Besten Gruß

QuerDenker

--
10cc: 'communication is the problem to the answer' <img src=" />


gesamter Thread:

RSS-Feed dieser Diskussion

Werbung