poppler-utils zur Bearbeitung von pdf-Dateien

Kategorie: SW linux Einzeiler

vom 01. 10. 2022




poppler-utils


Viele nützliche Informationen und Hilfestellungen erhält man u.a. vom ubuntuusers-wiki.

Es verrät uns, daß das Paket folgende (auf Poppler beruhende) Kommandozeilenprogramme enthält:

pdfdetach    – Listet oder entnimmt eingebettete Dateien (Anhänge)
pdffonts     – Analyse von Schriften
pdfimages    – Entnahme von Bildern
pdfinfo      – Dokumentinformationen
pdfseparate  – Werkzeug zur Entnahme von Seiten
pdfunite     – Zusammenführen von PDF-Dateien
pdfsig       – prüft digitale Signaturen
pdftocairo   – Umwandlung von PDF nach PNG/JPEG/PDF/PS/EPS/SVG mittels Cairo
pdftohtml    – Umwandlung von PDF nach HTML
pdftoppm     – Umwandlung von PDF nach PPM/PNG/JPEG
pdftops      – Umwandlung von PDF nach PostScript (PS)
pdftotext    – Entnahme von Text

Hinweis:
Falls Du zu den Leuten gehörst, die gleich weglaufen, wenn sie Kommandozeile hören: Nicht erschrecken!
In einem der nächsten Blogartikel werden wir einige Funktionen als Erweiterung zu Caja implementieren, so daß sie per Mausklick ausgeführt werden können.

Das Paket poppler-utils ist in den gängigen Distributionen enthalten und kann mit dem Paketmanager installiert werden.

Wie üblich liefert das Argument --help bei allen Programmen eine Anleitung zur Bedienung, die bei diesen tools meist auch noch sehr einfach ist.


Ein Beispiel:


Wir wollen aus der Datei

die beiden Bilder entnehmen. Dann liefert der Befehl:

pdfimages -png Datei_mit_Bildern.pdf Bild

zwei neue Dateien, nämlich Bild-001.png und Bild-002.png. (Evtl. bekommt man auch noch einige Bilder dazu, die sich in der PDF noch „versteckt“ haben.)

Hätten wir stattdessen gesagt:

pdfimages -png Datei_mit_Bildern.pdf Logo

so hätten wir Logo-001.png und Logo-002.png bekommen.


Noch ein Beispiel:


pdftotext extrahiert den Text aus einer PDF-Datei. Z.B.

pdftotext Datei_mit_Bildern.pdf

liefert eine Datei "Datei_mit_Bildern.txt" mit dem Inhalt:

Dies ist eine Testdatei für den blog.
Bild 1:

Bild 2:

… und noch etwas text hinterher!


Allerdings klappt auch das leider nicht immer so ohne weiteres. Wenn der Text nicht als reiner Text in der PDF gespeichert ist, kann das Ergebnis schon etwas unleserlich werden. In so einem Fall hilft man sich evtl. dadurch, daß man die PDF-Datei in ein Bild umwandelt und dann mit OCR einscannt. Dazu evtl. ein andermal mehr.

Titelbildquelle: Yaru


Sende uns Deinen Kommentar

... because software matters