Tesseract-ocr
Tesseract-ocr ist ein Kommandozeilen Programm, welches zur Konvertierung von Bilddateien mit Text in PDF genutzt werden kann. Bei einer Konvertierung wird ebenfalls eine Texterkennung durchgeführt, sodass die PDF Dateien durchsucht werden können.
Nutzung unter Docker
Durch die Ausführung des Programms in einem Docker-Container vereinfacht sich die Handhabung. Das Programm muss nicht mehr installiert und konfiguriert werden.
Herunterladen des Images
docker pull jitesoft/terreract-ocr
Bild konvertieren nach PDF inklusive OCR
Das Konvertieren kann in einer Zeile ausgeführt werden. Dazu wird eine laufende Docker-Instanz benötigt.
docker run \
--rm \
-v /pfad/fuer/die/neue/pdf_datei:/tmp/neue_datei \
-v /pfad/zur/quelldatei/bild.jpg:/tmp/img.jpg \
jitesoft/tesseract-ocr \
/tmp/img.jpg \
/tmp/neue_datei/ZielDatei \
pdf
Beispiel
Scripte
PDF Scan in PDF mit OCR konvertieren
Liegt bereits ein PDF mit einem gescanten Dokument vor, welches OCR konvertiert werden soll, ist folgendes Shell script nützlich.
Zuerst konvertiert es das Original-OCR in eine mehrseitige TIFF-Datei und anschließend wieder in eine PDF-Datei.
Für die Umsetzung ist ein installiertes ImageMagick notwendig.
Der Aufruf des Programms muss mit dem absoluten Pfad zur Datei erfolgen.
(Achtung: Die Anführungszeichen sind notwendig, sofern der Pfad oder die Datei Leerzeichen enthält!)
./ocrscan.sh "/absoluter/pfad/zur/datei.pdf"
Script:
#!/bin/bash
FILE=$1
# Script abbrechen, sofern bereits einmal konvertiert wurde
if [ -f "${FILE}_orig" ]
then
echo "Scheinbar wurde das pdf schon einmal konvertiert. Bitte ueberpruefen!"
exit
fi
TMP_FILENAME=$(basename "$1")
TMP_DIRNAME=$(dirname "$1")
# Konvertieren des originalen PDF nach TIFF
convert -density 300 \
"${FILE}" \
-depth 8 \
"/tmp/${TMP_FILENAME}.tiff"
# OCR Scan der TIFF-Datei
docker run --rm \
-v "${TMP_DIRNAME}:/tmp/test" \
-v "/tmp/${TMP_FILENAME}.tiff:/tmp/img.jpg" \
jitesoft/tesseract-ocr \
/tmp/img.jpg \
"/tmp/test/${TMP_FILENAME}_ocr" \
pdf
# TIFF Datei entfernen
rm "/tmp/${TMP_FILENAME}.tiff"
# Umbenennen der originalen Datei nach datei.pdf_orig
mv "${FILE}" "${FILE}_orig"
# Umbenennen der neuen PDF Datei nach datei.pdf
mv "${FILE}_ocr.pdf" "${FILE}"
No comments to display
No comments to display