App für Texterkennung in PDF

  • 3 Antworten
  • Letztes Antwortdatum
cad

cad

Philosoph
4.340
Hi, leider bekomme ich oft mehrseitige PDF-Dateien, die nur eingescannt wurden. Daher kann ich keinen Text markieren, kopieren und auch nicht durchsuchen.

Kennt jemand eine App, die da eine Texterkennung (OCR) durchführen kann und wieder als PDF speichert?

Bisher habe ich nur Textfee gefunden, da geht aber nur die erste Seite des PDF-Dokuments. :crying:

Tipps?
 
  • Danke
Reaktionen: siebziger
Hi, nachdem es hier ruhig ist, hab ich selbst angefangen zu testen.

Zunächst: Ich finde weiterhin keine App, die in einer mehrseitigen PDF-Datei eine OCR-Texterkennung durchführen kann und wieder als PDF-Datei speichert.

Besser wird es, wenn man hier über den Umweg mit Bildern in zwei Schritten arbeitet:

1. Konvertieren einer PDF-Datei zu Bildern
Da gibt es es massig Apps im Play Store, oft schlecht bewertet (wobei teils nicht nachvollziehbar), oft voll mit Werbung und schlechten Ergebnissen.

Am besten komme ich klar mit: https://play.google.com/store/apps/details?id=com.ilite.pdfconverter.pdftoimage.lite (werbefreie Pro-Version für 0,99 €)

Die App macht zuverlässig genau das, was sie soll. Kann die teils schlechten Bewertungen nicht verstehen. Auswahl bei den Bildformaten zwischen jpg und png. Seitennummerierung prima in den Dateinamen der Bilder ablesbar.

2. OCR-Texterkennung aller Bilder in einem Rutsch und Speicherung als durchsuchbare PDF-Datei.

Hier wird es schwierig:
- Die sympathische App Text Fairy (Textfee) mit lokaler OCR-Texterkennung erlaubt ein nachträgliches manuelles Verbessern, aber ich kann immer nur eines der Bilder wählen zum Öffnen. Schade.

- Gerne benutze ich grundsätzlich Scanbot, vor allem fürs direkte Abfotografieren (Scannen) von Papier, lokaler OCR-Texterkennung und lokaler Speicherung der PDF-Datei. Jedoch ist die Texterkennung insgesamt nicht so richtig befriedigend.

- Daher hab ich nun doch mal Adobe Scan probiert. Zwangsregistrierung mit Online OCR-Texterkennung und Online-Speicherung der PDF-Datei. Mag ich gar nicht - auch wenn man danach durchaus nochmal lokal speichern und die Datei auf dem Server wieder löschen kann. Jedoch klar die beste OCR-Texterkennung der hier genannten Apps.

Fazit: Bin weiterhin nicht zufrieden. Vor allem wäre eine gute App zur OCR-Texterkennung wünschenswert. Vielleicht sollte ich dafür mal einen Extra-Thread starten?

Zähneknirschend hab ich dann mal für Windows recherchiert, dort findet man tatsächlich einige Programme, die den ursprünglichen Wunsch (PDF > PDF) direkt umsetzen, habe da dann auch etwas gefunden, was kostenlos und werbefrei ist und zudem lokal eine noch bessere OCR-Texterkennung liefert als Adobe Scan. Die bessere Qualität kann natürlich auch damit zusammenhängen, dass eben nicht der Umweg über nochmals gespeicherte Bilder genommen wird.

Für Android muss man wohl noch weiter suchen... :rolleyes2:
 
  • Danke
Reaktionen: funkenwerner und 398580
Welche kommt denn in Windows in Frage.
Früher konnte Google Docs so etwas ja gut. Aber das wurde irgendwann mal eingestellt.
Fürs Handy hab ich auch einiges Ausprobiert, aber da ist tatsächlich Adobe ganz gut.
 
Hi, noch weiter in Android probiert. Zum Testen für OCR-Texterkennung ist es dabei wichtig, immer dieselben Bilder zu verwenden, da die Erkennung ja natürlich von der Bildqualität abhängig ist.

Eine sehr gute Erkennung bietet doXisafe, hatte die App vergessen, obwohl ich selbst sie mal empfohlen hatte... :blushing::
+ kostenlos und werbefrei
+ sehr gute lokale OCR-Texterkennung
+ lokale Speicherung der PDF-Datei geht
Minuspunkt:
- Bei Auswahl der Bilddateien keine Verwendung der Ordnerstruktur auf dem Gerät, sondern lange filterbare/sortierbare Liste. Etwas lästig.
Tatsächlich kann die App übrigens fast auch meinen ursprünglichen Wunsch (PDF > PDF), der Text wird korrekt erkannt, aber bei der Speicherung wird - nur in diesem Fall - es irgendwie versaut. Bei JPG > PDF dagegen alles gut.
Hab die Entwickler mal angeschrieben deshalb.

Ebenfalls eine prima OCR-Texterkennung und ebenfalls dabei besser als z.B. Scanbot bietet Mobile Doc Scanner (MDscan), man kann zwischen 2 Methoden wählen:
  • Google (funktioniert interessanterweise auch offline, aber schlechter)
  • Offline mit den Bibliotheken von "Tesseract", die werden von vielen Apps benutzt. Scanbot benutzt die auch, ist bei der Texterkennung aber schlechter in meinem jetzigen Vergleich.
+ Werbefrei (Kaufversion)
+ sehr gute OCR-Texterkennung
+ lokale Speicherung
Aber auch hier ein blöder Minuspunkt:
- Wähle ich die 12 Bilder meiner 12-seitigen Testdatei aus, werden die falsch sortiert, verstehe nicht wonach da vorgegangen wird. Manuell rumschieben ist da leider auch nicht möglich.

Schön also, dass es neben Adobe Scan noch andere gute OCR-Texterkennung gibt. Aber leider mit den o.g. Haken.

@AlfredENeumann
In Windows habe ich nach Versuchen mit 7-8 Programmen nun das hier:
Tracker Software Products :: PDF-XChange Editor (die normale Version ohne "plus" runtergeladen. Bisher nicht nötig, ein Feature nachzukaufen).
 

Ähnliche Themen

LuckyKvD
  • LuckyKvD
Antworten
3
Aufrufe
100
Trauco
T
arashi
Antworten
12
Aufrufe
274
arashi
arashi
P
Antworten
26
Aufrufe
504
ultra50
U
Zurück
Oben Unten