OCR-Qualität verschiedener Apps

  • 44 Antworten
  • Letztes Antwortdatum
holms

holms

Inventar
12.777
Hallo, auf einen Tipp hatte ich mir mal Docutain angesehen, wirkt grundsätzlich nicht schlecht, obwohl mich einige Dinge in der Bedienung stören.

Hier würde ich gern den Blick ausschließlich auf die Qualität der OCR-Funktion richten, vielleicht kriegen wir einige Vergleiche zusammen? Ich fange mal an.

Um Verfälschung durch Kameras zu vermeiden, habe ich als Ausgangspunkt immer diese bewusst mittelgute ;) Bilddatei hier verwendet:

Beispiel.jpg

Ich habe nun getestet mit Docutain und Adobe Scan, Ergebnisse hier im Anhang.

Der Text wird erkannt. Aber Probleme gibt es beim Versuch in einem PDF-Reader, exakt Text zu markieren. Versucht als Beispiel, den ersten Satz im langen Absatz zu markieren, also diesen:
"Texterkennung ist deshalb notwendig, weil optische Eingabegeräte (Scanner oder Digitalkameras, aber auch Faxempfänger) als Ergebnis ausschließlich Rastergrafiken liefern können, d. h. in Zeilen und Spalten angeordnete Punkte unterschiedlicher Färbung (Pixel)."

Bei der Datei von Adobe Scan gelingt mir das gut, bei der von Docutain erzeugten Datei nicht gut. Vor allem entspricht die Anzeige nicht überall exakt der Markierung (das merkt man nach dem Kopieren). In anderen Dokumenten hatte ich da noch mehr Probleme, die kann ich aber nicht öffentlich machen.

Ich erinnere mich an ähnliche Probleme mit Scanbot (jetzt: Scan Pro App).

Wie sind eure Erfahrungen - gerne auch mit anderen Apps?
 

Anhänge

  • Test_Docutain.PDF
    273,8 KB · Aufrufe: 79
  • Test Adobe Scan.pdf
    259,6 KB · Aufrufe: 85
  • Danke
Reaktionen: Jorge64 und iieksi
Hallo Nachschub,

zwei weitere Apps probiert - beide verwenden Tesseract:

ScanPro App (früher: Scanbot):
Ergebnis noch schlechter als bei Docutain. Kann leider auch keine pdf öffnen.

Simple Scanner (Simple Scan):
Keine PDF-Ausgabe mit markierbarem Text hinbekommen, nur extrahierter dazu leider schlechter Text.
Eigentlich kann man pdf öffnen, aber eine OCR-Erkennung funktioniert dann nicht.

Beides leider untauglich. Hochladen der Datei bei ScanPro erspare ich mir.
 
Zuletzt bearbeitet:
Hallo, anscheinend bin ich allein hier im Thread ;), weiß auch nicht, ob es überhaupt jemanden interessiert. Zumindest hab ich dann für mich ein Archiv, in dem ich später nachschauen kann :D.

Weitere Kandidaten - leider ist aus den Beschreibungen der Apps im Play Store nicht immer ersichtlich, ob durchsuchbare und markierbare PDF erzeugt werden können.

Notebloc:
Sympathische App, kann zwar OCR, aber keine durchsuchbaren PDF erstellen. Ist daher raus.

Genius Scan+
Positive Überraschung für mich: Ebenfalls sympathische Kauf-App, die eine richtig gutes OCR-Erkennung samt guter PDF-Erzeugung bietet. Fast wie Adobe Scan. Siehe Anhang hier.
Außerdem kann sie auch bereits vorhandene PDF öffnen, dort die OCR-Erkennung vornehmen und dann wieder als PDF speichern. Kann Adobe Scan nicht.
Dazu außer Crashlytics kein Trackingmodule, aber einige Verbindungen zu github.
 

Anhänge

  • Test_Genius.pdf
    399,4 KB · Aufrufe: 72
Zuletzt bearbeitet:
  • Danke
Reaktionen: origin2000, Observer, Jorge64 und 3 andere
@holms Du bist nicht allein! 😉
Danke fürs testen. Genius Scan+ macht seinen Job gut, ich nutze Office Lens.
 
Zuletzt bearbeitet:
  • Danke
Reaktionen: Observer und holms
@Dr.No Hallo, falls du mal Zeit hast: Kannst du das Bild im ersten Beitrag mal runterladen und mit Office Lens OCR machen und das durchsuchbare PDF hier hochladen?
 
@holms Bitte schön.
 

Anhänge

  • 8e1c8680_66fd_441b_964f_ce2d15d21fc8.pdf
    415,2 KB · Aufrufe: 85
  • Danke
Reaktionen: iieksi und holms
@Dr.No Danke, auch sehr gute Qualität, wenige Fehler.
Das Markieren und Kopieren von Text klappt ok, genauso gut wie bei Genius, aber etwas schlechter als bei Adobe Scan nach meinem Empfinden - mit Xodo hochkant am Smartphone getestet.

Beispiel: Markierung des ersten längeren Satzes im großen Absatz "Texterkennung... (Pixel)."

Da genau bis hinter den Punkt zu markieren (um Text woanders hin zu kopieren) ist nicht ganz einfach. Bei Docutain etwa schlimm.
 
@holms Ich habe hier ein Textdokument + handschriftliche Texte, da war Genius Scan+ besser, Office Lens hat hier das Dokument zerhackt und die handschriftlichen Bereiche als Bilder eingefügt, was die gesamte Dokumentstruktur durcheinander gebracht.
 
  • Danke
Reaktionen: holms
@Dr.No Handschriftlich traue ich mich gar nicht... Es ist allgemein nicht einfach zu vergleichen, daher das "Referenzbild" oben ;)

Was mir nicht klar ist, wie Genius das macht. Die App ist beim Runterladen knapp 10 MB groß, und sie hat per Firewall keine Internetverbindung.
 
Nochmal weitere Apps:

Rausgeflogen sind Mobile Doc Scanner (MD Scan) und DroidScan, können keine durchsuchbaren PDF erstellen.

Ganz gut mit doXisafe:
- Man kann zwischen zwei OCR-Engines wählen 👍 (wo gibt's denn sowas? ;)). Und zwar zwischen Tesseract und... :
- deepER, eine in Zusammenarbeit mit dem Fraunhofer Institut selbst erstellte sehr gute Engine: CIB deepER: OCR auf Basis von künstlicher Intelligenz
- Nach der Texterkennung kann man noch manuell unsicher erkannte Stellen nachbessern. Man bekommt sie nacheinander angeboten - wenn man möchte. Und sogar Unterschriften mit Namen belegen.

Wermutstropfen: Man kann bereits vorhandene PDF zwar öffnen und die OCR-Erkennung super durchführen. Das danach erstellte PDF-Dokument ist dann allerdings Müll in Bezug auf Durchsuchbarkeit.

Bei Bildern als Grundlage klappt aber alles sehr gut. Anhang ohne manuelle Nachbesserung.
 

Anhänge

  • Test_doxisafe.pdf
    489,1 KB · Aufrufe: 68
Zuletzt bearbeitet:
  • Danke
Reaktionen: Jorge64, iieksi und Dr.No
Welches Fazit ziehst du aus den bereits getesteten Apps ?
Ich bin mit Docutain recht zufrieden, aber besser kann natürlich immer.
 
  • Danke
Reaktionen: holms
@braindealer Also, hier geht es ja vor allem um die OCR-Qualität:

Für normales OCR aus Bildern:
Da erscheint mir momentan doXisafe mit Engine (deepER) am besten, die Erkennung läuft in der App aber online. Oder man stellt in doXisafe auf Tesseract offline um, die Qualität hab ich aber nicht getestet.

Direkt dahinter sehe ich Adobe Scan, noch sehr kurz vor Office Lens und Genius Scan+, vor allem wegen der Markierungen von Text im erstellten PDF.

Docutain ist da für mich eher raus, das Markieren im erstellten PDF ist nicht so sauber wie bei den vorgenannten Apps. (Außerdem sind einige Dinge in der Bedienung bei Docutain nicht so doll, finde ich.).
Ebenso ist ScanPro raus.

Für OCR in vorhandenen PDF:
Da macht doXisafe Murks (s.o.) bei der Erstellung des neuen PDF-Dokuments. Adobe Scan kann es nicht, bei Office Lens weiß ich es nicht (vielleicht @Dr.No).

Deshalb wäre hier Genius Scan+ vorne, kann direkt das PDF öffnen und wieder ein neues erstellen.

Oder alternativ: Man exportiert die PDF-Datei in Bilder, da gibt es mehrere gute Apps (kann ich gern Beispiele nennen). Anschließend mit einer der oben genannten Apps normal bearbeiten und wieder als PDF speichern.
Dabei ist wiederum Adobe Scan nervig, weil man auf jeder Seite einzeln den Bereich einstellen muss. Deshalb ist bei dieser Alternative wieder doXisafe vorne (oder evtl. Office Lens, hab ich nicht selbst probiert).

---------
Nimmt man jetzt noch andere Kriterien außer OCR dazu wie z.B. Kontozwang (Adobe/Microsoft), Bedienung, Verwaltung, Randerkennung beim Scan usw, sieht es evtl. für den einen oder anderen nochmal anders aus.
 
Zuletzt bearbeitet:
Danke, aber doXisafe mit deepER fällt weg, da bei denen keine Dokumente mit Personenbezogenen Daten erlaubt sind. Damit fallen Rechnungen raus.
Offline mi Tesseract wäre kein problem
 
  • Danke
Reaktionen: iieksi und holms
@holms Danke für die umfangreichen Tests und Empfehlungen. Ich habe jetzt auch mal Genius Scan+ mit doXisafe verglichen und eine Seite aus einem Buch gescannt - das Blatt war hierbei nicht ganz glatt sondern leicht gewellt. Genius Scan+ hat das deutlich bessere OCR-Ergebnis geliefert im Verlgeich zu der deepER Engine.
 
  • Danke
Reaktionen: Jorge64 und holms
braindealer schrieb:
Danke, aber doXisafe mit deepER fällt weg, da bei denen keine Dokumente mit Personenbezogenen Daten erlaubt sind.
@braindealer Ich hab jetzt mal die Nutzungsbedingungen von doXisafe gelesen, da finde ich nichts zu. Du beziehst dich vermutlich auf die Webversion von deepER?
Habe mal mit Tesseract offline mein Eingangsbeispiel probiert, ist erkennbar schlechter.

darkskater schrieb:
Ich habe jetzt auch mal Genius Scan+ mit doXisafe verglichen und eine Seite aus einem Buch gescannt
Fragen:
1. Hast du auch jeweils mit den Apps gescannt oder dasselbe Bild als Grundlage für OCR verwendet? Denn natürlich spielt die Scanqualität eine wichtige Rolle. Bei unterschiedlichen Scannern ist es dann schwierig, die reine OCR-Erkennung zu bewerten.

2. Hast du auch das Markieren und Suchen in den erstellten PDF getestet?

Kannst du eventuell die Bilddatei deiner Buchseite hier mal zur Verfügung stellen? Und/oder die PDF vielleicht? Dann könnten wir auch testen.
 
Zuletzt bearbeitet:
holms schrieb:
@braindealer Ich hab jetzt mal die Nutzungsbedingungen von doXisafe gelesen, da finde ich nichts zu. Du beziehst dich vermutlich auf die Webversion von deepER?
Habe mal mit Tesseract offline mein Eingangsbeispiel probiert, ist erkennbar schlechter.

Ja, ich bin deinem Link in #10 gefolgt und dort die Einschränkung gelesen.
Daher meine Annahme das bei doXisafe die selben Einschränkungen gelten, da sie ja ebenfalls online scannen.
 
  • Danke
Reaktionen: holms
@holms
1: Sowohl als auch. Ergebnisse waren aber quasi identisch.
2. Markieren und Suchen habe ich getestet. Bei Produktnamen (also nichts aus einem Wörterbuch) lieferte Genius das korrekte Ergebnis im Gegensatz zu doXisafe, so dass hier die Suche nach solchen Wörtern auch nicht zu einem Ergebnis führt.

Die Datei hatte ich schon gelöscht. Aktuell kann ich auch nicht nachliefern, da die Kids rufen 🙂
 
@braindealer In der Webversion wollen sie sich damit wohl von jeglichen Problemen freisprechen? Keine Ahnung. In der App und ihren Bedingungen ist nichts dazu zu finden.

@darkskater Schade, dass du keine der Dateien mehr hast. Zumal man ja bei doXisafe das Ergebnis quasi live präsentiert bekommt (und sogar nicht erkannte Stellen zur Nachbesserung angeboten bekommt).

Hab noch ein paar andere Dateien probiert, bei mir war doXisafe jeweils näher an "perfekt" als Genius.
Beiträge automatisch zusammengeführt:

Allgemein denke ich, dass die Qualität wohl besser sein wird, wenn man nicht lokal, sondern auf einem Server erkennen lässt. Mit dem Nachteil, dass das Bild das eigene Gerät verlässt... Das ist die Krux.

Und mir ist andererseits immer aber noch nicht klar, wie Genius Scan+ das lokal macht. 🤔
Allein die deutsche Sprache z.B.bei Tesseract ist über 20 MB...
 
Zuletzt bearbeitet:
Gibt es eigentlich noch andere Apps (ohne Abo), die man probieren könnte?

- Google Drive geht wohl nur, wenn man tatsächlich auch scannt. Nicht mit bereits vorhandenen Bildern oder PDF-Dokumenten. Ist deshalb für mich nichts.
- Abby Fine Reader? Hat den jemand? Teuer und wenig hoffnungsvolle Bewertungen im Play Store...

Sonst noch was - oder war es das?
 
Hallo, habe in den letzten Tagen weiter probiert, aber nur noch mit doxisafe, Adobe und Genius+ :

Diesmal aber keine PDF oder vorhandene identische Bilder, sondern im Gesamtzusammenhang von Scan bis zum fertigen durchsuchbaren PDF-Dokument.

Es ärgert mich sehr, aber tatsächlich ist hierbei Adobe Scan wieder vorn, und zwar spürbar. Besonders auch nochmal bei Sonderzeichen (z.B. auch verschiedenen Aufzählungszeichen) besser als Genius+. Wobei Genius+ durchaus auch Wörter erkannt hat, die Adobe dann doch mal verhunzt hat.

doXisafe war leider deutlich schlechter als beide.

(Nebenbei war Adobe Scan auch beim automatischen Zuschnitt, Perspektivkorrektur und Farbanpassung am besten von den dreien - was aber nicht Thema sein sollte im Thread ;))

Zwischenfazit für mich persönlich:
- Optimal vorbereitete Bilder können alle drei nicht schlecht
- Für PDF-Dokumente werde wohl ich Genius+ verwenden.
- Für eigene Scans werde ich wohl eher bei Adobe Scan bleiben.

Allgemein bin ich recht überrascht, wie wenig Interesse im Netz überhaupt an OCR besteht. Es gibt Unmengen an "Scan to PDF"-Apps, aber nur wenige scheinen durchsuchbare PDF-Dokumente erstellen zu können. Und es scheint nur sehr wenige in der Welt zu stören bei den anderen Apps, dass es nicht geht.
 
  • Danke
Reaktionen: Fulano, 577269, Jorge64 und eine weitere Person

Ähnliche Themen

martinfd
Antworten
13
Aufrufe
917
martinfd
martinfd
Hangul
Antworten
6
Aufrufe
799
holms
holms
5HT2
Antworten
8
Aufrufe
2.531
Johan
J
Zurück
Oben Unten