Discussion:
Alternativen zu OCRthyPDF ohne SNAP?
(zu alt für eine Antwort)
Marte Schwarz
2024-11-30 21:44:37 UTC
Permalink
Hallo zusammen,

Linux Mint mag ja, wie einige andere Linuxe auch, eher eine Aversion
gegenüber Snap. Meinem Sohn habe ich OCRmyPDF aufgespielt, weil er im
Theo-Studium recht viel mit eingescannten alten Büchern zu tun hat, die
keine Texterkennung gesehen hatten. Selbst wenn die OCR unvollständig
wäre, es ist alles besser als ohne. Jetzt ist so ein Theologe in spe
natürlich nicht wirklich der Kandidat für eine Kommandozeile. Mit
OCRthyPDF gibt es eine GUI, aber nur für SNAP.
https://github.com/digidigital/OCRthyPDF-Essentials/blob/main/README_deutsch.md
Wie groß schätzt ihr den Aufwand, das nativ in Mint zu bekommen oder
meinetwegen auch als flatpak (das hat er wohl ohnehin schon in Gebrauch)?
Zur höchsten Not mach ich ihm auch noch SNAP drauf. Wie das geht,
beschreibt ja ein Link im Readme. Ich brauch es pragmatisch für den
Geisteswissenschaftler in der Anwendung und mag keine
Fundamentalistendiskussion über den Teufel in Linux vom Zaun brechen.
Wie seht Ihr das?

Marte
--
Ideologen sind offenbar die, denen das gehäufte Auftreten von
Geisterfahrern seltsam vorkommt. Nun denn. Hanno Foest in d.s.e
Bernd Mayer
2024-11-30 22:22:10 UTC
Permalink
Post by Marte Schwarz
Hallo zusammen,
Linux Mint mag ja, wie einige andere Linuxe auch, eher eine Aversion
gegenüber Snap. Meinem Sohn habe ich OCRmyPDF aufgespielt, weil er im
Theo-Studium recht viel mit eingescannten alten Büchern zu tun hat, die
keine Texterkennung gesehen hatten. Selbst wenn die OCR unvollständig
wäre, es ist alles besser als ohne. Jetzt ist so ein Theologe in spe
natürlich nicht wirklich der Kandidat für eine Kommandozeile. Mit
OCRthyPDF gibt es eine GUI, aber nur für SNAP.
https://github.com/digidigital/OCRthyPDF-Essentials/blob/main/
README_deutsch.md
Wie groß schätzt ihr den Aufwand, das nativ in Mint zu bekommen oder
meinetwegen auch als flatpak (das hat er wohl ohnehin schon in Gebrauch)?
Zur höchsten Not mach ich ihm auch noch SNAP drauf. Wie das geht,
beschreibt ja ein Link im Readme. Ich brauch es pragmatisch für den
Geisteswissenschaftler in der Anwendung und mag keine
Fundamentalistendiskussion über den Teufel in Linux vom Zaun brechen.
Wie seht Ihr das?
Marte
Hallo,

ich habe gute Erfahrungen mit gscan2pdf gemacht mit dessen OCR-Engine
Tesseract.
Das Ergebnis des OCR ist nicht perfekt ich finde das aber tauglich.

gscan2pdf kann auch Bilddateien direkt verarbeiten in den Formaten
.jpg, .png, .pnm, .gif, .tif, .tiff, .pdf, .djvu und .ps.

"Verwendbar sind die Texterkennungsprogramme, GOCR, tesseract-ocr sowie
Cuneiform-Linux, mit letzteren können durch die Verwendung von
hOCR-Dateien auch direkt "positional" durchsuchbare PDF- und
DjVu-Dokumente mit integrierter Textebene erstellt werden können."

Ich hatte das bisher unter Ubuntu genutzt möchte aber auf linuxmint
umstellen. Da gibt es gscan2pdf auch.

Mit pdfimages kann man Bilder aus PDFs extrahieren zum Weiterverarbeiten.

Die Sprachenauswahl spielt für OCR natürlich auch eine Rolle bei Theologen.
Bisher hatte ich das nur für deutsch genutzt.

https://wiki.ubuntuusers.de/gscan2pdf/
https://de.wikipedia.org/wiki/Tesseract_(Software)


Bernd Mayer
Tim Ritberg
2024-12-03 13:12:24 UTC
Permalink
Post by Bernd Mayer
ich habe gute Erfahrungen mit gscan2pdf gemacht mit dessen OCR-Engine
Tesseract.
Das Ergebnis des OCR ist nicht perfekt ich finde das aber tauglich.Habe ich auch und da sind mehrere OCS-Engines drin...
Tim
Marte Schwarz
2024-12-02 21:09:03 UTC
Permalink
Hallo zusammen,
Post by Marte Schwarz
OCRthyPDF gibt es eine GUI, aber nur für SNAP.
https://github.com/digidigital/OCRthyPDF-Essentials/blob/main/README_deutsch.md
Ich hab entdeckt, dass masterPDFeditor in der letzten freien 4er Version
ein OCR anbietet, mit der Auswahl an Sprchen, sogar mit Latein,
Griechisch, Hebräisch und deutsch Fraktura (oder so ähnlich) also alles,
wonach das Theologenherz verlangen könnte. Die Demodatei, die gefühlt
150 dpi G3-Tiff enthielt war damit sogar besser in Text übersetzt
worden, als OCRmyPDF mit diversen Optionen das schaffte.
Fazit: Sohnemann ist glücklich. Vielleicht gibts bei mehrfacher
Verwendung die katuelle Bezahlversion. Dazu muss Sohnemann aber erst mal
damit klarkommen ;-)

Grüßle
Marte
Franz Brannt
2024-12-03 01:17:26 UTC
Permalink
***@gmx.de schrieb:

[Master PDF Editor]
Vielleicht gibts bei mehrfacher Verwendung die [ak]tuelle Bezahlversion.
Wozu. OCR-Engine ist ueberall Tesseract, aktuell fuer den
Produktiveinsatz ist Version 5. Auch bei PDF24 gibt es die kostenlos,
und es laeuft unter Wine:

<https://help.pdf24.org/de/foren/thema/pdf24-unter-debian-gnu-linux-mit-wine>

C:\>"C:\Program Files\PDF24\tesseract\tesseract.exe" --version
tesseract 5.4.1

Hamrick VueScan gaebe es noch als Bezahlware, als Linuxprogramm, OCR
ebenfalls Tesseract.
--
FB
Marte Schwarz
2024-12-03 12:32:36 UTC
Permalink
Hallo Franz,
Post by Franz Brannt
[Master PDF Editor]
Wozu. OCR-Engine ist ueberall Tesseract,
Das ist bekannt. Es kommt aber ganz offensichtlich ziemlich auf die Vor-
und Nachbereitung sowie das Handling an. Da unterscheiden sich die
Lösungen dann doch ziemlich. Wenn OCRmyPDF schon zu kryptisch ist, weil
es ein Konsolenprogramm ist, dann braucht man mit anderen
Kommandozeilentool nicht anfangen noch am wenigsten, ganz unten im
Motorraum (Tesseract).
Post by Franz Brannt
Auch bei PDF24 gibt es die kostenlos,
Danke, wenn ich das nativ bekomme, ziehe ich das vor. Wer sich über Snap
aufregt, will auf der Maschine erst recht kein Wine.
Post by Franz Brannt
Hamrick VueScan gaebe es noch als Bezahlware, als Linuxprogramm, OCR
ebenfalls Tesseract.
Dann doch lieber MasterPDFeditor. Da hab ich deutlich mehr davon.

Marte
Franz Brannt
2024-12-03 15:29:27 UTC
Permalink
***@gmx.de schrieb:

[...]

gImageReader gibt es noch:
<Loading Image...>
<https://github.com/manisandro/gImageReader>
--
FB
Claus Reibenstein
2024-12-04 12:42:07 UTC
Permalink
Post by Marte Schwarz
Hallo Franz,
Post by Franz Brannt
Auch bei PDF24 gibt es die kostenlos,
Danke, wenn ich das nativ bekomme, ziehe ich das vor. Wer sich über Snap
aufregt, will auf der Maschine erst recht kein Wine.
Was hat denn Snap mit Wine zu tun?

Gruß
Claus
Marte Schwarz
2024-12-06 17:35:33 UTC
Permalink
Hi Claus,
Post by Claus Reibenstein
Was hat denn Snap mit Wine zu tun?
Na ja, der eine ist Belzebub und der andere der Teufel höchstpersönlich ;-)

Marte

Loading...