THMMY.gr

Χαλαρή συζήτηση - κουβεντούλα => Διάφορα => Topic started by: MajorTom on September 03, 2022, 23:04:59 pm



Title: Εξαγωγή κειμένου από image files (με Python)
Post by: MajorTom on September 03, 2022, 23:04:59 pm
Γνωρίζει κανένας κάποιο open-source project σε python με που να μπορώ να εξάγω κείμενο από φωτογραφίες οι οποίες θα έχουν το ίδιο layout και θα "διαβάζει" από μία συγκεκριμένη περιοχή (την ίδια) κάθε φωτογραφίας το κείμενο;


Title: Re: Εξαγωγή κειμένου από image files (με Python)
Post by: Niri on September 04, 2022, 01:21:26 am
Φαντάζομαι εννοείς ότι θέλεις να αναγνωρίζεις το κείμενο που υπάρχει σε μια εικόνα (δηλαδή OCR), και όχι να εξάγεις κρυμμένο κείμενο (δηλαδή στεγανογραφία).

Αν και δεν είμαι expert στο είδος θα σου πρότεινα να ξεκινήσεις με το πιο διάσημο project που υπάρχει, το tesseract (https://github.com/tesseract-ocr/tesseract).

Φυσικά για να το χρησιμοποιήσεις στην python θα πρέπει να χρησιμοποιήσεις κάποιο wrapper project όπως πχ:
https://github.com/madmaze/pytesseract
ή
https://github.com/sirfz/tesserocr
ή και κάποιο άλλο.

Παρόλα αυτά, να έχεις υπόψιν σου ότι αυτά τα (wrapper) projects πιθανότατα θα προσφέρουν πολύ περισσότερα από αυτά που εσύ θες και ίσως να είναι και πιο πολύπλοκα στη χρήση τους απ'ότι περιμένεις εξαιτίας αυτού.
Οπότε πριν ξεκινήσεις να γράφεις κώδικα από την αρχή θα σου πρότεινα να κοιτάξεις όλα τα python project βασισμένα στο tesseract και αν είσαι τυχερός κάποιο θα σου κάνει ακριβώς αυτό που θες.
Τσέκαρε εδώ:
https://github.com/topics/tesseract?l=python


Αν δεν σε καλύπτουν τα παραπάνω OCR projects, μπορείς να κοιτάξεις και άλλα που δεν βασίζονται σε tesseract όπως πχ:
https://github.com/ocropus/ocropy


Title: Re: Εξαγωγή κειμένου από image files (με Python)
Post by: Katarameno on September 04, 2022, 01:39:34 am
Δηλαδή ένας εξπέρ στο είδος τι απάντηση θα έδινε?  :( :-\\ ^fouska^ Έλα Παναΐαμ ... Εντάξει είπαμε να μην την ψωνίσετε κιόλας, αλλά τόση ταπεινοφροσύνη
πια? Α πα πα. Δλδ τι βαθμό βάζεις στον εαυτό σου από 0 ως το 20 βρε Niri ? 5?  ::) :P
Niri πάντως saved the day  ^miss^ ή έστω το τόπικ.  :-*
Δε μ αρέσουν τα τόπικ που κάποιος ρωτάει κάτι και δεν απαντάει κανένας.
sent from mTHMMY (https://play.google.com/store/apps/details?id=gr.thmmy.mthmmy) 


Title: Re: Εξαγωγή κειμένου από image files (με Python)
Post by: MajorTom on September 04, 2022, 18:05:58 pm
Φαντάζομαι εννοείς ότι θέλεις να αναγνωρίζεις το κείμενο που υπάρχει σε μια εικόνα (δηλαδή OCR), και όχι να εξάγεις κρυμμένο κείμενο (δηλαδή στεγανογραφία).

Αν και δεν είμαι expert στο είδος θα σου πρότεινα να ξεκινήσεις με το πιο διάσημο project που υπάρχει, το tesseract (https://github.com/tesseract-ocr/tesseract).

Φυσικά για να το χρησιμοποιήσεις στην python θα πρέπει να χρησιμοποιήσεις κάποιο wrapper project όπως πχ:
https://github.com/madmaze/pytesseract
ή
https://github.com/sirfz/tesserocr
ή και κάποιο άλλο.

Παρόλα αυτά, να έχεις υπόψιν σου ότι αυτά τα (wrapper) projects πιθανότατα θα προσφέρουν πολύ περισσότερα από αυτά που εσύ θες και ίσως να είναι και πιο πολύπλοκα στη χρήση τους απ'ότι περιμένεις εξαιτίας αυτού.
Οπότε πριν ξεκινήσεις να γράφεις κώδικα από την αρχή θα σου πρότεινα να κοιτάξεις όλα τα python project βασισμένα στο tesseract και αν είσαι τυχερός κάποιο θα σου κάνει ακριβώς αυτό που θες.
Τσέκαρε εδώ:
https://github.com/topics/tesseract?l=python


Αν δεν σε καλύπτουν τα παραπάνω OCR projects, μπορείς να κοιτάξεις και άλλα που δεν βασίζονται σε tesseract όπως πχ:
https://github.com/ocropus/ocropy


Ωραία. Ευχαριστώ θα τα τσεκάρω.