|
Η Google ταξινομεί τα σκαναρισμένα έγγραφα |
|
|
|
|
Γράφει ο/η Γιαννακίδης Ανδρέας
|
|
06.11.08 |
|
Εδώ και αρκετό καιρό μπορεί κανείς να δει τα σκαναρισμένα έγγραφα στα αποτελέσματα αναζητήσεων της Google. Όμως μέχρι τώρα η αναζήτηση γινόταν με βάση τα meta-δεδομένα και όχι το περιεχόμενο.
Τώρα όμως η Google ανακοίνωσε την χρήση της νέας OCR-τεχνολογίας (Optical Character Recognition), η οποία θα επιτρέψει στη μηχανή αναζήτησης να κάνει αναγνώριση χαρακτήρων στα έγγραφα που έχουν σαρωθεί και αποθηκευτεί στη μορφή Adobe PDF. Με άλλα λόγια, η εικόνα θα μετατρέπεται σε λέξεις, οι οποίες θα καταχωρούνται στη βάση δεδομένων και με βάση τις οποίες θα γίνεται η αναζήτηση. Η τεχνολογία ήδη λειτουργεί για τις αναζητήσεις στην αγγλική γλώσσα.
|