Google, OCR, PDF

Google scannt nun PDFs – mit OCR. Das Indexieren “normaler” PDFs ist heute kein Novum mehr. Etwas anderes ist es aber, wenn es um Scan-PDFs geht, also um Scans, deren Bilder in PDFs publiziert werden als Form der “Digitalisierung”. Diese ließen sich bisher sowohl schlecht lesen als auch erst recht nicht durchsuchen. Man munkelt schon länger, dass Google an entsprechender Software arbeitet, nun haben sie dieses Feature offiziell verkündet und aktiviert.

Das Beispiel repairing+aluminum+wiring zeigt eindrucksvoll, wie es funktioniert. Beim ersten Suchergebnis einfach mal PDF (Original) und HTML-Ansicht wählen, um die OCR-Qualität zu sehen. Wenn man nun bedenkt, das auch solche PDFs (und vielleicht sogar noch schlechtere) im Index landen, wird die Anzahl in die Höhe steigen.

Ein Schritt mehr, etwas mehr im Deep Internet zu suchen..

[via ars ]