Google incorpora tecnoloxÃa OCR para recoñecer o texto en documentos
venres, 31 de outubro do 2008
Na Internet
existen moitos documentos en formato PDF que en grande medida están creados por
ferramentas informáticas, de xeito que poden ser rexistrados axeitadamente por
motores de busca, pero como tamén existe un número importante de documentos PDF
compostos por gráficos que proveñen fundamentalmente de informes e traballos escaneados dende
Google decidiron incorpora tecnoloxÃa de recoñecemento de carácteres (OCR)
ao seu buscador para que este tipo de documentos tamén aparezan nos seus
resultados de busca.
Deste xeito, as buscas de Google xa non se limitan ao texto que apareza como
tal, senón tamén a texto que aparece en forma de imaxe, o que mellora o número
de resultados dispoñibles, especialmente en ámbitos gobernamentais e académicos
(nos que son frecuentes este tipo de documentos para recoller boletÃns
oficiais, teses, resultados de investigación e moitos outros documentos que se
rexistran dixitalmente para o seu almacenamento e conservación).
