Google incorpora tecnoloxía OCR para recoñecer o texto en documentos

venres, 31 de outubro do 2008 Marcus Fernández

Na Internet existen moitos documentos en formato PDF que en grande medida están creados por ferramentas informáticas, de xeito que poden ser rexistrados axeitadamente por motores de busca, pero como tamén existe un número importante de documentos PDF compostos por gráficos que proveñen fundamentalmente de informes e traballos escaneados dende Google decidiron incorpora tecnoloxía de recoñecemento de carácteres (OCR) ao seu buscador para que este tipo de documentos tamén aparezan nos seus resultados de busca.
Deste xeito, as buscas de Google xa non se limitan ao texto que apareza como tal, senón tamén a texto que aparece en forma de imaxe, o que mellora o número de resultados dispoñibles, especialmente en ámbitos gobernamentais e académicos (nos que son frecuentes este tipo de documentos para recoller boletíns oficiais, teses, resultados de investigación e moitos outros documentos que se rexistran dixitalmente para o seu almacenamento e conservación).