Разработчики Google Docs сообщили о включении в состав онлайнового офисного пакета механизма оптического распознавания текста из PDF-файлов или изображений форматов JPEG, GIF, PNG.
Теперь на странице загрузки файлов в Google Docs пользователь может поставить галочку напротив опции "Преобразовывать текст из PDF-файлов или изображений в формат документов Google", и система автоматически извлечет из отсканированных документов и цифровых фотографий текстовые данные для их последующей правки в текстовом редакторе.
OCR-система Google Docs была разработана в сотрудничестве с командой проекта Google Books. По словам специалистов, распознавание лучше всего работает с изображениями в высоком разрешении, при этом алгоритмы системы не всегда хорошо справляются с сохранением стилевого оформления документов. Для того чтобы у пользователя была возможность быстро исправить ошибки распознавания, в обработанный документ включается оригинал изображения. Пока что поддерживаются тексты только на английском, французском, итальянском, немецком и испанском языках, пишет 3DNews.