3 октября 2007, 9:50

ABBYY рассказала об ADRT

В ABBYY FineReader 9.0 используется новая адаптивная технология распознавания документов (ADRT™, от англ. Adaptive Document Recognition Technology), благодаря которой известный продукт компании ABBYY вышел на новый виток своего развития, сделав шаг от оптического распознавания символов и текста на страницах документа к распознаванию самого документа. В основу технологии ADRT положена идея анализировать документы как единое целое, а не распознавать их постранично, как это делают традиционные системы распознавания. Благодаря этой технологии ABBYY FineReader 9.0 не только сохраняет текст и оформление, но и воспроизводит логическую структуру документа со всеми исходными элементами форматирования, включая таблицы, изображения, колонтитулы, перетекание текста, подписи к графикам, исходные шрифты и стили. Технология ADRT обеспечивает более точный анализ и синтез документов, в результате чего повышается качество распознавания. Теперь ABBYY FineReader может, "читая" документы, подобно человеку логически восстанавливать их структуру и внешний вид, включая шрифты, стили и элементы форматирования.

ADRT является частью технологии оптического распознавания, разработанной ABBYY, и представляет собой ряд новых алгоритмов анализа и синтеза документов. В отличие от традиционных технологий постраничного анализа, ADRT анализирует документы целиком: все страницы, компоновку и элементы форматирования одновременно. Строится логическая модель, содержащая информацию о структуре документа, его элементах и их характеристиках, таких как начертание и стиль шрифтов. Далее эта модель используется для точного воспроизведения документа с сохранением его целостности и всех логических связей между элементами. Благодаря ADRT, ABBYY FineReader не просто имитирует внешний вид исходного документа, а в буквальном смысле понимает сущность каждого элемента форматирования и "знает", где именно они должны быть расположены, в каком формате и в каком порядке. К примеру, при преобразовании отсканированного документа в файл Microsoft Word колонтитул будет воспроизведен естественным образом, именно как элемент форматирования Microsoft Word "колонтитул", который можно будет изменить или удалить сразу на всех страницах. ABBYY FineReader может обнаружить, распознать и воспроизвести различные структурные части и элементы форматирования документа, такие как:

• основной текст;
• колонтитулы;
• номера страниц;
• заголовки одного уровня;
• текстовые вставки;
• подписи к рисункам;
• таблицы;
• сноски;
• зоны подписи/печати;
• нумерацию строк на юридических документах;
• шрифты и стили.

Как уже отмечалось, технология ADRT позволяет программе ABBYY FineReader автоматически идентифицировать шрифты и стили, используемые в документе и подбирать для них оптимальные эквиваленты среди шрифтов, доступных на компьютере пользователя.
Благодаря этому достигается максимальная точность воспроизведения и единообразия шрифтов на всех страницах конкретного документа.

ADRT избавляет пользователей от широко распространенных проблем с распознаванием шрифтов, включая случаи, когда разные шрифты или стили встречаются в непосредственной близости друг от друга в рамках одного предложения или даже слова, или когда абзацы
выходного документа напечатаны разными шрифтами, которые к тому же не соответствуют шрифтам оригинала. ADRT избавляет пользователя от необходимости подбора шрифтов, экономя его время.

Оцените новость:
  • 5 оценок