Компания ABBYY выпустила расширенную версию системы оптического распознавания текста ABBYY FineReader 9.0 с поддержкой иврита, китайского (традиционного и упрощенного написания), японского и тайского языков. Система оптического распознавания теперь поддерживает 184 языка – европейских, азиатских, африканских и ближневосточных, передает CyberSecurity.
«Включение в ABBYY FineReader 9.0 дополнительных языков позволит расширить пользовательскую аудиторию системы на 2 миллиарда человек. Поддержка данных языков – важный технологический этап в развитии ABBYY FineReader 9.0, для реализации которого нам пришлось решить ряд нетривиальных задач», – комментирует Сергей Попов, директор департамента продуктов для распознавания текста компании ABBYY.
В документах на тайском языке слова пишутся слитно, без пробелов, а буквы и диакритические знаки могут располагаться в строке на четырёх различных уровнях. В иврите используется «обратное» направление письма (справа налево), но в тех случаях, когда в тексте попадаются слова на иностранных языках, они пишутся слева направо. Китайский язык имеет два варианта написания – упрощенное и традиционное, а сами иероглифы имеют несколько вариантов написания.
«FineReader 9.0 распознает 10 тысяч иероглифов, при этом в работе над базой мы использовали несколько миллионов вариаций иероглифов. Благодаря тому, что мы совершенствуем собственные технологии распознавания, а не лицензируем сторонние разработки, это позволяет нам достигать высокого качества распознавания даже в работе с такими сложными языками как иврит, китайский, тайский и японский. Обновленный ABBYY FineReader 9.0. – это результат колоссальной, почти десятилетней работы большого коллектива. Это проект, в котором были помимо наших специалистов задействованы и носители соответствующих языков», – продолжает Сергей Попов.
Механизм интеллектуального определения языка распознавания позволяет ABBYY FineReader 9.0 успешно обрабатывать особо сложные документы, содержащие комбинацию буквенных и иероглифических языков, например, китайского и английского. Помимо распознавания дополнительных языков, в новой версии ABBYY FineReader 9.0 значительно увеличена скорость запуска приложения, а также добавлена возможность выбора китайского в качестве языка интерфейса.
Среди новых возможностей ABBYY FineReader 9.0 – распознавание текста с горизонтальной и вертикальной направленностью и возможность выбрать вариант распознавания иероглифа из списка гипотез.
«С развитием экономического сотрудничества со странами Азиатско-Тихоокеанского региона перед бизнес-сообществом встала задача организации эффективной работы с документами на соответствующих языках», – поясняет Давид Ян, председатель совета директоров и основатель компании ABBYY. – «Расширение языковой поддержки в ABBYY FineReader 9.0 позволит нам удовлетворить тот значительный спрос в качественном распознавании документов, который мы уже сейчас наблюдаем в странах юго-восточной Азии и Ближнего Востока».