Вышла альфа-версия пакета Google OCRopus

Компания Google выпустила альфа-версию программного пакета OCRopus, предназначенного для оптического распознавания символов.

Проект OCRopus был открыт весной нынешнего года. Предполагается, что в рамках инициативы OCRopus будет создана мощная многофункциональная система, которую можно будет использовать для распознавания обычных и исторических документов, рукописного текста и так далее. Комплекс OCRopus смогут применять различные научные организации, археологи, историки, а также рядовые владельцы ПК.

Представленная на днях версия OCRopus 0.1.0 построена на движке НР Tesseract. В пакете реализованы функции сегментации текста и графики, а также система конфигурирования на базе языка Lua. Распространяется программа для оптического распознавания символов Google в соответствии с лицензией Apache License 2.0.

Между тем, сотрудники ArsTechnica, уже протестировавшие альфа-версию OCRopus, отмечают, что программа не всегда хорошо справляется со своей задачей. Система распознавания часто интерпретирует символ "e" как букву "c", а символ "o" путает с нолем. Кроме того, большое влияние на качество конечного результата оказывает тип и размер шрифта отсканированного оригинала.

Впрочем, пока работы над пакетом OCRopus не завершены, и финальная модификация продукта, вероятно, будет лишена большинства недостатков. Кстати, бета-версию OCRopus компания Google планирует выпустить ближе к концу первого квартала будущего года.

citcity.ru

публикации сходной тематики

Комментирование закрыто.

 

При наполнении сайта использована информация из открытых источников. Владелец сайта не несет ответственности за недостоверную и заведомо ложную информацию размещенную на страницах сайта. При использовании информации опубликованной на нашем сайте, ссылка обязательна.

Реклама на сайте: