Компания Google продолжила открытие технологий, связанных с распознаванием текста. В дополнение к ранее открытой системе Tesseract выпущен новый открытый продукт — OCRopus (под лицензией Apache 2.0).Главная цель OCRopus — выявление и разделение областей текста (и других объектов) на изображениях. Система модульная, в настоящее время для распознавания текста используется Tesseract, но Google планирует в течение ближайшего времени значительно расширить возможности проекта (например, появится GUI-интерфейс и поддержка не только английского языка). Релиз намечен на 3 квартал 2008 года.OCRopus предназначен для автоматизации распознавания отсканированных или снятых на цифровую камеру документов (включая рукописные), программа может использоваться для выявления спама в приложенных к письму изображений.
www.nixp.ru
Опубликовано
12.04.2007 15:24 и размещено в рубрике Мир Unix.
Вы можете следить за комментариями, подписавшись на RSS 2.0 ленту этого сообщения.
Комментирование закрыто.
публикации сходной тематики