Google’s OCR: OCRopus = Tesseract + …

Ранее сообщалось об открытии компанией Google исходников OCR Tesseract. С тех пор проект движка OCR вылился в новый, более глобальный, проект OCRopus, в котором Tesseract используется в качестве плагина-движка для распознавания латиницы. И хотя на данных момент это единственный подобный плагин в проекте OCRopus, компания Google надеется в будущем добавить плагины для распознавания текста в других системах письмености, таких как кирилица или иероглифы.

В официальном блоге Google сообщается, что вывод в HTML у OCRopus получается несколько лучше, чем у коммерческих систем распознавания. Правда с оговоркой правильного расположения на планшете сканера листа распозноваемого документа.

Google’s OCR: OCRopus = Tesseract + …

Похожие записи:

Добавить комментарий