Компания Google открыла ПО оптического распознавания символов (OCR) Tesseract. Этот движок уже достаточно стабилен, чтобы быть выпущеным по лицензии с открытым исходным текстом, но всё же обладает недостатками, в частности пока поддерживается только английский язык, а также отсутсвует модуль анализа структуры распознаваемой страницы, т.е. возникают проблемы с распознаванием текста, расположенного в несколько стольбцов. Также есть проблемы в обработке цветных документов или документов, выполненых несколькими уровнями серого. Тем не менее, Tesseract OCR является самым аккуратным ПО оптического распознавания из всех аналогов с открытым исходным текстом.
Поэтому компания Google нанимает специлистов области распознавания символов для работы над этим проектом.