Если вы ищете очень расширяемый вариант или имеете конкретный проблемный домен, вы можете рассмотреть возможность его собственного использования, используя Java Object Oriented Neural Engine.
Я успешно использовал его в личном проекте для идентификации буквы с изображения, такого как this, вы можете найти весь источник для OCR компонент моего приложения на github, здесь.
Изменить:
еще несколько фактов
- tesseract - одно из лучших OCR с открытым исходным кодом, используемое Google
- имеются учебные данные, доступные для многих языков
- mezzofanti - приложение для Android, которое использует tesseract
- Остерегайтесь: OCR использует много мощности процессора. попытка OCR на странице формата A4 с вашим T-Mob G1 займет много времени, и результат может не впечатлить вас: -)