OCR с открытым исходным кодом

Я ищу библиотеку OCR с открытым исходным кодом, которая работает в Linux. Мне нужно это для работы с PNG и PDF файлами. В основном я хотел бы связать эту библиотеку с java или ruby. Любая идея, если есть что-нибудь доступное?

С уважением.

Ответ 1

Tesseract - очень хороший движок OCR: https://github.com/tesseract-ocr/tesseract

Проект был запущен лабораториями HP и теперь продолжен и спонсируется Google (для Google Книги!). Он выпущен под лицензией Apache и работает на Linux. Он использует файлы Tiff или PNG; для PDF файлов вам нужно будет конвертировать в один из этих форматов. Я полагаю, что нет привязки, поэтому вы должны вызывать это программное обеспечение как подпрограмму...

Ответ 2

Cuneiform является бесплатным и выполняет достойную работу. Вы можете вызвать его как подпрограмму, но там нет языковой привязки, о которой я знаю. Он не будет читать PDF файлы напрямую, но вы можете легко разделить PDF файлы, которые являются последовательностями отсканированных изображений, чтобы отправить их в Cuneiform. Существуют также сценарии для повторной сборки изображений и текста в PDF с возможностью поиска.

Ответ 3

Попробуйте tesjeract, который использует JNI для вызова Tesseract OCR API.

Для PDF вам нужно сначала преобразовать их в изображение, используя GhostScript, например.