Я ищу библиотеку OCR с открытым исходным кодом, которая работает в Linux. Мне нужно это для работы с PNG и PDF файлами. В основном я хотел бы связать эту библиотеку с java или ruby. Любая идея, если есть что-нибудь доступное?
Проект был запущен лабораториями HP и теперь продолжен и спонсируется Google (для Google Книги!). Он выпущен под лицензией Apache и работает на Linux. Он использует файлы Tiff или PNG; для PDF файлов вам нужно будет конвертировать в один из этих форматов. Я полагаю, что нет привязки, поэтому вы должны вызывать это программное обеспечение как подпрограмму...
Ответ 2
Cuneiform является бесплатным и выполняет достойную работу. Вы можете вызвать его как подпрограмму, но там нет языковой привязки, о которой я знаю. Он не будет читать PDF файлы напрямую, но вы можете легко разделить PDF файлы, которые являются последовательностями отсканированных изображений, чтобы отправить их в Cuneiform. Существуют также сценарии для повторной сборки изображений и текста в PDF с возможностью поиска.
Ответ 3
Попробуйте tesjeract, который использует JNI для вызова Tesseract OCR API.
Для PDF вам нужно сначала преобразовать их в изображение, используя GhostScript, например.