Это было задано раньше, но я действительно не знаю, помогают ли ответы. Вот моя проблема: у меня есть куча (10 000 или около того) pdf файлов. Некоторые из них были текстовыми файлами, которые были сохранены с использованием функции печати Adobe (так что их текст прекрасен, и я не хочу рисковать их привинчиванием). И некоторые были отсканированными изображениями (поэтому у них нет текста, и мне придется согласиться на OCR). Файлы находятся в одном каталоге, и я не могу сказать, что именно. В конечном итоге я хочу превратить их в .txt файлы, а затем выполнить строчную обработку. Поэтому я хочу, чтобы было максимально точное распознавание текста.
Кажется, люди рекомендовали:
- adobe pdf (у меня нет лицензионной копии этого так... плюс, если ABBYY finereader или что-то лучше, зачем платить за него, если я его не буду использовать)
- ocropus (я не могу понять, как использовать эту вещь),
- Tesseract (кажется, что в 1995 году это было здорово, но я не уверен, есть ли что-то более точное, плюс он не делает PDF файлы изначально, и мне нужно преобразовать в TIFF, что вызывает проблему, поскольку я У меня есть лицензионная копия acrobat, поэтому я не знаю, как бы конвертировать 10 000 файлов в tiff. Кроме того, я не хочу, чтобы 10 000 30 страниц документов превращались в 30 000 индивидуальных изображений TIFF.)
- wowocr
- pdftextstream (с 2009 года)
- ABBYY FineReader (по-видимому, его "$$$", но я потрачу 600 долларов, чтобы сделать это, если эта вещь значительно лучше, то есть имеет более точный ocr).
Также я программирую n00b, поэтому, если вам понадобится неделя, чтобы научиться делать что-то, я бы предпочел заплатить $$$. спасибо для ввода/опыта.
Кстати, я запускаю Linux Mint 11 64 бит и/или Windows 7 64 бит.
Вот другие темы:
Пакетное OCRing PDF файлы, которые еще не были OCR'd
Подход к извлечению PDF-текста с использованием OCR
https://superuser.com/info/107678/batch-ocr-for-many-pdf-files-not-already-ocred