Нужно решение для конвертации PDF файла, где каждая страница является изображением, а страница может содержать текст, таблицу или комбинацию обоих файлов для поиска в PDF.
Я использовал ABBY FineReader Online, который отлично справляется с работой, но я ищу решение, которое может быть достигнуто через Windows Python
Я провел подробный анализ и ниже ссылки, которые были близки к тому, что я хочу, но не совсем:
Отсканированное изображение /PDF для поиска изображения /PDF
Он говорит использовать сценарий Ghost, чтобы преобразовать его 1-го в изображение, а затем напрямую преобразовать в текст. Я не верю, что tesseract конвертирует не подлежащие поиску в PDF файлы, доступные для поиска.
Преобразование PDF с возможностью поиска в PDF без поиска
Вышеупомянутое решение помогает в обратном направлении, т.е. конвертирует поиск в неигровое. Также я думаю, что они действительны в Ubuntu/Linux/MacOS.
Может ли кто-нибудь помочь в описании того, что должен быть кодом Python для достижения возможности поиска без поиска в Windows Python?
ОБНОВЛЕНИЕ 1
У меня есть желаемый результат с Asprise Web Ocr. Ниже приведена ссылка и код:
https://asprise.com/royalty-free-library/python-ocr-api-overview.html
Я ищу решение, которое может быть выполнено через библиотеки Windows Python только как
- Не нужно оплачивать расходы на подписку в будущем
- Мне нужно ежедневно конвертировать тысячи документов, и будет громоздким загрузить его в API, а затем загрузить и так далее.
ОБНОВЛЕНИЕ 2
Я знаю решение преобразования PDF без поиска непосредственно в текст. Но я ищу их любой способ конвертировать не подлежащий поисковому запросу в PDF с возможностью поиска. У меня есть код для преобразования PDF в текст с помощью PyPDF2.