У меня есть куча PDF файлов, которые поступают из отсканированных документов. Файлы содержат сочетание изображений и текста. Некоторые из них были отсканированы как изображения без OCR, поэтому каждая страница PDF является одним большим изображением, даже если вся страница полностью текстовая. Другие были отсканированы с помощью OCR и содержат изображения и текст с возможностью поиска, где присутствует текст. Во многих случаях даже слова в изображениях были доступны для поиска.
Я хочу сделать автоматизированный процесс распознавания текста во всех проверенных документах с помощью OCR с помощью Acrobat 8 Pro, но я не хочу повторно отображать файлы, которые уже прошли через процесс OCR в мимо. Кто-нибудь знает, есть ли способ определить, какие из них содержат только изображения, а какие уже содержат текст с возможностью поиска?
Я планирую делать это на С# или VB.NET, но я не думаю, что возможность рассказать обо всех типах файлов зависит от языка.