Подтвердить что ты не робот

Извлечение текста pdf в Objective C

До этого момента я не нашел решения, которые бы хорошо работали, чтобы извлечь текст из файла PDF в Objective C для использования на iPhone. Я нашел некоторый стандартный код C и модифицировал его для работы, и подумал, что я его предоставил здесь, так как до этого момента я использовал stackoverflow совсем немного, но не возвращался. Вы можете получить его здесь: https://github.com/zachron/pdfiphone

Он принимает в качестве входного пути путь к файлу PDF и возвращает nsstring текста в pdf. Я не писал большую часть этого, но я его модифицировал, чтобы он работал с iPhone и Objective C. Вам нужно включить библиотеку Zlib в свой проект (libz.dylib на iPhone), если кто-то это сделает и делает это более удивительно, это хорошие времена.

4b9b3361

Ответ 1

Имейте в виду, что это будет работать только для извлечения текста, который хранится как таковой в PDF файле. Это не будет OCR отсканированные PDF файлы. Если вы хотите это сделать, есть возможность использовать Tesseract, надежный Google и механизм OCR FOSS. Он компилируется на iPhone: см. Nolan Brown Tesseract-iPhone-Demo для рабочего примера. Библиотека изображений ImageMagic также компилируется на iPhone, и она позволит вам конвертировать PDF в TIFF, который Tesseract принимает как входной.