Подтвердить что ты не робот

Как извлечь текст из документа PDF?

Как извлечь текст из PDF-документа с помощью PHP?

(Я не могу использовать другие инструменты, у меня нет доступа root)

Я нашел некоторые функции, работающие для обычного текста, но они не хорошо обрабатывают символы Unicode:

http://www.hashbangcode.com/blog/zend-lucene-and-pdf-documents-part-2-pdf-data-extraction-437.html

4b9b3361

Ответ 1

Загрузите class.pdf2text.php @https://pastebin.com/dvwySU1a (обновлено на 5 от апреля 2014 года) или http://www.phpclasses.org/browse/file/31030.html (требуется регистрация)

код:

include('class.pdf2text.php');
$a = new PDF2Text();
$a->setFilename('filename.pdf'); 
$a->decodePDF();
echo $a->output(); 

Класс не работает со всем pdf, который я тестировал, попробуйте, и вам может повезти:)


Если вышеуказанное не работает, попробуйте http://pdfparser.org/

Ответ 2

Я знаю, что эта тема довольно старая, но эта потребность еще жива. Я прочитал много документов, форум и script и построил новый расширенный, который поддерживает сжатый и несжатый pdf:

https://gist.github.com/smalot/6183152

Надеюсь, что это поможет Everone