Какие хорошие библиотеки существуют на любом распространенном языке для преобразования PDF в HTML?
Как конвертировать PDF в HTML?
Ответ 1
PDFBox в apache имеет возможность извлечения html. http://pdfbox.apache.org/
Ответ 2
Если вы работаете в окне Windows, я думаю, Amyuni имеет библиотеку для этого. Их PDF Document Convertor доступен как DLL, может широко использоваться среди языков, поддерживаемых Visual Studio, и может конвертировать в RTF, TML, EXCEL, JPEG и TIFF.
Ответ 3
http://www.lowagie.com/iText/ Библиотека открытых ресурсов для Java и С#
Ответ 4
В Perl вы можете использовать SWISH:: Filter плагин SWISH::Filters::Pdf2HTML. (Требуется пакет xpdf.)
Для обратного (HTML в PDF) см. этот вопрос.
Ответ 5
Если вы ищете способ конвертировать PDF в HTML один или два раза, я рекомендую Adobe Online Conversion
Если это API, после которого http://www.pdfonline.com/ имеет SDK, который должен соответствовать вашим потребностям.
Если это библиотека, которую вы потом, сообщите нам, какой серверный язык вы предпочитаете.
Ответ 6
Учитывая неопределенность исходного вопроса, я собираюсь пойти и дать решение, которое будет работать на любом языке, который может выполнять приложения из командной строки. Хотя для настройки может быть немного сложно, OpenOffice можно запускать в режиме безглавых на сервере и, с помощью jodconverter, может конвертировать любой формат файла в любой другой формат файла (ну, любые преобразования формата, которые openoffice может обрабатывать, то есть).
Вот несколько ссылок, которые помогают с настройкой:
Ответ 7
Программа pdftohtml преобразует PDF в html и xml и сохраняет информацию о местоположении текста, которая полезна для соскабливания таблиц..
Кажется, что он основан на библиотеке xpdf и имеет двоичный файл Windows.
Ответ 8
В linux install pdftohtml - Для пакетной конвертации всех файлов в папке используйте:
ls *.pdf | xargs -I{} pdftohtml {}
Это создаст html-сайт со всеми ссылками и изображениями из оригинальных документов. Каждая страница в отдельном html файле. Очень полезно преобразовать проектную документацию для поиска файлов по фразе, используя общий поиск системного файла.