Подтвердить что ты не робот

Как конвертировать PDF в HTML?

Какие хорошие библиотеки существуют на любом распространенном языке для преобразования PDF в HTML?

4b9b3361

Ответ 2

Если вы работаете в окне Windows, я думаю, Amyuni имеет библиотеку для этого. Их PDF Document Convertor доступен как DLL, может широко использоваться среди языков, поддерживаемых Visual Studio, и может конвертировать в RTF, TML, EXCEL, JPEG и TIFF.

Ответ 5

Если вы ищете способ конвертировать PDF в HTML один или два раза, я рекомендую Adobe Online Conversion

Если это API, после которого http://www.pdfonline.com/ имеет SDK, который должен соответствовать вашим потребностям.

Если это библиотека, которую вы потом, сообщите нам, какой серверный язык вы предпочитаете.

Ответ 6

Учитывая неопределенность исходного вопроса, я собираюсь пойти и дать решение, которое будет работать на любом языке, который может выполнять приложения из командной строки. Хотя для настройки может быть немного сложно, OpenOffice можно запускать в режиме безглавых на сервере и, с помощью jodconverter, может конвертировать любой формат файла в любой другой формат файла (ну, любые преобразования формата, которые openoffice может обрабатывать, то есть).

Вот несколько ссылок, которые помогают с настройкой:

Ответ 7

Программа pdftohtml преобразует PDF в html и xml и сохраняет информацию о местоположении текста, которая полезна для соскабливания таблиц..

Кажется, что он основан на библиотеке xpdf и имеет двоичный файл Windows.

Ответ 8

В linux install pdftohtml - Для пакетной конвертации всех файлов в папке используйте:

ls *.pdf | xargs -I{} pdftohtml {}

Это создаст html-сайт со всеми ссылками и изображениями из оригинальных документов. Каждая страница в отдельном html файле. Очень полезно преобразовать проектную документацию для поиска файлов по фразе, используя общий поиск системного файла.