Подтвердить что ты не робот

Преобразование из PDF в HTML

Есть ли .dll, которую я могу использовать, которая использует файл PDF в качестве ввода и файл HTML в качестве вывода? Я хочу конвертировать из PDF в HTML. Мой коллега говорит, что очень трудно шаг за шагом получить текст/шрифт/изображение/поля/ссылки и т.д. Из PDF, а затем создать новый HTML файл с тем же содержимым. Он говорит, что это почти невозможно. Так что я подумал - есть ли какая-нибудь dll, которую я могу использовать для справки?

4b9b3361

Ответ 1

Написание программы для этого определенно не тривиально. Если вы не найдете никакой библиотеки .NET для этого (я не смог бы, по крайней мере, не бесплатно), я бы просто загрузил этот и вызвал его программно, чтобы получить мой HTML.

Если у вас есть время, чтобы сэкономить и/или PDFToHtml не дает приемлемых результатов для вас, вы можете использовать iText, чтобы написать программу самостоятельно. Это очень зрелая бесплатная библиотека PDF. Я использовал его в прошлом для управления PDF файлами (слияние, создание и т.д.).

UPDATE

Как отмечается в комментарии Quandary, библиотека PDFSharp предлагает более свободную лицензию (MIT) по сравнению с коммерческой или AGPL-лицензией, предлагаемой iText. Имейте это в виду при выборе вашей библиотеки. Я сам не использовал библиотеку PDFSharp и не знаю, как они сравниваются по функциональности.

Ответ 2

Вы можете скачать этот бесплатный инструмент: PDFToHTML

Затем в вашей программе просто разблокируйте новый процесс и запустите исполняемый файл, передав файл PDF. Я просто протестировал его сейчас и, похоже, работает нормально.