Я пытаюсь извлечь текст из файлов PDF с помощью Perl. Я использовал pdftotext.exe
из командной строки (т.е. С помощью функции Perl system
) для извлечения текста из файлов PDF, этот метод отлично работает.
Проблема в том, что у нас есть символы типа & alpha;, & beta; и другие специальные символы в файлах PDF, которые не отображаются в сгенерированном txt файле. Также в тексте добавляются несколько лишних пробелов.
Есть ли лучший и надежный способ извлечь текст из PDF файлов, чтобы текст включал все символы, такие как & alpha;, & beta; и т.д., и текст будет точно соответствовать тексту в формате PDF (т.е. без лишних пробелов)?