Я пытаюсь извлечь текст, включенный в этот файл PDF, используя Python
.
Я использую модуль PyPDF2, и у меня есть следующий скрипт:
import PyPDF2
pdf_file = open('sample.pdf')
read_pdf = PyPDF2.PdfFileReader(pdf_file)
number_of_pages = read_pdf.getNumPages()
page = read_pdf.getPage(0)
page_content = page.extractText()
print page_content
Когда я запускаю код, я получаю следующий вывод, который отличается от того, который включен в документ PDF:
!"#$%#$%&%$&'()*%+,-%./01'*23%4
5'%1$#26%3/%7/))/8%&)/26%8#3"%3"*%313/9#&)
%
Как я могу извлечь текст, как в документе PDF?