Я использую itextsharp на vb.net, чтобы получить текстовое содержимое из файла pdf. Решение работает отлично для некоторых файлов, но не для других даже довольно простых. Проблема заключается в том, что значение токена string равно null (набор пустых квадратов)
token = New iTextSharp.text.pdf.PRTokeniser(pageBytes)
While token.NextToken()
tknType = token.TokenType()
tknValue = token.StringValue
Я могу измерить длину содержимого, но я не могу получить фактическое содержимое строки.
Я понял, что это происходит в зависимости от шрифта pdf. Если я создаю pdf файл, используя Acrobat или PdfCreator с Courier (который, кстати, является шрифтом по умолчанию в редакторе visual studio), я могу получить весь текстовый контент. Если один и тот же pdf построен с использованием другого шрифта, я получил пустые квадратные поля.
Теперь возникает вопрос: как я могу извлечь текст независимо от настройки шрифта?
Спасибо