Довольно просто мне нужно вырезать текст из нескольких PDF файлов (довольно много на самом деле), чтобы анализировать содержимое, прежде чем вставлять его в базу данных SQL.
Я нашел несколько довольно отрывочных бесплатных библиотек С#, которые выполняют какую-то работу (лучший использует iTextSharp), но есть и ошибки в форматировании, а некоторые символы скремблированы и много времени есть пробелы ('') EVERYWHERE - внутри слов, между каждой буквой, огромные блоки из них занимают несколько строк, все это кажется немного случайным.
Есть ли какой-либо простой способ сделать это, что я полностью игнорирую (весьма вероятно!) или это немного сложная задача, которая включает в себя преобразование извлеченных байтовых значений в буквы надежно?
Приветствия,
Дункан