Чтение содержимого PDF с помощью itextsharp dll в VB.NET или С#

Как я могу прочитать содержимое PDF с помощью itextsharp с классом Pdfreader. Мой PDF может включать в себя обычный текст или изображения текста.

Ответ 1

using iTextSharp.text.pdf;
using iTextSharp.text.pdf.parser;
using System.IO;

public string ReadPdfFile(string fileName)
{
    StringBuilder text = new StringBuilder();

    if (File.Exists(fileName))
    {
        PdfReader pdfReader = new PdfReader(fileName);

        for (int page = 1; page <= pdfReader.NumberOfPages; page++)
        {
            ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
            string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy);

            currentText = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(currentText)));
            text.Append(currentText);
        }
        pdfReader.Close();
    }
    return text.ToString();
}

Ответ 2

Вы не можете читать и анализировать содержимое PDF с помощью iTextSharp, как вы хотели бы.

Из iTextSharp Учебник SourceForge:

Вы не можете "разобрать" существующий файл PDF используя iText, вы можете только "читать" его страница на страницу.

Что это значит?

Формат pdf - это просто холст, где текст и графика размещаются без любая информация о структуре. Как таковой нет никаких "iText-объектов" в PDF файл. На каждой странице будет вероятно, будет ряд "строк", но вы не можете восстановить фразу или используя эти строки. Там вероятно, несколько строк, но вы не можете получить объект Table на основе этих строк. Вкратце: разбор содержимого PDF файла НЕ ВОЗМОЖНО с iText. Отправьте свой вопрос в новостной группе news://comp.text.pdf и, может быть, вы получат ответы от людей, которые есть встроенные инструменты, которые могут анализировать PDF и извлечь часть его содержимого, но не ожидайте, что инструменты, которые будут выполнять пуленепробиваемое преобразование в структурированное текст.

Ответ 3

LGPL/FOSS iTextSharp 4.x

var pdfReader = new PdfReader(path); //other filestream etc
byte[] pageContent = _pdfReader .GetPageContent(pageNum); //not zero based
byte[] utf8 = Encoding.Convert(Encoding.Default, Encoding.UTF8, pageContent);
string textFromPage = Encoding.UTF8.GetString(utf8);

Ни один из других ответов не был полезен для меня, все они, кажется, нацелены на AGPL v5 iTextSharp. Я никогда не мог найти ссылки на SimpleTextExtractionStrategy или LocationTextExtractionStrategy в версии FOSS.

Что-то еще, что может быть очень полезно в связи с этим:

const string PdfTableFormat = @"\(.*\)Tj";
Regex PdfTableRegex = new Regex(PdfTableFormat, RegexOptions.Compiled);

List<string> ExtractPdfContent(string rawPdfContent)
{
    var matches = PdfTableRegex.Matches(rawPdfContent);

    var list = matches.Cast<Match>()
        .Select(m => m.Value
            .Substring(1) //remove leading (
            .Remove(m.Value.Length - 4) //remove trailing )Tj
            .Replace(@"\)", ")") //unencode parens
            .Replace(@"\(", "(")
            .Trim()
        )
        .ToList();
    return list;
}

Это извлечет только текстовые данные из PDF, если отображаемый текст будет Foo(bar), он будет закодирован в PDF как (Foo\(bar\))Tj, этот метод вернет Foo(bar), как и ожидалось. Этот метод удалит много дополнительной информации, такой как координаты местоположения из необработанного содержимого PDF.

Ответ 4

Вот решение VB.NET на основе решения ShravankumarKumar.

Это ТОЛЬКО даст вам текст. Изображения - это другая история.

Public Shared Function GetTextFromPDF(PdfFileName As String) As String
    Dim oReader As New iTextSharp.text.pdf.PdfReader(PdfFileName)

    Dim sOut = ""

    For i = 1 To oReader.NumberOfPages
        Dim its As New iTextSharp.text.pdf.parser.SimpleTextExtractionStrategy

        sOut &= iTextSharp.text.pdf.parser.PdfTextExtractor.GetTextFromPage(oReader, i, its)
    Next

    Return sOut
End Function

Ответ 5

В моем случае я просто хотел получить текст из определенной области документа PDF, поэтому я использовал прямоangularьник вокруг этой области и извлек из него текст. В приведенном ниже примере координаты для всей страницы. У меня нет инструментов для редактирования PDF, поэтому, когда пришло время сузить прямоangularьник до определенного места, я сделал несколько предположений по координатам, пока не была найдена область.

Rectangle _pdfRect = new Rectangle(0f, 0f, 612f, 792f); // Entire page - PDF coordinate system 0,0 is bottom left corner.  72 points / inch
RenderFilter _renderfilter = new RegionTextRenderFilter(_pdfRect);
ITextExtractionStrategy _strategy = new FilteredTextRenderListener(new LocationTextExtractionStrategy(), _filter);
string _text = PdfTextExtractor.GetTextFromPage(_pdfReader, 1, _strategy);

Как отмечалось в приведенных выше комментариях, полученный текст не поддерживает форматирование, найденное в документе PDF, однако я был рад, что он сохранил возврат каретки. В моем случае в тексте было достаточно констант, чтобы я смог извлечь нужные значения.

Ответ 6

Public Sub PDFTxtToPdf(ByVal sTxtfile As String, ByVal sPDFSourcefile As String)
        Dim sr As StreamReader = New StreamReader(sTxtfile)
    Dim doc As New Document()
    PdfWriter.GetInstance(doc, New FileStream(sPDFSourcefile, FileMode.Create))
    doc.Open()
    doc.Add(New Paragraph(sr.ReadToEnd()))
    doc.Close()
End Sub