.NET下读取PDF文本总结

在.NET下读取PDF文本用到的类库主要有两个:PDFBox和iTextSharp.
  先说PDFBox,这个类库据说功能很强大,本人在这只是简单介绍一下:
  1、下载PDFBox
  2、引用动态链接库
  解压缩下载的PDFBox,找到其中的Bin目录,需要在项目中添加引用的dll文件有:
  IKVM.GNU.Classpath.dll
  PDFBox-0.7.3.dll
  FontBox-0.1.0-dev.dll
  IKVM.Runtime.dll
  将以上4个文件引用到项目中,在文件中需要引入以下2个命名空间:
  using org.pdfbox.pdmodel;
  using org.pdfbox.util;
  3、API的使用方法看代码:
  [csharp]
  using org.pdfbox.pdmodel;
  using org.pdfbox.util;
  public void pdf2txt(FileInfo file,FileInfo txtfile)
  {
  PDDocument doc = PDDocument.load(file.FullName);
  PDFTextStripper pdfStripper = new PDFTextStripper();
  string text = pdfStripper.getText(doc);
  StreamWriter swPdfChange = new StreamWriter(txtfile.FullName, false, Encoding.GetEncoding("gb2312"));
  swPdfChange.Write(text);
  swPdfChange.Close();
  }
  iTextSharp,其实很多时候都是用于生成PDF,但是他读取PDF的能力也不差,使用如下:
  1、下载iTextSharp
  2、引用动态链接库
  解压缩下载的压缩包里面的itextsharp-dll-core.zip,得到itextsharp.dll,在项目中添加引用itextsharp.dll即可
  在文件中需要引入以下3个命名空间:
  using iTextSharp;
  using iTextSharp.text;
  using iTextSharp.text.pdf;
  3、API的使用方法看代码:
  [csharp]
  private string OnCreated(string filepath)
  {
  try
  {
  string pdffilename = filepath;
  PdfReader pdfReader = new PdfReader(pdffilename);
  int numberOfPages = pdfReader.NumberOfPages;
  string text = string.Empty;
  for (int i = 1; i <= numberOfPages; ++i)
  {
  byte[] bufferOfPageContent = pdfReader.GetPageContent(i);
  text += System.Text.Encoding.UTF8.GetString(bufferOfPageContent);
  } 
  pdfReader.Close();
  return text;
  }
  catch (Exception ex)
  {
  StreamWriter wlog = File.AppendText(System.AppDomain.CurrentDomain.SetupInformation.ApplicationBase+"\\mylog.log");
  wlog.WriteLine("出错文件:" + e.FullPath + "原因:" + ex.ToString());
  wlog.Flush();
  wlog.Close();return null;
  }
  }