.NET下读取PDF文本总结

在.NET下读取PDF文本用到的类库主要有两个：PDFBox和iTextSharp.
　　先说PDFBox,这个类库据说功能很强大，本人在这只是简单介绍一下：
　　1、下载PDFBox
　　2、引用动态链接库
　　解压缩下载的PDFBox,找到其中的Bin目录，需要在项目中添加引用的dll文件有：
　　IKVM.GNU.Classpath.dll
　　PDFBox-0.7.3.dll
　　FontBox-0.1.0-dev.dll
　　IKVM.Runtime.dll
　　将以上4个文件引用到项目中，在文件中需要引入以下2个命名空间：
　　using org.pdfbox.pdmodel;
　　using org.pdfbox.util;
　　3、API的使用方法看代码：
　　[csharp]
　　using org.pdfbox.pdmodel;
　　using org.pdfbox.util;
　　public void pdf2txt（FileInfo file,FileInfo txtfile）
　　{
　　PDDocument doc = PDDocument.load（file.FullName）；
　　PDFTextStripper pdfStripper = new PDFTextStripper（）；
　　string text = pdfStripper.getText（doc）；
　　StreamWriter swPdfChange = new StreamWriter（txtfile.FullName, false, Encoding.GetEncoding（"gb2312"））；
　　swPdfChange.Write（text）；
　　swPdfChange.Close（）；
　　}
　　iTextSharp,其实很多时候都是用于生成PDF,但是他读取PDF的能力也不差，使用如下：
　　1、下载iTextSharp
　　2、引用动态链接库
　　解压缩下载的压缩包里面的itextsharp-dll-core.zip,得到itextsharp.dll,在项目中添加引用itextsharp.dll即可
　　在文件中需要引入以下3个命名空间：
　　using iTextSharp;
　　using iTextSharp.text;
　　using iTextSharp.text.pdf;
　　3、API的使用方法看代码：
　　[csharp]
　　private string OnCreated（string filepath）
　　{
　　try
　　{
　　string pdffilename = filepath;
　　PdfReader pdfReader = new PdfReader（pdffilename）；
　　int numberOfPages = pdfReader.NumberOfPages;
　　string text = string.Empty;
　　for （int i = 1; i <= numberOfPages; ++i）
　　{
　　byte[] bufferOfPageContent = pdfReader.GetPageContent（i）；
　　text += System.Text.Encoding.UTF8.GetString（bufferOfPageContent）；
　　}
　　pdfReader.Close（）；
　　return text;
　　}
　　catch （Exception ex）
　　{
　　StreamWriter wlog = File.AppendText（System.AppDomain.CurrentDomain.SetupInformation.ApplicationBase+"\\mylog.log"）；
　　wlog.WriteLine（"出错文件：" + e.FullPath + "原因：" + ex.ToString（））；
　　wlog.Flush（）；
　　wlog.Close（）；return null;
　　}
　　}