用C#编程阅读PDF文件

我看到很多关于使用C#生成PDF文件的问题和答案。
我有一个相关但不同的任务。

我已经创建了大量PDF文件,我想用正则表达式(RegExs)validation内容的某些部分。 我想用C#打开PDF,并能够以接近线性的方式读出文本。

如果页眉,页脚,任何侧边栏等被跳过或读出乱序,则无关紧要。 我只是追求尽可能多的主体文本。

你能指点我的工具,库,API等,这将使我能够以编程方式阅读PDF文件中的文本吗?

我使用PDFSharp不迟于上次automn,发现它与其他人相比很容易使用。 PDFSharp的主页。

为此,我成功地使用了两个不同的库。 一个是PDF Box (Apache项目的一部分),另一个是Snowtide Informatics 。

两者都是Java库,但您可以将.NET与IKVM结合使用。

有一个名为PDF Clown的 .NET库

在codeProject 文章中还有一篇很好的文章,详细介绍了一些其他用于阅读PDF文档的库和方法。

看起来像iTextSharp是一个流行的答案在.NET中阅读PDF文档
另请参阅在Visual C#Windows窗体中读取/写入PDF文件