寻找PDF文件解析器

有没有人知道我可以用来从明文pdf文件中提取文本部分的PDF文件解析器？特别是我想要一种能够可靠地提取特定于注释的文本部分的方法吗？

Delphi，C＃RegEx我不介意。

关于xactpro的PDF File Parser文章似乎正是您所需要的。它解释了PDF的格式，并附带了解析器的完整源代码（以及用于可视化模型的另一个项目）。

解析器使用特定于格式的术语，但您可以轻松使用可视化工具来学习要查找的内容。

你也可以看看Xpdf（ http://www.foolabs.com/xpdf/download.html ）

不确定它是否支持您需要的function，但我们一直在使用abcPDF取得了一些成功。

看看pdfbox

abcPDF确实允许你提取注释，它们在帮助中有一个非常好的部分，但处理它的代码通常是：

for (int objectIndex = 0; objectIndex < theDoc.ObjectSoup.Count; objectIndex++) { try { IndirectObject element = theDoc.ObjectSoup.ElementAt(objectIndex); string elementType = element.GetType().ToString(); switch (elementType) { case "WebSupergoo.ABCpdf8.Objects.Annotation": //process the annotation, which could be all kinds of stuff WebSupergoo.ABCpdf8.Objects.Annotation annotation = (WebSupergoo.ABCpdf8.Objects.Annotation)element; ProcessAnnotation(annotation);

...

我不知道这些PDF解析器的所有function，但Aspose有一个非常全面的function。不幸的是，我们遇到了两个错误，我已经等了很长时间才能修复它们。

ITextSharp似乎是.Net最常见的开源PDF解析器。

寻找PDF文件解析器

集成到现有网站的最佳c＃wiki是什么？

更好的算法来淡化winform

C＃try {} catch {}

将XML文件加载到DataTable（而不是从数据库）

我可以从派生类的默认构造函数中将参数传递给基础构造函数吗？

在哪里写连接字符串？在app.config或web.config中？

（ListView？） – 在Windows资源管理器中控制

MVC：我可以在控制器中使用ModelState吗？

强制下载ASP.Net

C＃中的TypeInitializationException

寻找PDF文件解析器

集成到现有网站的最佳c＃wiki是什么？

更好的算法来淡化winform

C＃try {} catch {}

将XML文件加载到DataTable（而不是从数据库）

我可以从派生类的默认构造函数中将参数传递给基础构造函数吗？

在哪里写连接字符串？ 在app.config或web.config中？

（ListView？） – 在Windows资源管理器中控制

MVC：我可以在控制器中使用ModelState吗？

强制下载ASP.Net

C＃中的TypeInitializationException

在哪里写连接字符串？在app.config或web.config中？