(以编程方式)比较PDF的可靠方法?

可能重复:
比较大量PDF文件的工具?

我处在经典场景中,业务为您提供了一堆新的 pdf表单,没有任何修订说明,您应该弄清楚与前一年有什么不同。

我在这里谈论大量的表单,所以我试图找到一种方法来比较PDF以概述差异,而无需人们手动遍历每一个。

我的想法是从PDF中提取所有文本并将其转储到.txt然后在文本文件上运行差异,但这听起来很糟糕。

我的问题以编程方式说,但我对任何用于比较PDF的可靠工具感到满意,并且主要是希望从人们的经验中获得一个想法。 也愿意接受任何程序化解决方案(最好是在C#中,但请发布任何想法)。

有很多软件产品声称要分享pdf。 我从来没有必要使用过,但如果这是一个反复出现的过程,我认为贵公司投资其中一个是明智之举。 只是谷歌“pdf diff”为一堆潜在的应用程序。

此外,您的情况与此问题非常相似: 比较大量PDF文件的工具? 我认为它的讨论可能有所帮助。

我是Docotic.Pdf Library的开发人员。 我们在unit testing中使用PDF比较来检查测试是否按预期生成PDF。 PDF是特殊对象的集合,我们比较所有PDF对象,忽略一些属性,如预告片ID和创建者信息。 这个实现工作正常。

您可以尝试PdfDocument.DocumentsAreEqual方法。 这种方法只是告诉你文件是否相等,没有具体差异。 如果您需要更多function,可以与我们联系。

我采用的方法是从PDF中获取原始数据,然后使用Word或TortiseSVN或WinMerge等来处理比较文件。 在我的实例中,我在C#中的RichTextBox中进行了比较…着色差异等…因为我们想要在我们的应用程序中完成所有这些。

这是我做的… PDF比较,因为我试图比较混合文档,Word和PDF。

不过我会推荐使用PDFBox进行解析,更优雅一点……虽然iTextSharp确定没问题…

我写了一篇博客,建议一些比较PDF文件的方法, 请访问https://blog.idrsolutions.com/2010/09/comparing-2-pdf-files/