c# – pdf以编程方式单词

有没有人知道一个很好的解决方案,以编程方式将PDF文件转换为单词.doc文件(而不是docx)? 我已经尝试过SautinSoft的解决方案,但即使它完成了这项工作,也不是最好的质量。

我们提供了一个名为EasyConverter SDK的解决方案,您可以尝试一下:

http://www.pdfonline.com/easyconverter/sdk/index.htm

如果您想在尝试评估版本之前快速了解结果的样子,可以先在线使用在线转换器:

http://www.pdfonline.com/pdf2word/index.asp

将大多数静态格式(如PDF)转换为Word时,确实存在许多注意事项。 EasyConverter SDK适用于大多数商业文档,而营销文档(通常使用更高级的布局)通常更具挑战性。

就像在“解决方案”中一样,这可能是一种方法,但你必须自己深入研究:

PDF文件格式……很难理解。 首先,它根本无法与Word格式进行比较。 它的格式旨在在所有平台和打印机上产生一致的外观,其中的Word不太严格。

首先,编辑PDF文件也很困难:因为你没有Word中的“text”; 它更像是大块的字母。 这些都是单独定位的。

我看到的唯一可行解决方案如下:

  1. 将PDF渲染为图像。 (因此需要PDF渲染库!)
  2. 将此图像附加到.doc 。 (因此需要一个.DOC写作库!)

我认为这也是SautinSoft正在做的事情; 这就是质量差的原因。 如果你想要高质量的图像可以变得非常庞大(即你无法获得像通用字体或重复图形那样的优化,就像你拥有PDF文件一样)。

将PDF转换为SVG并将SVG嵌入Word文档中。

PDF是一种’endfile’显示格式,因此它会丢弃word文件中需要的大量细节(例如流)。 有工具,但你不可能对结果完全满意。

有一篇博文在http://pdf.jpedal.org/java-pdf-blog/bid/12670/PDF-text上更好地解释了这些问题