在.NET中从PDF中读取文本

我正在尝试使用iTextSharp库将PDF中的文本读入字符串。

iTextSharp.text.pdf.PdfReader pdfReader = new iTextSharp.text.pdf.PdfReader(@"C:\mypdf.pdf"); ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy(); string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, 1, strategy); text = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(currentText))); pdfReader.Close(); Console.WriteLine(text);

这通常可以正常工作，但是每隔几行就会省略空格，这样我的输出就像：“thisismyoutputwithoutwhitespace”。正确解析的文本似乎与没有正确解析的文本相同; 相同的文本将被不正确地解析，这使我认为它是PDF中的东西。

在PDF的内容流中，没有“单词”的概念。因此，在iText（夏普）的文本提取实现中，有一些启发式方法可以确定如何将字符组合成单词。当2个字符之间的距离大于当前字体中空格宽度的一半时，插入空格。

最有可能的是，在没有空格的情况下提取的文本之间的距离小于“spacewidth / 2”。

在SimpleTextExtractionStrategy.RenderText() ：

 if (spacing > renderInfo.GetSingleSpaceWidth()/2f){ AppendTextChunk(' '); }

您可以扩展SimpleTextExtractionStrategy并调整RenderText() 。

在LocationTextExtractionStrategy它更方便。您只需要覆盖IsChunkAtWordBoundary() ：

 protected bool IsChunkAtWordBoundary(TextChunk chunk, TextChunk previousChunk) { float dist = chunk.DistanceFromEndOf(previousChunk); if(dist < -chunk.CharSpaceWidth || dist > chunk.CharSpaceWidth / 2.0f) return true; return false; }

您将需要进行一些实验以获得PDF的良好结果。在你的情况下，“spacewidth / 2”显然太大了。但是如果你将它调整得太小，你就会得到误报：空格将被插入到单词中。

在.NET中从PDF中读取文本

等价隐式算子：为什么它们合法？

如何将阿拉伯语Umm Al-Qura日期字符串解析为.NET DateTime对象？

如何提取自定义标头值？

如何使用AutoMapper将Dto映射到具有嵌套对象的现有对象实例？

显示“504 Gateway Timeout error”的自定义错误

异步保存数据库或在.net c中并行保存记录＃

如何将页面剪切命令发送到Epson打印机

在C＃中模拟雷达的最佳方法是什么？

ConfigurationManager返回null而不是字符串值

ViewModel和Singleton模式