使用Itextsharp读取本地化的PDF文件

我正在尝试使用iTextSharp阅读PDF文件。 问题是当试图读取除英语(例如印地语或阿拉伯语)之外的PDF文件时,它没有得到正确的单词。

我想知道,我应该在我的系统上安装印地语或阿拉伯语字体还是我需要对编码做些什么?

ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy(); string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy); currentText = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(currentText))); text.Append(currentText); 

编辑:

样本PDF图像:

在此处输入图像描述

提取的文字:

uxj ikfydk ifj“kn fuokZpd ukekoyh&2011 i`”B la [; k%1 1 1 1 &&& ftys dk uke ftys dk uke ftys dk uke ftys dk uke %%%% 0701-ò¶â€ãæ-2 2 2 2 &&&fudk fudk fudk fudk; ; ; ; dk uke dk uke dk uke dk uke %%%%1-¢3 3 3 && && okMZ la okMZ la okMZ la okMZ la [[[[; ; ; ko uke ko uke ko uke ko uke %%%% 1-¯â€™â€™â€ââ€ââ€ââ€ââ &Hkkx la Hkkx la Hkkx la Hkkx la [[[[; ; ; ; kkkk %%%%

不要使用任何类型的编码,因为您不知道pdf文件具有什么编码。

。 我认为它会起作用。

 ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy(); string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy); text=text+currentText; ///do what you want with text MessageBox.Show(text); 

如果它仍然无法工作,那么你必须安装特定的字体。