使用Itextsharp读取本地化的PDF文件

我正在尝试使用iTextSharp阅读PDF文件。问题是当试图读取除英语（例如印地语或阿拉伯语）之外的PDF文件时，它没有得到正确的单词。

我想知道，我应该在我的系统上安装印地语或阿拉伯语字体还是我需要对编码做些什么？

ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy(); string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy); currentText = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(currentText))); text.Append(currentText);

编辑：

样本PDF图像：

在此处输入图像描述

提取的文字：

uxj ikfydk ifj“kn fuokZpd ukekoyh＆2011 i`”B la [; k％1 1 1 1 &&& ftys dk uke ftys dk uke ftys dk uke ftys dk uke %%%% 0701-ò¶â€ãæ-2 2 2 2 &&＆fudk fudk fudk fudk; ; ; ; dk uke dk uke dk uke dk uke %%%%1-¢3 3 3 && && okMZ la okMZ la okMZ la okMZ la [[[[; ; ; ko uke ko uke ko uke ko uke %%%% 1-¯â€™â€™â€ââ€ââ€ââ€ââ ＆Hkkx la Hkkx la Hkkx la Hkkx la [[[[; ; ; ; kkkk %%%%

不要使用任何类型的编码，因为您不知道pdf文件具有什么编码。

。我认为它会起作用。

 ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy(); string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy); text=text+currentText; ///do what you want with text MessageBox.Show(text);

如果它仍然无法工作，那么你必须安装特定的字体。

使用Itextsharp读取本地化的PDF文件

在代码/“刷新”请求中设置ASP.net executionTimeout

使用reflection从元数据类中获取属性属性

如何解析.NET中同一父IIS虚拟目录中不同站点的绝对URL？

在asp.net中序列化会话状态

我假设SqlParameter.IsNullable只在……时才有意义？

Web聊天应用程序 – ASP.NET/Jabber/Ajax/WCF/Comet/ReverseAjax – 面临的问题 – 寻求见解

动态创建一堆URL的动态zip

部分课的用途是什么？

如何在登录名控件中显示用户名

MVC 6 Tag Helpers Intellisense？