Articles of unicode

在C#中显示unicode文本

我的应用程序在TextBox和LinkLabel上显示英文,日文和中文字符。 目前,我检查是否有unicode字符并将字体更改为MS Mincho,否则将其保留在Tahoma中。 现在MS Mincho正确显示日语,但对于中文我必须使用Sim Sun. 我如何区分这两者? 无论字体/语言如何,如何确保正确显示unicode文本?

寻找PDF文件解析器

有没有人知道我可以用来从明文pdf文件中提取文本部分的PDF文件解析器? 特别是我想要一种能够可靠地提取特定于注释的文本部分的方法吗? Delphi,C#RegEx我不介意。

大写字符串的长度是否始终与原始字符串相同?

无论使用何种文化,unicode大写字符串的长度是否始终与原始字符串的长度相同? 无论使用何种文化,unicode小写字符串的长度是否始终与原始字符串的长度相同? 换句话说,C#中的以下是真的吗? text.ToUpper(CultureInfo.CurrentCulture).Length == text.Length text.ToLower(CultureInfo.CurrentCulture).Length == text.Length 请注意,我对字节数不感兴趣: 关于它的问题已经得到解答。

GDAL GDALRATSetValueAsString()如何保存汉字(c#)?

我需要GDAL的帮助。 带有中文符号的字符串值未被正确读取/保存(C#)。 对于SAVING网格值,我们使用: private static extern void GDALRATSetValueAsString(IntPtr handle,int row,int field,[In] [MarshalAs(UnmanagedType.LPStr)] string value); 方法(c#)保存字符串值, 似乎这个方法将字符串保存为ANSI字符串 。 阅读: private static extern IntPtr GDALRATGetValueAsString(IntPtr handle, int row, int field); 在。 示例我的字符串“银行Flamwood C2”有​​通过指针获取值的方法(在GDALRATGetValueAsString方法中使用): var pointer = GDALRATGetValueAsString(GDALRasterAttributeTableH, row, field); a) var b = Marshal.PtrToStringUni(pointer); // value: “㼿汆浡潷摯䌠2” b) var a = Marshal.PtrToStringAnsi(pointer); // value: “??Flamwood C2” c) […]

如何在C#中比较和转换表情符号字符

我试图弄清楚如何检查一个字符串是否包含一个特定的表情符号。 例如,查看以下两个表情符号: 自行车骑手: http : //unicode.org/emoji/charts/full-emoji-list.html#1f6b4 美国国旗: http : //unicode.org/emoji/charts/full-emoji-list.html#1f1fa_1f1f8 自行车手是U+1F6B4 ,美国国旗是U+1F1FA U+1F1F8 。 但是,要检查的表情符号是在这样的数组中提供给我的,只有字符串中的数值: var checkFor = new string[] {“1F6B4″,”1F1FA-1F1F8”}; 如何将这些数组值转换为实际的unicode字符并检查字符串是否包含它们? 我可以为自行车骑士工作,但是对于美国国旗,我很难过。 对于自行车骑士,我正在做以下事情: const string comparisonStr = “…”; //some string containing text and emoji var hexVal = Convert.ToInt32(checkFor[0], 16); var strVal = Char.ConvertFromUtf32(hexVal); //now I can successfully do the following check var exists = […]

平假名到汉字转换器

你知道C#中有一个图书馆还是一本字典可以帮我把平假名翻译成汉字吗? 我知道有Windows的IME,但我想完全定制给定平假名的汉字候选列表的设计,这是不可能用这个IME。 例子:用户写“toru”,首先在平假名中翻译:“とる”我想有这个选择列表: 撮る取る盗る 谢谢!

如何使控制台能够打印任何65535 UNICODE字符

我正在尝试使用unicode字符并从维基百科页面中获取unicode值 我的问题是我的控制台显示所有C0控件和基本拉丁语 unicode字符,即从U + 0000到U + 00FF,但对于所有其他类别,如Latin Extended -B,Cyrillic,其他语言等,控制台打印问号字符( ? ) 。 我的C#代码是 using System; using System.Collections.Generic; using System.Linq; using System.Text; namespace DataTypes { class Program { static void Main(string[] args) { char ch = ‘\u0181’; Console.WriteLine(“the unicode character is value” + ch); } } } 我正在使用Windows 7,Visual Studio 2010.我该怎么做才能增加Unicode支持。

Python C# – Python和C#上的Unicode字符不一样

我在处理文本文件时遇到问题。 我发现Python和C#上的字符Unicode表示是不同的。 在特定索引上使用Python 3.5.2打开文件时,unicode字符为: with open(‘file.txt’, ‘r’, encoding = ‘utf-8’) as f: text = f.read() text[189] // Output: u”\U0001F464″ 在同一索引上使用C#打开文件时,此char由两个字符表示: string text = File.ReadAllText(“file.txt”, Encoding.UTF8); Console.WriteLine(((int)text[189]).ToString(“X4”)); // Output: “D83D” string text = File.ReadAllText(“file.txt”, Encoding.UTF8); Console.WriteLine(((int)text[190]).ToString(“X4”)); // Output: “DC64” 所以在python上,这个char在索引189上,在c#上在189和190上。 在fileformat网站上参考这个字符: http://www.fileformat.info/info/unicode/char/1F464/index.htm 正如你在那里看到的那样,这个字符的表示有不同的长度。 在C#/ C / C ++ / Java“\ uD83D \ uDC64”和python u“\ U0001F464”上。 文本中有问题的部分: […]

阿拉伯字符问题

我在iPhone应用程序中显示一些阿拉伯语文本时遇到一些问题。 当我在UILabel上显示它时,它显示为?????? ????? ?????? ?????? ????? ?????? 该字符串来自服务器作为XML,我解析它并显示在UILabel上。 我不知道这是由于iPhone或服务器端的问题。 我想知道如何确定来自服务器的字符串具有正确的编码并且是有效的阿拉伯字符。 是否足以打印每个字符的值并检查它是否位于阿拉伯语Unicode字符之间。 (如字符A的ASCII值为65,Z的字符为90.因此值70必须是ASCII字符)。 在服务器中,字符串使用UTF8编码进行编码。 而服务器程序用c#编写。 将阿拉伯语文本从服务器传输到iPhone的写入编码方法是什么? 我是否需要使用其他字体才能正确显示阿拉伯字符。 在Internet中是否有任何带有阿拉伯语内容的XML文件,我可以从中解析并正确显示阿拉伯语文本? 提前致谢.. 编辑: 当我NSLogged XML数据时我得到了相同的???? ???? ??? ???? ???? ??? 字符。 编辑 查看我在控制台中获得的XML样式数据。 9999 ???? ????? ?????????? ????? ????????? CHINA SECURITY & SURVEILLANCE TECHNOLOGY, INC. ???? ????? ????????? CHINA SECURITY & SUR 9 86 Y CSR 0001 DFM AED

资源文件中的控制字符C#

我想在Visual Studio中的resource.resx文件中添加Left-To-Right控制字符。 我通过互联网搜索并在.NET资源文件中遇到了一个名为“ 另一种逃避序列的方法”的教程,该教程为了在资源文件中插入一个unicode字符,按Alt键并从NumPad键入十进制等效的unicode。 但是使用描述的方式,当我键入8206(十进制等效的\ u200e,它插入♫并且输出中也显示相同的字符。有人知道我在做错了什么吗?