Tag: unicode

如何识别字符串是否包含unicode字符?

我有一个字符串,我想知道它内部是否有unicode字符。 (如果它完全包含ASCII或不包含ASCII) 我怎样才能做到这一点? 谢谢!

如何将unicode字符串输出到RTF(使用C#)

我正在尝试将unicode字符串输出为RTF格式。 (使用c#和winforms) 来自维基百科 : 如果需要Unicode转义,则使用控制字\ u,然后使用16位带符号十进制整数,给出Unicode代码点编号。 为了没有Unicode支持的程序的好处,必须在指定的代码页中跟随此字符的最近表示。 例如,\ u1576? 会给出阿拉伯字母beh,指明没有Unicode支持的旧程序应该将其作为问号呈现。 我不知道如何将Unicode字符转换为Unicode代码点(“\ u1576”)。 转换为UTF 8,UTF 16和类似很容易,但我不知道如何转换为codepoint。 我使用它的场景: 我把现有的RTF文件读成字符串(我正在阅读模板) string.replace #TOKEN #with MyUnicodeString(模板填充数据) 将结果写入另一个RTF文件。 当Unicode字符到达时出现问题

从左到右解析阿拉伯语/ RTL文本

假设我有一个RTL语言的字符串,例如阿拉伯语,其中包含一些英语: string s = “Test:لطيفة;اليوم;a;b” 请注意,字符串中有分号。 当我使用Split命令时,如string[] spl = s.Split(‘;’); ,然后一些字符串以相反的顺序保存。 这是发生的事情: spl [0] =“测试:لطيفة” spl [1] =“”اليوم spl [2] =“a” spl [3] =“b” 与原版相比,上述内容无序。 相反,我希望得到这个: spl [0] =“测试:اليوم” spl [1] =“لطيفة” spl [2] =“a” spl [3] =“b” 我准备编写自己的分割function。 但是,字符串中的字符也以相反的顺序进行解析,所以我回到原点。 我只想浏览屏幕上显示的每个角色。

有没有办法检查unicode文本是否使用某种语言?

我将从需要validation的用户获取文本是一个中文字符。 有什么方法可以检查吗?

正则表达式只接受波斯字符

我正在处理一个表单,其中一个自定义validation器应该只接受波斯语字符…我使用了以下代码: var myregex = new Regex(@”^[\u0600-\u06FF]+$”); if (myregex.IsMatch(mytextBox.Text)) { args.IsValid = true; } else { args.IsValid = false; } 但它似乎只适用于检查阿拉伯字符而且它不包括所有波斯字符(它缺少这四个گ,چ,پ,ژ)…有没有办法解决这个问题?

从Internet下载HTML后,字符串中的字符发生了变化

使用以下代码,我可以从互联网上下载文件的HTML: WebClient wc = new WebClient(); // …. string downloadedFile = wc.DownloadString(“http://www.myurl.com/”); 但是,有时文件包含“有趣”的字符,如é到é , ←到and和フシギダネ到フシギダム。 我认为它可能与不同的unicode类型或其他东西有关,因为每个角色变成2个新角色,也许每个角色被分成两半,但我对这个领域知之甚少。 你觉得怎么了?