来自ANSII编码文件的ReadText

我用Q42.Winrt库下载html文件到缓存。 但是,当我使用ReadTextAsync时,我有exception:

目标多字节代码页中不存在Unicode字符的映射。 (HRESULTexception:0x80070459)

我的代码非常简单

var parsedPage = await WebDataCache.GetAsync(new Uri(String.Format("http://someUrl.here"))); var parsedStream = await FileIO.ReadTextAsync(parsedPage); 

我打开下载的文件,有ANSII编码。 我想我需要将它转换为UTF-8,但我不知道如何。

问题是原始页面的编码不是Unicode,而是Windows-1251,而ReadTextAsync函数只处理Unicode或UTF8。 解决这个问题的方法是将文件读取为二进制文件,然后使用Encoding.GetEncoding解释1251代码页的字节并生成字符串(始终为Unicode)。

例如,

  String parsedStream; var parsedPage = await WebDataCache.GetAsync(new Uri(String.Format("http://bash.im"))); var buffer = await FileIO.ReadBufferAsync(parsedPage); using (var dr = DataReader.FromBuffer(buffer)) { var bytes1251 = new Byte[buffer.Length]; dr.ReadBytes(bytes1251); parsedStream = Encoding.GetEncoding("Windows-1251").GetString(bytes1251, 0, bytes1251.Length); } 

挑战是你不知道存储的字节是什么代码页,所以它在这里工作,但可能不适用于其他网站。 通常,UTF-8是您从网上获得的,但并非总是如此。 此页面的Content-Type响应标头显示代码页,但该信息未存储在文件中。