在不同的计算机上编码dBase III .dbf文件的问题

我正在使用C#和.NET 3.5,尝试使用带有Microsoft dBase驱动程序的ODBC从旧的dbf文件导入一些数据。

dbf采用dBase III格式,并使用ibm850编码进行字符串处理。

现在,当我在我的机器上运行我的程序时,从OdbcDataReader读取的所有字符串数据都会转换为UTF-16或UTF-8或其他东西,idk并且我将它保存为UTF-8并且一切正常,但是当我尝试在XP机器上使用此程序,某些字符无法正确转换为UTF-8。 ”’例如。 可能还有其他一些。 ‘Ä’,’Ö’和’Ü’等字符都可以。 这就是问题。 也许ODBC或驱动程序使用一些机器文化信息或其他东西来搞乱一切。

是否可以从数据库中读取字符串作为二进制文件? 也许像CONVERT或CAST这样的function? 或者我在哪里可以找到适用于此dBase驱动程序或其他驱动程序的SQL函数和语法的一些参考? 我四处搜索,找不到任何东西。 使用ODBC和SQL时我感到很盲目。

现在我正在使用临时黑客用Õ替换所有σ。

谢谢!

示例代码:

System.Data.Odbc.OdbcConnection oConn = new System.Data.Odbc.OdbcConnection(); oConn.ConnectionString = @"Driver={Microsoft dBase Driver (*.dbf)};DriverID=277;Dbq=" + dbPath + ";"; oConn.Open(); System.Data.Odbc.OdbcCommand oCmd = oConn.CreateCommand(); oCmd.CommandText = @"SELECT name FROM " + dbPath + "TABLE.DBF"; System.Data.Odbc.OdbcDataReader reader = oCmd.ExecuteReader(); reader.Read(); byte[] buf = Encoding.UTF8.GetBytes(reader.GetString(0)); BinaryWriter writer = new BinaryWriter(File.Open(@"C:\DBF\Test.txt", FileMode.Create)); writer.Write(buf); 

结果:

dbf中的E5(Õ在850)

pc1上的Test.txt:C3 95(Õ以UTF-8表示)

pc2上的Test.txt:CF 83(UTF-8中的σ)

如果您仍然遇到这些文件的问题,我可能会帮助您。

什么是文件中偏移29(十进制)的“代码页字节”又名“语言驱动程序ID”(LDID)?

我有一个基于Python的DBF阅读器,它可以读取任何字段数据类型和任何代码页 – 它有一个很长的列表,从代码页字节到代码页编号的各种映射源编译。 选项是(1)相信LDID,传递Unicode(2)忽略LDID,传递未解码的字节(3)覆盖LDID,用特定的代码页解码成Unicode。 当然可以将Unicode编码为UTF-8。

DBF阅读器还进行了大量合理的交叉检查,这可能有助于调查VFP认为文件损坏的原因。

你怎么知道它正在使用IBM850? 我拥有的另一段Python代码是原型编码检测器,与源自Mozilla代码的’chardet’等检测器不同,它不是以Web为中心的,并且可以很高兴地识别大多数旧的DOS代码页 – 这可能有所帮助。

观察:希腊字母小写sigma(σ)在代码页437中是0xE5,代码页850成功 – “pc2”似乎有点过时了……

如果您认为我可以提供任何帮助,请随时发送电子邮件至insert_punctuation(“sjmachin”,“lexicon”,“net”)

试试这个代码。

 var oConn = new System.Data.Odbc.OdbcConnection(); oConn.ConnectionString = "Driver={Microsoft Visual FoxPro Driver};SourceType=DBF;SourceDB=" + dbPath; oConn.Open(); var oCmd = oConn.CreateCommand(); oCmd.CommandText = @"SELECT name FROM " + dbPath + "TABLE.DBF"; var reader = oCmd.ExecuteReader(); reader.Read(); byte[] A = Encoding.GetEncoding(Encoding.Default.CodePage).GetBytes(reader.GetString(0)); string p = Encoding.Unicode.GetString((Encoding.Convert(Encoding.GetEncoding(850), Encoding.Unicode, A))); 

当您阅读dbf文件时,您应该了解您应该考虑3种类型的编码:

1.编码数据库提供程序读取文件的编码。 这取决于提供商和当前的操作系统。 该编码应用于字节数组接收。 例如在我的电脑上:

  • 当我使用连接字符串“Data Source = {0}; Provider = Microsoft.JET.OLEDB.4.0; Extended Properties = DBase IV; User ID =; Password =;”时,使用866代码页读取字符串(俄语MS-DOS) )

  • 当我使用连接字符串“Data Source = {0}; Provider = vfpoledb.1; Exclusive = No; Collat​​ing Sequence = Machine”时,使用Encoding.Default (1251代码页)读取字符串

2.编码将字符串写入dbf文件的编码。 它可以从29字节的dbf文件接收,但实际上无论如何标记dbf文件编码,您应该只知道使用了什么编码。 在字符串转换期间,此编码应用作源编码

3.编码要转换的字符串。 这通常是UTF-8。

所以字符串转换应该如下所示:

 byte[] bytes = Encoding.GetEncoding(codePage1).GetBytes(reader.GetString(0)); string result = Encoding.UTF8.GetString((Encoding.Convert(Encoding.GetEncoding(codePage2), Encoding.UTF8, bytes))); 

您是否尝试使用Visual Foxpro驱动程序“VFPOleDb”驱动程序?