Tag: 文本

理解文本编码（在.Net中）: 我对Text的编码做的很少。说实话，我甚至都不知道它究竟意味着什么。例如，如果我有类似的东西： Dim myStr as String = “Hello” 这是以特定格式在内存中“编码”的吗？这种格式取决于我使用的语言吗？如果我在另一个国家，比如中国，我有一串中文（普通话？如果我在这里使用了错误的词语，我道歉）下面的代码（我在英文字符串上使用得很好）还是一样吗？ System.Text.UTF8Encoding encoding=new System.Text.UTF8Encoding(); return encoding.GetBytes(str); 或者当转换无效时将.Net字符串转换为UTF8Encoding时会失去所有意义吗？最后，我已经与.Net合作了几年，而且我从未见过，听说过或者不得不对编码做任何事情。我是例外，还是不常见的事情？

用于文本算法的.NET库？: 你知道任何用于文本算法的.NET库吗？特别是我对字符串匹配和全文搜索算法感兴趣 Bitap算法 Levenshtein距离 Damerau-Levenshtein距离我知道我提到的那个代码非常简单，但有数百种文本算法，我不想自己编写代码。如果没有已知的这样的.NET库，你可以提一下C，C ++库，编码包装器比零编码更容易。

从RichTextBox到文本文件，一行一行: 我将文件从Richtextbox保存到文本文件时遇到问题。我的richtextbox看起来像这样; ABC … SDE … KLO … 我保存后看起来像这样： ABC … SDE … KLO … 但我希望像行后的richtextbox一样。我做错了什么？ if (saveFileDialog2.ShowDialog() == DialogResult.OK) { StreamWriter sw = File.CreateText(saveFileDialog2.FileName); sw.WriteLine(richTextBox1.Text); sw.Flush(); sw.Close(); //File.WriteAllText(saveFileDialog2.FileName, str); }

如何将文本从MS Word文档解析为字符串: 我试图找到一种方法将word文档的文本解析为我项目中的字符串。我有超过600个单词（.doc）文件，我需要获取文本内容（如果可能的话，使用新的行和标签）和将它分配给每个字符串。我一直在阅读有关Open XML SDK的内容，但看起来非常简单。

逐行比较两个文本文件: 在这里我描述了一个示例场景： “FileA-Database.txt”包含以下名称： KB200 KB300 KB400 “FileB-Slave.txt”包含以下名称： KB600 KB200 KB400 KB700 我想将“FileA-Database.txt”与“FileB-Slave.txt”进行比较，并在“FileA-Database.txt”文件中自动填写缺失值，同时我需要在文本中显示缺失值文件名为“Results.txt”。代码需要与C＃（框架4.0+）兼容！我需要一个简单的方法，我的工作方式与我想要的完全不同： private void button_compare_Click(object sender, EventArgs e) { string fileA, fileB, fileC; fileA = “database-critical.txt”; fileB = “patchlist.txt”; fileC = “result.txt”; string alphaFilePath = fileA; List alphaFileContent = new List(); using (FileStream fs = new FileStream(alphaFilePath, FileMode.Open)) using(StreamReader rdr = new StreamReader(fs)) { […]

在C＃中将文本拆分为句子: 我想把文字分成句子。一个句子以（点）或？结尾要么！接下来是一个或多个空白字符，下一个句子以大写字母开头。例如：第一句话。第二句话！我怎样才能做到这一点？

如何在不在C＃中逐行搜索字符串的大文本文件中搜索？: 我有一个大文本文件，我需要搜索特定的字符串。如果没有逐行阅读，有没有快速的方法呢？由于文件的大小（超过100 MB），此方法非常慢。

从C＃中的文本文件中读取数字: 这应该是非常简单的。我只想从文本文件中读取数字和单词，该文本文件由用空格分隔的标记组成。你是怎么用C＃做的？例如，在C ++中，以下代码可用于读取整数，浮点数和单词。我不想使用正则表达式或编写任何特殊的解析代码。 ifstream in(“file.txt”); int int_val; float float_val; string string_val; in >> int_val >> float_val >> string_val; in.close(); 此外，每当读取令牌时，应该读入令牌之外的不超过一个字符。这允许进一步的文件读取取决于读取的令牌的值。作为具体的例子，考虑一下 string decider; int size; string name; in >> decider; if (decider == “name”) in >> name; else if (decider == “size”) in >> size; else if (!decider.empty() && decider[0] == ‘#’) […]

计算文本文件中特定单词的频率: 我有一个文本文件存储为字符串变量。处理文本文件，使其仅包含小写单词和空格。现在，假设我有一个静态字典，它只是一个特定单词列表，我想从文本文件中计算字典中每个单词的频率。例如： Text file: i love love vb development although ima total newbie Dictionary: love, development, fire, stone 我想看到的输出类似于以下内容，列出字典单词及其计数。如果它使编码更简单，它也只能列出文本中出现的字典单词。 =========== WORD, COUNT love, 2 development, 1 fire, 0 stone, 0 ============ 使用正则表达式（例如“\ w +”）我可以获得所有单词匹配，但我不知道如何获得也在字典中的计数，所以我被卡住了。效率在这里至关重要，因为字典非常大（~100,000个单词），文本文件也不小（每个~200kb）。我感谢任何帮助。