Tag: 文本

理解文本编码(在.Net中)

我对Text的编码做的很少。 说实话,我甚至都不知道它究竟意味着什么。 例如,如果我有类似的东西: Dim myStr as String = “Hello” 这是以特定格式在内存中“编码”的吗? 这种格式取决于我使用的语言吗? 如果我在另一个国家,比如中国,我有一串中文(普通话?如果我在这里使用了错误的词语,我道歉)下面的代码(我在英文字符串上使用得很好)还是一样吗? System.Text.UTF8Encoding encoding=new System.Text.UTF8Encoding(); return encoding.GetBytes(str); 或者当转换无效时将.Net字符串转换为UTF8Encoding时会失去所有意义吗? 最后,我已经与.Net合作了几年,而且我从未见过,听说过或者不得不对编码做任何事情。 我是例外,还是不常见的事情?

用于文本算法的.NET库?

你知道任何用于文本算法的.NET库吗? 特别是我对字符串匹配和全文搜索算法感兴趣 Bitap算法 Levenshtein距离 Damerau-Levenshtein距离 我知道我提到的那个代码非常简单,但有数百种文本算法,我不想自己编写代码。 如果没有已知的这样的.NET库,你可以提一下C,C ++库,编码包装器比零编码更容易。

从RichTextBox到文本文件,一行一行

我将文件从Richtextbox保存到文本文件时遇到问题。 我的richtextbox看起来像这样; ABC … SDE … KLO … 我保存后看起来像这样: ABC … SDE … KLO … 但我希望像行后的richtextbox一样。 我做错了什么? if (saveFileDialog2.ShowDialog() == DialogResult.OK) { StreamWriter sw = File.CreateText(saveFileDialog2.FileName); sw.WriteLine(richTextBox1.Text); sw.Flush(); sw.Close(); //File.WriteAllText(saveFileDialog2.FileName, str); }

从字符串中删除重复的单词

我需要从字符串中删除重复的单词。 我该怎么做呢?

如何将文本从MS Word文档解析为字符串

我试图找到一种方法将word文档的文本解析为我项目中的字符串。我有超过600个单词(.doc)文件,我需要获取文本内容(如果可能的话,使用新的行和标签)和将它分配给每个字符串。 我一直在阅读有关Open XML SDK的内容,但看起来非常简单。

逐行比较两个文本文件

在这里我描述了一个示例场景: “FileA-Database.txt”包含以下名称: KB200 KB300 KB400 “FileB-Slave.txt”包含以下名称: KB600 KB200 KB400 KB700 我想将“FileA-Database.txt”与“FileB-Slave.txt”进行比较,并在“FileA-Database.txt”文件中自动填写缺失值,同时我需要在文本中显示缺失值文件名为“Results.txt”。 代码需要与C#(框架4.0+)兼容! 我需要一个简单的方法,我的工作方式与我想要的完全不同: private void button_compare_Click(object sender, EventArgs e) { string fileA, fileB, fileC; fileA = “database-critical.txt”; fileB = “patchlist.txt”; fileC = “result.txt”; string alphaFilePath = fileA; List alphaFileContent = new List(); using (FileStream fs = new FileStream(alphaFilePath, FileMode.Open)) using(StreamReader rdr = new StreamReader(fs)) { […]

在C#中将文本拆分为句子

我想把文字分成句子。 一个句子以(点)或?结尾 要么 ! 接下来是一个或多个空白字符,下一个句子以大写字母开头。 例如: 第一句话。 第二句话! 我怎样才能做到这一点?

如何在不在C#中逐行搜索字符串的大文本文件中搜索?

我有一个大文本文件,我需要搜索特定的字符串。 如果没有逐行阅读,有没有快速的方法呢? 由于文件的大小(超过100 MB),此方法非常慢。

从C#中的文本文件中读取数字

这应该是非常简单的。 我只想从文本文件中读取数字和单词,该文本文件由用空格分隔的标记组成。 你是怎么用C#做的? 例如,在C ++中,以下代码可用于读取整数,浮点数和单词。 我不想使用正则表达式或编写任何特殊的解析代码。 ifstream in(“file.txt”); int int_val; float float_val; string string_val; in >> int_val >> float_val >> string_val; in.close(); 此外,每当读取令牌时,应该读入令牌之外的不超过一个字符。这允许进一步的文件读取取决于读取的令牌的值。 作为具体的例子,考虑一下 string decider; int size; string name; in >> decider; if (decider == “name”) in >> name; else if (decider == “size”) in >> size; else if (!decider.empty() && decider[0] == ‘#’) […]

计算文本文件中特定单词的频率

我有一个文本文件存储为字符串变量。 处理文本文件,使其仅包含小写单词和空格。 现在,假设我有一个静态字典,它只是一个特定单词列表,我想从文本文件中计算字典中每个单词的频率。 例如: Text file: i love love vb development although ima total newbie Dictionary: love, development, fire, stone 我想看到的输出类似于以下内容,列出字典单词及其计数。 如果它使编码更简单,它也只能列出文本中出现的字典单词。 =========== WORD, COUNT love, 2 development, 1 fire, 0 stone, 0 ============ 使用正则表达式(例如“\ w +”)我可以获得所有单词匹配,但我不知道如何获得也在字典中的计数,所以我被卡住了。 效率在这里至关重要,因为字典非常大(~100,000个单词),文本文件也不小(每个~200kb)。 我感谢任何帮助。