Tag: 文本

如何使用C#在文本中查找重复的单词组?

我在StringBuilder(sb)中反复使用这个代码,我在互联网上找到了这个代码,根据作者的说法,它与Word的单词计数器非常一致。 StringBuilder wordBuffer = new StringBuilder(); int wordCount = 0; // 1. Build the list of words used. Consider ”’ (apostrophe) and ‘-‘ (hyphen) a word continuation character. Dictionary wordList = new Dictionary(); foreach (char c in sb.ToString()) { if (char.IsLetter(c) || c == ‘\” || c == ‘-‘) { wordBuffer.Append(char.ToLower(c)); } else { if […]

File.ReadAllText中的字符无效

我正在一个程序中调用File.ReadAllText() ,该程序旨在格式化我拥有的一些文件。 其中一些文件包含® (174)符号。 但是,在读取文本时,返回的字符串包含 (65533)符号,其中® (174)应该是。 是什么导致这种情况,我该如何解决?

在C#中的单色位图上绘制文本

我的问题是我需要在单色位图上绘制文本。 生成的位图必须打印在热敏POS打印机上,因此位图必须为1bpp。 我的图形不好,所以我试图找一些样品。 这是我尝试过的: Bitmap bmp = new Bitmap(300, 300, PixelFormat.Format1bppIndexed); using (Graphics g = Graphics.FromImage(bmp)) { Font font = new Font(“Arial”, 20, FontStyle.Bold, GraphicsUnit.Point); g.Clear(Color.White); g.DrawString(text, font, Brushes.Black, 0, 0); } bmp.Save(@”c:\x\x.bmp”, ImageFormat.Bmp); 最后保存只是为了检查结果。 使用此代码,我得到以下exception:无法从具有索引像素格式的图像创建Graphics对象。 是否有任何方法可以将文本绘制到单色内存位图? 仅供参考:我需要这个,因为我的愚蠢POS打印机绘制的0与O完全相同,所以它们无法区分……

查找在字符串中多次使用过的短语

通过使用字典来识别最常使用的单词,但是给定文本文件,可以很容易地计算文件中单词的出现次数,如何找到常用短语,其中“短语”是连续两个或更多个的集合话? 例如,以下是一些示例文本: 除口头遗嘱外,每一个遗嘱都应采用书面forms,但可以手写或打字。 遗嘱应包含遗嘱人的签名或其他人在遗嘱人的有意识的存在和立遗嘱人的明确指示。 遗嘱应由立遗嘱人在有意识的存在下 ,由两名或多名主管证人certificate和认购,他们看到立遗嘱人认购,或听取立遗嘱人确认立遗嘱人的签名 。 出于本节的目的, 有意识存在意味着在任何立遗嘱者的感官范围内,不包括通过电话,电子或其他远程通信感知的视觉或声音。 我如何识别“有意识存在”(3次)和“立遗嘱人签名”(2次)这些短语出现不止一次(除了蛮力搜索每一组两三个单词)? 我将用c#编写这个,所以c#代码会很棒,但是我甚至无法识别出一个好的算法,所以我会解决所有代码甚至伪代码以解决这个问题。

使用Stream writer将特定字节写入textfile

好吧,我正在尝试将一些值和字符串写入文本文件。 但是这个文本文件必须包含2个字节 这些是我想在完成向其写入其他值后插入到我的文本文件中的2个字节: 我试过这个方法,但我不知道如何通过它写字节 using (StreamWriter sw = new StreamWriter(outputFilePath, false, Encoding.UTF8)) 在把我想要的字符串放到它上面后,我不知道如何将它们写入文本文件。

重复的文本查找

我的主要问题是试图找到一个合适的解决方案来自动转换它,例如: d+c+d+f+d+c+d+f+d+c+d+f+d+c+d+f+ 进入这个: [d+c+d+f+]4 即找到彼此相邻的重复项,然后从这些重复项中缩短“循环”。 到目前为止,我找不到合适的解决方案,我期待着回应。 PS为了避免混淆,前面提到的样本并不是唯一需要“循环”的东西,它因文件而异。 哦,这是用于C ++或C#程序,要么很好,尽管我也接受任何其他建议。 此外,主要思想是所有工作都由程序本身完成,除了文件本身之外没有用户输入。 这是完整的文件,供参考,我为拉伸页面道歉:#0 @ 16 v225 y10 w250 t76 l16 $ ED $ EF $ A9 p20,20> ecegb> d <bgbgecgec d + d + f + a +> c + <a + f + a + f + d + f + d + c cegbgegec ec […]

.NET:如何判断编码是否支持字符串中的所有字符?

我有很多需要输出的文本,其中包括来自多种语言的各种字符。 有时我需要输出除Unicode之外的字符编码(例如,Shift-JIS或ISO-8859-2)的文本,以匹配它将要访问的页面。 如果文本具有编码无法处理的字符(例如,ISO-8859-2编码输出中的日文字符),则输出结果中出现奇数字符。 我可以逃避他们,但我宁愿这样做只有在真的有必要的时候。 所以,我的问题是:如果编码可以处理我的字符串中的所有字符,是否有一种方法可以提前告诉我? 编辑:我认为EncoderFallback可能是我问的问题的正确答案。 不幸的是,它似乎并不适合我的特殊情况。 我的想法是将字符转换为它们的HTML实体等价物(例如,&#12514;而不是モ)。 但是,编码器只转换它找到的第一个这样的字符,如果我设置了Response.ContentEncoding,它根本就不会调用我的EncoderFallback。

如何对齐SpriteBatch.DrawString绘制的文本?

有没有一种简单的方法可以将文本对齐到右边和中心(而不是默认左边)?

如何获取没有读取文件的行数

有没有办法获得大文本文件中的行数,但没有读取文件内容或读取文件结束和计数++。 也许有一些文件属性,但根本找不到它。 因为我可能在某些情况下我应该获得总行数并将其与当前行进行比较以显示百分比,并且仅针对百分比显示首先阅读所有内容而不是读取它再次显示原始文本可能是愚蠢的在用户。 最好成绩

匹配大文本文件中的字符串?

我有一个字符串列表,其中包含大小为152MB的文本文件中的大约700万个项目。 我想知道什么是实现一个带有单个字符串的函数的最佳方法,并返回它是否在该字符串列表中。