Tag: 文本处理

从txt文件中计算唯一单词的数量和每个单词的出现次数

目前我试图创建一个应用程序来做一些文本处理来读取文本文件,然后我使用字典来创建单词索引,从技术上讲它将是这样的..程序将运行并读取文本文件然后检查它,查看该单词是否已存在于该文件中,以及该单词作为唯一单词的id字。 如果是这样,它将打印出他们遇到的每个单词的索引号和外观总数,并继续检查整个文件。 并产生这样的东西: http : //pastebin.com/CjtcYchF 下面是我正在输入的文本文件的示例: http : //pastebin.com/ZRVbhWhV快速ctrl-F显示“not”出现2次,“that”出现4次。 我需要做的是索引每个单词并像这样调用它: sample input : “that I have not that place sunrise beach like not good dirty beach trash beach” dictionary : output.txt / output.dat: index word 1 I 4:2 1:1 2:1 3:2 5:1 6:1 7:3 8:1 9:1 10:1 11:1 2 have 3 not 4 that […]