在字符串中查找重复内容?

您如何解决以下问题:

我有一个带文本的半大文件(大约10页),我想在本文中找到重复的内容。 更具体地说,给定一个字符串,找到两个相同的最长字符串。

我一直在寻找最长的常见子序列:

http://en.wikibooks.org/wiki/Algorithm_implementation/Strings/Longest_common_subsequence

但是这些实现需要两个字符串作为输入。

也许有一项服务已经这样做了?

这是一个简单(但效率低下)的算法:循环所有可能的子串长度,从最大值下降到1.对于每个长度,将该长度的所有子串放入字典中。 如果发现重复,请停止。 它必须是最大的一个。 这是相应的C#代码:

public static string FindDuplicateSubstring(string s) { for (int len = s.Length-1; len > 0; len--) { var dict = new Dictionary(); for (int i = 0; i <= s.Length - len; i++) { string sub = s.Substring(i, len); if (dict.ContainsKey(sub)) return sub; else dict[sub] = i; } } return null; } 

例如,当应用于问题的文本时,最长的重复子字符串是“实现”。 请注意,允许重叠的子串,即输入“bbbb”返回“bbb”。 您的问题不清楚是否要排除重叠案例。 有关更快的方法,请参阅我的其他答案。

“最长公共子序列”算法不要求匹配是连续的子串。 例如,对于字符串“computer”和“houseboat”,子序列是“out”。 这是你想要的吗?

如果您希望匹配是连续的子字符串,那么这称为最长的重复子字符串问题 。 该链接描述了使用后缀树的线性时间和空间算法。

如果你想要一些简短的东西,这里有一种基于LCS算法的方法,但是没有表格。 我们的想法是循环所需子字符串与其副本之间的所有可能的整数移位。 对于每个class次,通过扫描一次字符串找到最大的连续匹配。 如果输入字符串具有长度n,则存在O(n)个可能的移位并且检查每个移位花费O(n)时间,因此总成本是O(n ^ 2),仅具有恒定的空间量。 (与我的简单字典答案相比,它需要O(n ^ 3)时间和O(n ^ 2)空间。)如果你不想重叠匹配(即你想要“bbbb”返回“bb”而不是“bbb” ),然后在检查每个class次时,如果最大匹配超过class次,则停止。 这是C#代码:

  public static string FindDuplicateSubstring(string s, bool allowOverlap = false) { int matchPos = 0, maxLength = 0; for (int shift = 1; shift < s.Length; shift++) { int matchCount = 0; for (int i = 0; i < s.Length - shift; i++) { if (s[i] == s[i+shift]) { matchCount++; if (matchCount > maxLength) { maxLength = matchCount; matchPos = i-matchCount+1; } if (!allowOverlap && (matchCount == shift)) { // we have found the largest allowable match // for this shift. break; } } else matchCount = 0; } } if (maxLength > 0) return s.Substring(matchPos, maxLength); else return null; } 

我已经根据我的字典答案测试了它,它给出了相同的结果。 但是对于长度为3000的随机字符串,字典需要15秒,而上述方法需要60ms(并且内存要少得多)。

试试这个

 public static string FindLargestDuplicateString( string text) { var largest = string.Empty; for (var i = '!'; i <= '}'; i++) { var l = FindLargestDuplicateStringImpl( text, i.ToString()); if (l.Length > largest.Length) largest = l; } return largest; } private static string FindLargestDuplicateStringImpl( string text, string currentLargest) { bool found = false; for (var i = '!'; i <= '}'; i++) { var comp = currentLargest + i; var last = text.LastIndexOf(comp); var first = text.IndexOf(comp, 0); if (first == -1 || last == -1 || first == last) continue; currentLargest = comp; found = true; } return !found ? currentLargest : FindLargestDuplicateStringImpl(text, currentLargest); } 

你可以做这样的事情

 public static ArrayList split(String line){ line+=" "; Pattern pattern = Pattern.compile("\\w*\\s"); Matcher matcher = pattern.matcher(line); ArrayList list = new ArrayList(); while (matcher.find()){ list.add(matcher.group()); } return list; } 

一定要删除任何标点符号

 public static void duplicatedWords(String s, int n){ ArrayList splitted = split(s); System.out.println(splitted); HashMap map = new HashMap(); PriorityQueue pq = new PriorityQueue(splitted.size(), new myComp()); for(int i = 0; i 

有了这个比较器:

 public static class myComp implements Comparator{ @Override public int compare(Object arg0, Object arg1) { String s1 = (String)arg0; String s2 = (String)arg1; return s2.length()-s1.length(); } }