过滤掉搜索查询的常用字词

有没有简单的方法通过提取查询中有意义的数据来实现过滤用户的输入(可能是一个问题)?

我基本上想要过滤掉任何干扰词,这样我就可以向谷歌的搜索API发送一个“干净”的查询。

嗯,谷歌不会为你这样做吗? 将所有那些肮脏,肮脏的文字发送给谷歌并让他们为您清理它们。

杰夫在之前的一个stackoverflow播客中谈到了“停用词”。 您可以尝试在Google上搜索该短语。 维基百科页面似乎有一些概述和指向选项的指针。

http://en.wikipedia.org/wiki/Stop_words

您可以尝试删除前X个最常见的英语单词,但是这样的天真方法总是会遇到麻烦。

这是因为普通英语单词在计算机科学(或其他领域)领域具有特殊意义。 最近的SO播客( #32 )提到了这个问题。

我在实现基本搜索引擎时使用了停用词方法,并且运行正常。 尝试像这里的样本列表

根据用户的反馈,您可以相应地修改停用词列表。