如何检查rss Feed中post的唯一性(非重复)

当从rss feed中检索和缓存/保存(在数据库中)某些post时,如何确定:

  1. 它是相同的post(例如:当一些拼写错误在Feed中修复或标题更改,日期更改等…)
  2. 找到谈论相同主题的供稿(例如:来自不同来源的相同故事)

这些东西有什么最好的做法吗?

thnx很多

一些RSS提要有一个guid元素作为标识符。 具有共享guid的post可能是重复的。 一些RSS提要只是在其中填充URL以指示post的唯一性与其URL相关联。 请注意,如果URL匹配但Guid没有匹配,则可能表示post不重复。 如果Feed未维护存档,则url可能不会更改。 这种情况可能非常罕见。

该URL将是一个良好的开端。 至于人们做出改变时的不同版本。 这取决于实施细节。

如果在feed的item元素中使用pubDate,那么将其用作版本可能会很有用。

参考: http : //cyber.law.harvard.edu/rss/rss.html#sampleFiles

看一下谷歌新闻使用的聚类算法。 虽然您的要求不是那么高,但它们与谷歌新闻的含义模糊不清 – 他们将来自不同来源的同一事件的故事集中到一个组中。 他们使用结合NLP的高级算法。 但您可以从标题和url中的关键字映射开始。