Tag: robots.txt

任何人都有任何C#代码来解析robots.txt并对其进行评估

简短的问题: 有没有人有任何C#代码来解析robots.txt,然后针对它评估URL,所以看看它们是否会被排除。 长问题: 我一直在为一个尚未发布到谷歌的新网站创建一个站点地图。 站点地图有两种模式,用户模式(如传统站点地图)和“管理员”模式。 管理模式将显示网站上所有可能的URL,包括特定外部合作伙伴的自定义条目URL或URL,例如example.com/oprah以便在Oprah上看到我们网站的任何人。 我想跟踪Excel电子表格以外的其他地方发布的链接。 我不得不假设有人可能会在他们的博客或某个地方发布/oprah链接。 我们实际上并不希望将这个“迷你oprah网站”编入索引,因为这会导致非oprah观众能够找到特殊的Oprah优惠。 因此,在我创建站点地图的同时,我还添加了诸如/oprah URL,以便从我们的robots.txt文件中排除。 然后 (这是实际问题)我认为“能够在站点地图上显示文件是否被索引并且对机器人可见”不是很好。 这很简单 – 只需解析robots.txt然后评估一个链接。 然而,这是一个“奖励function”,我当然没有时间去写它(甚至认为它可能不那么复杂) – 所以我想知道是否有人已经编写任何代码来解析robots.txt?