Tag: google crawlers

防止自定义Web爬网程序被阻止

我正在使用C#创建一个新的网络爬虫来抓取一些特定的网站。 一切都很好。 但问题是有些网站在一些请求后阻止了我的抓取工具IP地址 。 我尝试在抓取请求之间使用时间戳。 但没有奏效。 有什么方法可以阻止网站阻止我的抓取工具? 像这样的一些解决方案会有所帮助(但我需要知道如何应用它们): 模拟谷歌机器人或雅虎诽谤 使用多个IP地址 (事件虚假IP地址)作为爬虫客户端IP 任何解决方案都有帮助