HTMLAgilityPack加载AJAX内容以进行抓取

我试图在ac#webforms项目中使用HTMLAgilityPack抓取一个网页。

我见过的所有解决方案都使用WebBrowser控件。 但是,根据我的判断,这仅适用于WinForms项目。

目前我通过以下代码调用所需的页面:

var getHtmlWeb = new HtmlWeb(); var document = getHtmlWeb.Load(inputUri); HtmlAgilityPack.HtmlNodeCollection nodes = document.DocumentNode.SelectNodes("//div[@class=\"nav\"]"); 

我见过使用WebBrowser控件的一段代码示例:

 if (this.webBrowser1.Document.GetElementsByTagName("html")[0] != null) _htmlAgilityPackDocument.LoadHtml(this.webBrowser1.Document.GetElementsByTagName("html")[0].OuterHtml); 

关于如何在加载AJAX后抓取页面的任何建议/指示将不胜感激。

似乎使用HTMLAgilityPack只能抓取通过html本身加载的内容。 因此,通过AJAX加载的任何内容都不会被HTMLAgilityPack看到。

也许最简单的选择 – 可行 – 是使用基于浏览器的工具(如Firebug)来确定AJAX加载的数据源。 然后直接操作源数据。 这样做的另一个好处可能是刮掉更大的数据集。