在C#中查看生成的源(在AJAX / JavaScript之后)

有没有办法从C#应用程序查看生成的网页源(所有AJAX调用和JavaScript DOM操作之后的代码),而无需从代码中打开浏览器?

使用WebRequest或WebClient对象查看初始页面工作正常,但如果页面大量使用JavaScript来更改页面加载时的DOM,则这些页面无法准确显示页面。

我尝试过使用Selenium和Watin UI测试框架,它们完美地工作,提供所有JavaScript操作完成后显示的生成源。 不幸的是,他们通过打开一个非常慢的实际Web浏览器来实现这一点。 我已经实现了一个selenium服务器,可以将这项工作卸载到另一台机器上,但仍有很大的延迟。

是否有.Net库可以加载和解析页面(如浏览器)并吐出生成的代码? 显然,谷歌和雅虎并没有为他们想要蜘蛛的每个页面开放浏览器(当然,他们可能拥有比我更多的资源……)。

除非我愿意剖析开源浏览器的源代码,否则是否有这样的库或我运气不好?

好的,谢谢大家的帮助。 我有一个比Selenium快10倍的工作解决方案。 呜!

感谢来自beansoftware的这篇旧文章,我能够使用System.Windows.Forms.WebBrowser控件下载页面并解析它,然后给em生成源代码。 即使控件在Windows.Forms中,你仍然可以从Asp.Net运行它(这就是我正在做的),只需记住将System.Window.Forms添加到项目引用中。

关于代码有两个值得注意的事情。 首先,在新线程中调用WebBrowser控件。 这是因为它必须在单线程公寓上运行。

其次,GeneratedSource变量设置在两个地方。 这不是由于智能设计决定:)我仍在努力,并在我完成后更新这个答案。 多次调用wb_DocumentCompleted()。 首先下载初始HTML,然后在第一轮JavaScript完成时再次下载。 不幸的是,我正在抓的网站有3个不同的加载阶段。 1)加载初始HTML 2)执行第一轮JavaScript DOM操作3)暂停半秒然后进行第二轮JS DOM操作。

由于某种原因,第二轮不是由wb_DocumentCompleted()函数引起的,但是当wb.ReadyState == Complete时它总是被捕获。 那么为什么不从wb_DocumentCompleted()中删除它呢? 我仍然不确定为什么它没有被抓住,这是珠宝软件文章推荐的地方。 我要继续研究它。 我只是想发布这个代码,所以任何有兴趣的人都可以使用它。 请享用!

using System.Threading; using System.Windows.Forms; public class WebProcessor { private string GeneratedSource{ get; set; } private string URL { get; set; } public string GetGeneratedHTML(string url) { URL = url; Thread t = new Thread(new ThreadStart(WebBrowserThread)); t.SetApartmentState(ApartmentState.STA); t.Start(); t.Join(); return GeneratedSource; } private void WebBrowserThread() { WebBrowser wb = new WebBrowser(); wb.Navigate(URL); wb.DocumentCompleted += new WebBrowserDocumentCompletedEventHandler( wb_DocumentCompleted); while (wb.ReadyState != WebBrowserReadyState.Complete) Application.DoEvents(); //Added this line, because the final HTML takes a while to show up GeneratedSource= wb.Document.Body.InnerHtml; wb.Dispose(); } private void wb_DocumentCompleted(object sender, WebBrowserDocumentCompletedEventArgs e) { WebBrowser wb = (WebBrowser)sender; GeneratedSource= wb.Document.Body.InnerHtml; } } 

它可能使用浏览器的实例(在你的情况下:ie控件)。 您可以在应用中轻松使用并打开页面。 然后控件将加载它并处理任何javascript。 完成后,您可以访问控件dom对象并获取“解释”代码。

最好的方法是使用PhantomJs 。 那很棒。 (样本是文章 )。

我的解决方案如下所示:

 var page = require('webpage').create(); page.open("https://sample.com", function(){ page.evaluate(function(){ var i = 0, oJson = jsonData, sKey; localStorage.clear(); for (; sKey = Object.keys(oJson)[i]; i++) { localStorage.setItem(sKey,oJson[sKey]) } }); page.open("https://sample.com", function(){ setTimeout(function(){ page.render("screenshoot.png") // Where you want to save it console.log(page.content); //page source // You can access its content using jQuery var fbcomments = page.evaluate(function(){ return $("body").contents().find(".content") }) phantom.exit(); },10000) }); }); 

理论上是的,但是,目前,没有。

我认为目前没有产品或OSS项目可以做到这一点。 这样的产品需要拥有自己的javascript解释器,并且能够准确地模拟它支持的每个浏览器的运行时环境和怪癖。

鉴于您需要能够精确模拟服务器+浏览器环境以生成最终页面代码的内容,从长远来看,我认为使用浏览器实例是在最终状态下准确生成页面的最佳方法。 尤其如此,当您考虑到页面加载完成后,页面源仍然可以在浏览器中从AJAX / javascript随时间变化。