Tag: 网络抓取

在C＃中搜索动态Web内容: 是否有可能刮取动态网页生成的数据？我的意思是例如这个网站使用一些java脚本生成标签 document.write(“:”+(v2j0j0^o5r8)+(r8d4x4^y5i9)+(b2r8e5^u1p6)+(r8d4x4^y5i9)) 每次刷新页面时值都会更改。每个生成的代码表示从0到9的数字，例如(code1)+(code2)+(code3)+(code4) ，在后端编写一些类型的解析器，它理解它并相应地生成数字。一旦页面被渲染，例如code1被设置在数字4的哪里，生成数字4的位置，它在被解析之后来自该代码。如果我们使用HtmlAgilityPack我们会看到java脚本代码，但不会看到它生成的输出。有没有什么办法可以在呈现页面时读取它创建的标记？

使用C＃和HTMLAgility搜索网页: 我已经读过HTMLAgility 1.4是一个很好的解压缩网页的解决方案。作为一名新程序员，我希望我能对这个项目有所了解。我这样做是作为ac＃申请表。我正在使用的页面非常简单。我需要的信息只停留在2个标签之间。我的目标是将Part-Num，Manu-Number，Description，Manu-Country，Last Modified，Last Modified By的数据拉出页面并将数据发送到sql表。一个转折是还有一个小的png pic，也需要从src =“/ partcode / number中获取。我没有任何已完成的代码。我以为这段代码会告诉我我是否朝着正确的方向前进。即使进入调试我也看不到它做了什么。有人可能会指出我正确的方向。越详细越好，因为很明显我需要学习很多东西。谢谢，我真的很感激。 using System; using System.Collections.Generic; using System.Linq; using System.Text; using HtmlAgilityPack; using System.Xml; namespace Stats { class PartParser { static void Main(string[] args) { HtmlDocument doc = new HtmlDocument(); doc.LoadHtml(“http://localhost”);//my understanding this reads the […]