Tag: 网络抓取

在C#中搜索动态Web内容

是否有可能刮取动态网页生成的数据? 我的意思是例如这个网站使用一些java脚本生成标签 document.write(“:”+(v2j0j0^o5r8)+(r8d4x4^y5i9)+(b2r8e5^u1p6)+(r8d4x4^y5i9)) 每次刷新页面时值都会更改。 每个生成的代码表示从0到9的数字,例如(code1)+(code2)+(code3)+(code4) ,在后端编写一些类型的解析器,它理解它并相应地生成数字。 一旦页面被渲染,例如code1被设置在数字4的哪里,生成数字4的位置,它在被解析之后来自该代码。 如果我们使用HtmlAgilityPack我们会看到java脚本代码,但不会看到它生成的输出。 有没有什么办法可以在呈现页面时读取它创建的标记?

使用C#和HTMLAgility搜索网页

我已经读过HTMLAgility 1.4是一个很好的解压缩网页的解决方案。 作为一名新程序员,我希望我能对这个项目有所了解。 我这样做是作为ac#申请表。 我正在使用的页面非常简单。 我需要的信息只停留在2个标签之间。 我的目标是将Part-Num,Manu-Number,Description,Manu-Country,Last Modified,Last Modified By的数据拉出页面并将数据发送到sql表。 一个转折是还有一个小的png pic,也需要从src =“/ partcode / number中获取。 我没有任何已完成的代码。 我以为这段代码会告诉我我是否朝着正确的方向前进。 即使进入调试我也看不到它做了什么。 有人可能会指出我正确的方向。 越详细越好,因为很明显我需要学习很多东西。 谢谢,我真的很感激。 using System; using System.Collections.Generic; using System.Linq; using System.Text; using HtmlAgilityPack; using System.Xml; namespace Stats { class PartParser { static void Main(string[] args) { HtmlDocument doc = new HtmlDocument(); doc.LoadHtml(“http://localhost”);//my understanding this reads the […]