Tag: screen scraping

如何使用htmlagilitypack刮取xml文件

我需要从http://feeds.feedburner.com/Torrentfreak中抓取一个xml文件,以获取其链接和描述。 我用过这段代码: var webGet = new HtmlWeb(); var document = webGet.Load(“http://feeds.feedburner.com/TechCrunch”); var TechCrunch = from info in document.DocumentNode.SelectNodes(“//channel”) from link in info.SelectNodes(“//guid[@isPermaLink=’false’]”) from content in info.SelectNodes(“//description”) select new { LinkURL = info.InnerText, Content = content.InnerText, }; lvLinks.DataSource = TechCrunch; lvLinks.DataBind(); 我已经在列表视图控件中使用它来在asp.net页面上显示。 运用 – 但它显示错误 值不能为空。 参数名称:source 有什么问题 ? 是否可以使用HtmlAgilityPack刮取(获取)xml节点数据? 请建议谢谢

使用HtmlAgilityPack解析dl

这是我尝试使用ASP.Net(C#)中的Html Agility Pack解析的示例HTML。 1 First Entry 2 Second Entry 3 Third Entry 我想要的价值观是: 超链接 – > https://stackoverflow.com/questions/8942595/parsing-dl-with-htmlagilitypack/1.html 锚文本 – > 1 内部文字od dd – > First Entry (我已经在这里采用了第一个条目的示例,但我想要列表中所有条目的这些元素的值) 这是我目前使用的代码, var webGet = new HtmlWeb(); var document = webGet.Load(url2); var parsedValues= from info in document.DocumentNode.SelectNodes(“//div[@class=’content-div’]”) from content in info.SelectNodes(“dl//dd”) from link in info.SelectNodes(“dl//dt/b/a”) .Where(x => x.Attributes.Contains(“href”)) […]

Selenium单击坐标而不是单击预期的位置

我需要屏幕抓一个使用ActiveX控件进行导航的网页。 这不是用于ui测试目的,而是用于从遗留应用程序下载数据。 我的问题是顶部导航是完整的ActiveX与JavaScript,是不可能得到任何东西的元素。 所以我试图在坐标处点击鼠标。 我使用Bergstrom的以下方法回答 基本上我在做 var action = new Actions(ieDriver).MoveToElement(ieDriver.FindElement(By.Tag(“HTML”))).MoveByOffset(200,100).Click().Perform(); 我在调试时确认ieDriver.FindElement返回-1,-1表示HTML标记的位置,因此偏移坐标应该是正确的。 我使用IE工具栏测量坐标。 当我运行代码时没有任何反应,所以我假设它在空白处单击。 有没有办法ping浏览器,所以我知道坐标在哪里或有更好的方法来实现这一点? 我能够使用VS编码unit testing成功地实现这一点,因为它实际上移动了光标,但我不认为许可将允许我使用该选项以及让它在visual studio之外运行的烦恼。

在C#中与网页交互

有一个使用ColdFusion创建的网站(不确定这是否重要)。 我需要与这个网站互动。 我需要做的主要事情是导航到不同的页面并单击按钮。 我想出了两个关于如何做到这一点的想法。 第一种是使用WebBrowser控件。 有了这个,我当然可以浏览页面,然后点击按钮(根据这个 )。 另一种方法是直接与html交互。 不确定如何做到这一点,但我假设我可以点击按钮或使用HTML请求与页面进行交互。 有没有人建议哪种方式更好? 有没有更好的方式我没有想到?

如何以编程方式登录网站

我不知道如何以编程方式登录到这个网站我已经通过stackoverflow搜索并找到了这个 ,但我仍然不知道要把什么放入URL或URI。

抓取/模拟浏览帮助

我想制作一个程序来模拟用户浏览网站并点击链接。 必须启用Cookie和JavaScript。 我已经成功地在python中完成了这个,但是我想用可编写的语言编写它(python ide不会删除它)。 网站上的链接是使用javascript生成的,并且是动态的。 使用python我使用PAMIE(使用win32com的第三方模块)来启动Internet Explorer的实例,为链接抓取生成的html,然后导航到其中一个。 关键是整个过程对服务器是透明的。 什么是最好(可编译)的语言和方法来做到这一点? 我正在考虑使用WebBrowser控件进行C#,但如果不能正常工作,我不想花很多时间学习一些东西。 任何forms的帮助表示赞赏!

使用C#阅读和发布到网页

我有一个项目在工作,要求我能够将信息输入到网页,阅读我被重定向到的下一页,然后采取进一步行动。 一个简化的现实世界的例子就像google.com,输入“Coding tricks”作为搜索条件,以及阅读结果页面。 像http://www.csharp-station.com/HowTo/HttpWebFetch.aspx链接的小编码示例告诉如何阅读网页,而不是如何通过将信息提交到表单并继续到下一页。 为了记录,我没有构建恶意和/或垃圾邮件相关产品。 那么我该如何阅读需要几步常规浏览才能获得的网页呢?

使用C#中的asp.net表单登录屏幕抓取网站?

是否可以为受表单登录保护的网站编写屏幕抓取器。 当然,我可以访问该网站,但我不知道如何登录该网站并将我的凭据保存在C#中。 此外,C#中的任何一个很好的屏幕刮板示例都会非常受欢迎。 这已经完成了吗?

HtmlAgilityPack – 从html表中获取数据

我的程序使用HtmlAgilityPack并抓取HTML网页,将其存储在变量中,并且我试图从HTML两个表中获取特定Div类标记(boardcontainer)。 使用我当前的代码,它在整个网页中搜索每个表并显示它们,但是当一个单元格为空时它会抛出exception: “NullReferenceException未处理 – 对象引用未设置为对象的实例。” HTML的一小部分(在这种情况下,我在网站上搜索’Microsoft’: Main Database Company Name 0870 / 0871 0844 / 0845 01 / 02 / 03 Freephone Other Information Microsoft 0870 601 0100 0844 800 2400 01954 713950 Customer SupportStraight to agent (no menu)Also for 0870 6010200 Microsoft 0870 601 0100 0844 800 2400 0118 909 7800 Main UK SwitchboardAsk […]

编写一个C#程序,扫描电子商务网站并从中提取产品图片+价格+描述

我正在开发一个电子商务搜索引擎,允许您在很多电子商务网站中搜索产品。 我该如何处理此事? 我需要一个能够扫描网站,解析HTML并确定网站中哪些图像是产品图像的应用程序,这些产品描述是产品价格。 很高兴听到任何想法,例如。 提前致谢。 编辑:我的问题不是如何从网站上获取HTML(称为屏幕抓取),而是更多关于如何解析该信息并了解哪些html包含我正在寻找的实际数据,哪些不是。