Tag: html parsing

Html敏捷包不加载url

我有这样的事情: class MyTask { public MyTask(int id) { Id = id; IsBusy = false; Document = new HtmlDocument(); } public HtmlDocument Document { get; set; } public int Id { get; set; } public bool IsBusy { get; set; } } class Program { public static void Main() { var task = new MyTask(1); task.Document.LoadHtml(“http://urltomysite”); […]

使用HTML Agility Pack替换HTML div InnerText标记

我正在使用HTML Agility Pack来操作和编辑HTML文档。 我想更改字段中的文本,例如: Some text here. 我希望更新此div中的文本: Some other text. 我尝试使用以下代码执行此操作,但它似乎没有工作,因为InnerText属性是只读的。 HtmlTextNode hNode = null; hNode = hDoc.DocumentNode.SelectSingleNode(“//div[@id=’Div1′]”) as HtmlTextNode; hNode.InnerText = “Some other text.”; hDoc.Save(“C:\FileName.html”); 我在这做错了什么? 如上所述,InnerText是一个只读字段,尽管它在文档中写有“获取或设置”。 有没有另外一种方法可以做到这一点?

在C#中与网页交互

有一个使用ColdFusion创建的网站(不确定这是否重要)。 我需要与这个网站互动。 我需要做的主要事情是导航到不同的页面并单击按钮。 我想出了两个关于如何做到这一点的想法。 第一种是使用WebBrowser控件。 有了这个,我当然可以浏览页面,然后点击按钮(根据这个 )。 另一种方法是直接与html交互。 不确定如何做到这一点,但我假设我可以点击按钮或使用HTML请求与页面进行交互。 有没有人建议哪种方式更好? 有没有更好的方式我没有想到?

解析HTML:成人分类系统

我正在研究网络上使用的不同和(有时是过时的)评级/分类标准。 即PICS , POWDER , ICRA 哪个标准最受欢迎(使用它的网站数目)? 是否有一个C#库可以处理任何(或全部)这些?

如何仅从网站上删除标记

我正在开发一个webcrawler。 目前我刮掉整个内容,然后使用正则表达式我删除, , 和其他标签,并获取正文的内容。 但是,我正在尝试优化性能,我想知道是否有一种方法可以只刮掉页面的 ? namespace WebScrapper { public static class KrioScraper { public static string scrapeIt(string siteToScrape) { string HTML = getHTML(siteToScrape); string text = stripCode(HTML); return text; } public static string getHTML(string siteToScrape) { string response = “”; HttpWebResponse objResponse; HttpWebRequest objRequest = (HttpWebRequest) WebRequest.Create(siteToScrape); objRequest.UserAgent = “Mozilla/4.0 (compatible; MSIE 6.0; ” […]

在C#中创建字符串或列表(包含HTML标记)

A有这样的字符串: string s = @” 1112 2122 3132 “; 如何创建Dictionary d = new Dictionary(); 从字符串s得到相同的结果: d.Add(11, 12); d.Add(21, 22); d.Add(31, 32);

HtmlAgilityPack设置节点InnerText

我想用另一个文本替换HTML标签的内部文本。 我正在使用HtmlAgilityPack 我使用此代码提取所有文本 HtmlDocument doc = new HtmlDocument(); doc.Load(“some path”) foreach (HtmlNode node in doc.DocumentNode.SelectNodes(“//text()[normalize-space(.) != ”]”)) { // How to replace node.InnerText with some text ? } 但是InnerText是只读的。 如何用其他文本替换文本并将其保存到文件?

使用HTML Agility Pack和Linq解析html

我有以下HTML (..) Test1 Data Data 2 Test2 Data2 Data 2 (..) 我的信息是name => so“Test1”和“Test2”。 我想知道的是如何根据我的名字获取“data”和“data2”中的数据。 目前我正在使用: var data = from tr in doc.DocumentNode.Descendants(“tr”) from td in tr.ChildNodes.Where(x => x.Attributes[“class”].Value == “name”) where td.InnerText == “Test1” select tr; 但是当我尝试查看data时,我得到{“Object reference not set to an instance of an object.”}

解析HTML – 如何从标记中获取数字?

我正在开发一个与网站交互的Windows窗体应用程序。 使用WebBrowser控件我控制网站,我可以使用以下方法遍历标记: HtmlDocument webDoc1 = this.webBrowser1.Document; HtmlElementCollection aTags = webDoc1.GetElementsByTagName(“a”); 现在,我想从标签中获取特定文本,如下所示: Show Assigned 就像在这里一样,我希望在上面的标签中得到等于assignto的数字244并将其保存到变量中以供进一步使用。 我怎样才能做到这一点?

如何从网页中提取动态ajax内容

我的要求是从网页中提取所需的内容。 该页面有一个使用ajax填充的部分。 当我在页面源中查看时,它没有显示使用ajax加载的内容。 部分内容将根据选中的复选框进行更改。 如果我们选中“印度”复选框,则该部分将显示印度的所有详细信息。 页面源仅显示默认内容,而不显示使用ajax显示的内容。 我在选中复选框后检查了页面源,但它仍然只显示默认值。 如何获取该部分内容,