Tag: html parsing

Html敏捷包不加载url: 我有这样的事情： class MyTask { public MyTask(int id) { Id = id; IsBusy = false; Document = new HtmlDocument(); } public HtmlDocument Document { get; set; } public int Id { get; set; } public bool IsBusy { get; set; } } class Program { public static void Main() { var task = new MyTask(1); task.Document.LoadHtml(“http://urltomysite”); […]

使用HTML Agility Pack替换HTML div InnerText标记: 我正在使用HTML Agility Pack来操作和编辑HTML文档。我想更改字段中的文本，例如： Some text here. 我希望更新此div中的文本： Some other text. 我尝试使用以下代码执行此操作，但它似乎没有工作，因为InnerText属性是只读的。 HtmlTextNode hNode = null; hNode = hDoc.DocumentNode.SelectSingleNode(“//div[@id=’Div1′]”) as HtmlTextNode; hNode.InnerText = “Some other text.”; hDoc.Save(“C:\FileName.html”); 我在这做错了什么？如上所述，InnerText是一个只读字段，尽管它在文档中写有“获取或设置”。有没有另外一种方法可以做到这一点？

在C＃中与网页交互: 有一个使用ColdFusion创建的网站（不确定这是否重要）。我需要与这个网站互动。我需要做的主要事情是导航到不同的页面并单击按钮。我想出了两个关于如何做到这一点的想法。第一种是使用WebBrowser控件。有了这个，我当然可以浏览页面，然后点击按钮（根据这个）。另一种方法是直接与html交互。不确定如何做到这一点，但我假设我可以点击按钮或使用HTML请求与页面进行交互。有没有人建议哪种方式更好？有没有更好的方式我没有想到？

解析HTML：成人分类系统: 我正在研究网络上使用的不同和（有时是过时的）评级/分类标准。即PICS ， POWDER ， ICRA 哪个标准最受欢迎（使用它的网站数目）？是否有一个C＃库可以处理任何（或全部）这些？

如何仅从网站上删除标记: 我正在开发一个webcrawler。目前我刮掉整个内容，然后使用正则表达式我删除, , 和其他标签，并获取正文的内容。但是，我正在尝试优化性能，我想知道是否有一种方法可以只刮掉页面的？ namespace WebScrapper { public static class KrioScraper { public static string scrapeIt(string siteToScrape) { string HTML = getHTML(siteToScrape); string text = stripCode(HTML); return text; } public static string getHTML(string siteToScrape) { string response = “”; HttpWebResponse objResponse; HttpWebRequest objRequest = (HttpWebRequest) WebRequest.Create(siteToScrape); objRequest.UserAgent = “Mozilla/4.0 (compatible; MSIE 6.0; ” […]

在C＃中创建字符串或列表（包含HTML标记）: A有这样的字符串： string s = @” 1112 2122 3132 “; 如何创建Dictionary d = new Dictionary(); 从字符串s得到相同的结果： d.Add(11, 12); d.Add(21, 22); d.Add(31, 32);

HtmlAgilityPack设置节点InnerText: 我想用另一个文本替换HTML标签的内部文本。我正在使用HtmlAgilityPack 我使用此代码提取所有文本 HtmlDocument doc = new HtmlDocument(); doc.Load(“some path”) foreach (HtmlNode node in doc.DocumentNode.SelectNodes(“//text()[normalize-space(.) != ”]”)) { // How to replace node.InnerText with some text ? } 但是InnerText是只读的。如何用其他文本替换文本并将其保存到文件？

使用HTML Agility Pack和Linq解析html: 我有以下HTML (..) Test1 Data Data 2 Test2 Data2 Data 2 (..) 我的信息是name => so“Test1”和“Test2”。我想知道的是如何根据我的名字获取“data”和“data2”中的数据。目前我正在使用： var data = from tr in doc.DocumentNode.Descendants(“tr”) from td in tr.ChildNodes.Where(x => x.Attributes[“class”].Value == “name”) where td.InnerText == “Test1” select tr; 但是当我尝试查看data时，我得到{“Object reference not set to an instance of an object.”}

解析HTML – 如何从标记中获取数字？: 我正在开发一个与网站交互的Windows窗体应用程序。使用WebBrowser控件我控制网站，我可以使用以下方法遍历标记： HtmlDocument webDoc1 = this.webBrowser1.Document; HtmlElementCollection aTags = webDoc1.GetElementsByTagName(“a”); 现在，我想从标签中获取特定文本，如下所示： Show Assigned 就像在这里一样，我希望在上面的标签中得到等于assignto的数字244并将其保存到变量中以供进一步使用。我怎样才能做到这一点？

如何从网页中提取动态ajax内容: 我的要求是从网页中提取所需的内容。该页面有一个使用ajax填充的部分。当我在页面源中查看时，它没有显示使用ajax加载的内容。部分内容将根据选中的复选框进行更改。如果我们选中“印度”复选框，则该部分将显示印度的所有详细信息。页面源仅显示默认内容，而不显示使用ajax显示的内容。我在选中复选框后检查了页面源，但它仍然只显示默认值。如何获取该部分内容，