Tag: html agility pack

使用HTML Agility Pack删除重复元素链

我正在尝试删除我的html文档中任何重复或更多出现的任何标记。 这是我到目前为止提出的(非常愚蠢的代码): HtmlNodeCollection elements = nodeCollection.ElementAt(0) .SelectNodes(“//br”); if (elements != null) { foreach (HtmlNode element in elements) { if (element.Name == “br”) { bool iterate = true; while(iterate == true) { iterate = removeChainElements(element); } } } } private bool removeChainElements(HtmlNode element) { if (element.NextSibling != null && element.NextSibling.Name == “br”) { element.NextSibling.Remove(); } if […]

HTML Agility Pack获取所有输入字段

我在互联网上找到了一些找到所有href标签并将其更改为google.com的代码,但是如何告诉代码找到所有input字段并将自定义文本放在那里? 这是我现在的代码: HtmlDocument doc = new HtmlDocument(); doc.Load(path); foreach (HtmlNode link in doc.DocumentNode.SelectNodes(“//a[@href]”)) { HtmlAttribute att = link.Attributes[“href”]; att.Value = “http://www.google.com”; } doc.Save(“file.htm”); 请,有人可以帮助我,我似乎无法在互联网上找到任何有关这方面的信息:(。

如何用HtmlAgilityPack解析标签的InnerText?

语境: 我试图在这里解析这个页面中的“城市”。 我已经设法模拟了这个combobox的数据请求,这是一个Ajax调用。 小提琴请求: POST http://www.telelistas.net/AjaxHandler.ashx HTTP/1.1 Host: www.telelistas.net Connection: keep-alive Content-Length: 106 Origin: http://www.telelistas.net X-Requested-With: XMLHttpRequest User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.97 Safari/537.11 Content-Type: application/x-www-form-urlencoded; charset=UTF-8 Accept: */* Referer: http://www.telelistas.net/ Accept-Encoding: gzip,deflate,sdch Accept-Language: pt-BR,pt;q=0.8,en-US;q=0.6,en;q=0.4 Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.3 Cookie: cert_Origin=directo; email=bdc.testes@gmail.com; auto=automatico=0; searchparameters=bottom=0&btnsite=0&email=&uf=rj&origem=0&nome=&pagina=1&codlogradouro=&predio=213&tiquete=0&localidadeendmap=&codbairro=0&pcount=25&estacionamento=0&letra=&top=&entrega=0&pchave=&info=&logradouro=rua+da+lapa&codtitulo=-1&chave=&zoom=&comercial=0&ddd=0&comib=0&btnemail=0&pgresultado=&localidade=&telefone=&manobrista=0&codlocalidade=21000&site=&cartoes=0&atividade=&bairro=&reserva=0&residencial=0; perfil=logged=1&iduser=2563063&email=bdc.testes@gmail.com&usertype=2&specialsearch=3&siteusernome=BigDataCorp&siteuserdatanasc=15/01/1988&siteusersexo=M&siteuserlocalidade=21000&siteuseruf=RJ&siteuserddd=21&siteusertelefone=94118439&siteuserprofissao=4&siteuserrenda=5000&siteuserformacao=4&siteusernovidades=0&siteusernovidadesrevista=&siteusernovidadesparceiros=0&siteusercpf=10541308769&siteuseracesso=brasil&siteusercep=22631000&siteuseridade=24&siteuserparceiro=telelistas&siteuserconhecimento=2&siteuseroperadora=oi&siteuserurlorigem=http://www.telelistas.net/&siteuserdatacadastro=13/12/2012 11:45:00; __utma=70879631.392027796.1355939587.1356014801.1356021821.5; __utmb=70879631.1.10.1356021821; __utmc=70879631; __utmz=70879631.1355939587.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none) PostData : […]

HtmlAgilityPack能否在其XPATH选择器中使用正则表达式?

我希望能够创建一个节点集合,其中文本以单词开头,然后是数字。 例如,给出以下内容: FINDTHIS 1 FINDTHIS SOMETEXT FINDTHIS 2 我希望能够创建一个由两个段落节点组成的集合:FINDTHIS 1和FINDTHIS 2。 一种可能的方法是创建一个xpath查询,如//p[starts-with(., ‘FINDTHIS ‘)] ,然后使用正则表达式来确定下一个字符是否为数字。 如果我想获得返回上述条件的匹配列表,我可以创建一个正则表达式对象并测试集合中每个成员的文本。 有没有办法使用HtmlAgilityPack直接在选择器中使用正则表达式?

获取DIV内的链接

我希望能够从这个div中获得第一个链接。 <— This one text Tweet it! 我试过这个代码,但它不起作用 HtmlDocument doc = new HtmlDocument(); doc.LoadHtml(source); var div = doc.DocumentNode.SelectSingleNode(“//div[@id=’first-tweet-wrapper’]”); if (div != null) { var links = div.Descendants(“a”) .Select(a => a.InnerText) .ToList(); }

使用敏捷包解析html

我有一个要解析的HTML(见下文) InBox From Subject Date no-reply@somemail.net Hi, Welcome just now someone@outlook.com sa just now 我需要解析<tr onclick=标签中的链接和 标签中的电子邮件地址。 到目前为止,我想从我的html首次出现电子邮件/链接。 HtmlDocument doc = new HtmlDocument(); doc.LoadHtml(responseFromServer); 有人能告诉我它是如何做得好的? 基本上我想要做的是从所述标签中的html获取所有电子邮件地址和链接。 foreach (HtmlNode link in doc.DocumentNode.SelectNodes(“//tr[@onclick]”)) { HtmlAttribute att = link.Attributes[“onclick”]; Console.WriteLine(att.Value); } 编辑:我需要将解析后的值成对存储在类(列表)中。 电子邮件(链接)和发件人电子邮件。 public class ClassMailBox { public string From { get; set; } public string LinkToMail { […]

如何使用htmlagilitypack刮取xml文件

我需要从http://feeds.feedburner.com/Torrentfreak中抓取一个xml文件,以获取其链接和描述。 我用过这段代码: var webGet = new HtmlWeb(); var document = webGet.Load(“http://feeds.feedburner.com/TechCrunch”); var TechCrunch = from info in document.DocumentNode.SelectNodes(“//channel”) from link in info.SelectNodes(“//guid[@isPermaLink=’false’]”) from content in info.SelectNodes(“//description”) select new { LinkURL = info.InnerText, Content = content.InnerText, }; lvLinks.DataSource = TechCrunch; lvLinks.DataBind(); 我已经在列表视图控件中使用它来在asp.net页面上显示。 运用 – 但它显示错误 值不能为空。 参数名称:source 有什么问题 ? 是否可以使用HtmlAgilityPack刮取(获取)xml节点数据? 请建议谢谢

在WP7.5上使用HTML敏捷包

是否有在WP7.5上使用HTML Agility Pack的参考/指南? 我尝试在VS2010上编译源代码,但我无法引用在本地计算机上创建的DLL。 基本上,我正在寻找一个文本提取器来获取给定URL的文本。 我知道HTML Agility Pack效果最好。 有什么想法/建议吗? 谢谢 :)

Html敏捷包不加载url

我有这样的事情: class MyTask { public MyTask(int id) { Id = id; IsBusy = false; Document = new HtmlDocument(); } public HtmlDocument Document { get; set; } public int Id { get; set; } public bool IsBusy { get; set; } } class Program { public static void Main() { var task = new MyTask(1); task.Document.LoadHtml(“http://urltomysite”); […]

HtmlAgilityPack获取Title和meta

我尝试练习“HtmlAgilityPack”,但我遇到了一些问题。 这是我编码的内容,但我无法正确获取网页的标题和描述…如果有人可以启发我的错误:) … public static void Main(string[] args) { string link = null; string str; string answer; int curloc; // holds current location in response string url = “http://stackoverflow.com/”; try { do { HttpWebRequest HttpWReq = (HttpWebRequest)WebRequest.Create(url); HttpWReq.UserAgent = @”Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.5) Gecko/20091102 Firefox/3.5.5″; HttpWebResponse HttpWResp = (HttpWebResponse)HttpWReq.GetResponse(); //url = […]