获取HTML元素的值
我在文本文件中有网页的HTML代码。 我希望我的程序返回标签中的值。 我想让“朱利叶斯”出局
Julius
我需要正则表达吗? 否则什么是字符串函数可以做到这一点?
您应该使用像htmlagilitypack这样的html解析器.Regex不是解析HTML文件的好选择,因为HTML不严格,也不是常规的格式。
您可以使用以下代码使用HtmlAgilityPack
检索它
HtmlDocument doc = new HtmlDocument(); doc.Load(yourStream); var itemList = doc.DocumentNode.SelectNodes("//span[@class='hidden first']")//this xpath selects all span tag having its class as hidden first .Select(p => p.InnerText) .ToList(); //itemList now contain all the span tags content having its class as hidden first
我会使用Html Agility Pack来解析C#中的HTML。
我强烈建议你研究像HTML Agility Pack这样的东西
我几天前问过同样的问题并且使用HTML Agility Pack,但这里是你想要的正则表达式
这个将忽略属性
]*>(.*?)
这个将考虑属性
]*>(.*?)