使用HTML Agility Pack抓取元标记和注释

我一直在寻找使用HTML Agility Pack的教程，因为它似乎做了我想做的一切，但似乎对于这样一个强大的工具，它在互联网上几乎没有噪音。

我正在编写一个简单的方法，它将根据名称检索任何给定的标记：

public string[] GetTagsByName(string TagName, string Source) { ... }

这可以使用正则表达式轻松完成，但我们都知道使用正则表达式解析HTML是不对的。到目前为止，我有以下代码：

 ... // TODO: Clear Comments (can this be done or should I use RegEx?) HtmlDocument doc = new HtmlDocument(); doc.LoadHtml(Source); ArrayList tags = new ArrayList(); string xpath = "//" + TagName; foreach (HtmlTextNode node in doc.DocumentNode.SelectNodes(xpath) { tags.Add(node.Text); } return (string[])tags.ToArray(typeof(String));

我希望能够首先从HTML中删除所有注释，然后根据其名称返回正确的标记。如果可能的话，我还想根据属性返回某些元标记，例如机器人。我对xpath不太好，所以任何帮助都会很好。

任何帮助将非常感激。

HtmlAgilityPack的HtmlDocument实现了IXpathNavigable ，因此它使用标准的.NET XPath引擎。任何XPath 1.0文档都适用，特别是如果它涉及System.Xml.XPath。

“// comment（）”查找所有评论
“// meta”找到所有“元”元素

HtmlDocument的设计看起来非常像XmlDocument ，因此有关它的示例和教程将在某种程度上适用。

一些MSDN链接：

XPath参考
例子
XPath函数

使用HTML Agility Pack抓取元标记和注释

如何实现二维矩阵的Kadane算法

如何从.NET Core库引用Windows.winmd？

使用RhinoMocks进行unit testing和模拟

C＃中的Catch and Catch（例外e）

以编程方式修复SQLite数据库

参考大小结构的primefaces分配

过滤模板列表，属性名称为字符串

在将策略定义与执行分离时，了解Polly策略的语义

C＃：System.Net.WebException：底层连接已关闭

使用DbContext设置（）而不是在上下文中公开