查找超链接文本和URL

我有一个大文本,有些单词是超链接的,我想知道所有的文本,它的超链接url假设我的文本如下:

LoremIpsum.Net是一个小而简单的静态站点,无需使用发电机即可为您提供适当大小的通道。 该网站还提供了全文大写版本的文本,以及翻译,并解释了这个着名的。

现在我想存储那个超链接的单词,它的数组或哈希表中的url,任何人都可以建议我或提供一些示例代码来执行此操作。

提前致谢。

请参阅此页面上的“使用正则表达式[C#]进行擦除的程序”: http : //www.dotnetperls.com/scraping-html

它基本上是通过重新整理你的文字和收集比赛。

试试HTMLAgilityPack http://www.codeplex.com/htmlagilitypack

就像是

  HtmlDocument doc = new HtmlDocument(); doc.Load("file.htm"); foreach(HtmlNode link in doc.DocumentElement.SelectNodes("//a[@href"]) { HtmlAttribute att = link["href"]; // these are your hrefs! } 

如果您不使用正确的HTML解析器,您将失去理智。