BeautifulSoup和ASP.NET/C#

有没有人将BeautifulSoup与ASP.NET / C#集成(可能使用IronPython或其他方式)? 是否有一个BeautifulSoup替代品或一个与ASP.NET / C#很好地兼容的端口

计划使用该库的目的是从任何随机URL中提取可读文本。

谢谢

Html Agility Pack是一个类似的项目,但对于C#和.NET


编辑:

要提取所有可读文本:

document.DocumentNode.InnerText 

请注意,这将返回标记的文本内容。

要解决此问题,您可以删除所有标记,如下所示:

 foreach(var script in doc.DocumentNode.Descendants("script").ToArray()) script.Remove(); foreach(var style in doc.DocumentNode.Descendants("style").ToArray()) style.Remove(); 

(信用: SLaks )

你可以尝试这个,虽然它目前有一些错误:

http://nsoup.codeplex.com/

我知道这已经很老了,但我决定发布这个以供将来参考。 我遇到了这个寻找类似解决方案的问题。

我找到了一个基于Html Agility Pack构建的库,名为scrapysharp

我使用它的方式与BeautifulSoup非常相似https://bitbucket.org/rflechner/scrapysharp/wiki/Home