BeautifulSoup和ASP.NET/C#
有没有人将BeautifulSoup与ASP.NET / C#集成(可能使用IronPython或其他方式)? 是否有一个BeautifulSoup替代品或一个与ASP.NET / C#很好地兼容的端口
计划使用该库的目的是从任何随机URL中提取可读文本。
谢谢
Html Agility Pack是一个类似的项目,但对于C#和.NET
编辑:
要提取所有可读文本:
document.DocumentNode.InnerText
请注意,这将返回标记的文本内容。
要解决此问题,您可以删除所有标记,如下所示:
foreach(var script in doc.DocumentNode.Descendants("script").ToArray()) script.Remove(); foreach(var style in doc.DocumentNode.Descendants("style").ToArray()) style.Remove();
(信用: SLaks )
你可以尝试这个,虽然它目前有一些错误:
我知道这已经很老了,但我决定发布这个以供将来参考。 我遇到了这个寻找类似解决方案的问题。
我找到了一个基于Html Agility Pack构建的库,名为scrapysharp
我使用它的方式与BeautifulSoup非常相似https://bitbucket.org/rflechner/scrapysharp/wiki/Home