Tag: htmltidy

在N个部分中拆分html字符串

有没有人有一个分裂html字符串(来自一个小的mce编辑器)并使用C#将它分成N个部分的例子? 我需要均匀地分割字符串而不分割单词。 我想只是拆分html并使用HtmlAgilityPack尝试修复损坏的标签。 虽然我不确定如何找到分裂点,但理想情况下它应该基于文本上的purley而不是html。 谁有任何想法如何去做? UPDATE 根据要求,这是输入和所需输出的示例。 INPUT: Lorem ipsum dolor sit amet, consectetur adipiscing elit. 输出(当分成3个小组时): Part1: Lorem ipsum dolor Part2: sit amet, consectetur Part3: adipiscing elit. 更新2: 我刚刚玩过Tidy HTML,这似乎可以很好地修复损坏的标签,所以如果我能找到一种方法来找到拆分品牌,这可能是个不错的选择? 更新3 在.NET C#中对整个单词使用类似于此Truncate字符串的方法,我现在设法获得将构成每个部分的纯文本单词列表。 所以,比如说使用Tidy HTML我有一个有效的HTML结构,并给出了这个单词列表,任何人都知道现在最好的分割方法是什么? 更新4 任何人都可以看到使用正则表达式以下列方式使用HTML查找索引的问题: 给定纯文本字符串“sit amet,consectetur”,用正则表达式替换所有空格“(\ s | )*”,理论上找到包含空格和/或任何组合的字符串标签 然后我可以使用Tidy HTML修复损坏的html标签? 非常感谢 马特

哪个是最好的HTML整洁包? HTML agility pack中是否有任何选项可以使HTML网页整洁?

我正在使用html agility pack来解析html 表格信息 。 现在有一些html内容缺少结束标记,并且由于缺少结束标记而来自此页面html敏捷包不能正确解析信息。所以我想在缺少结束标记的地方插入结束标记,以便html敏捷包正确解析信息。 所以要插入缺少的结束标记我该怎么办?我应该为此编写自己的代码还是使用html tidy pack来做到这一点? 如果html整洁包然后哪个是最好的html整洁包 ,如果可能的话如何使用它的任何例子? 如果我自己的代码比它可能是什么样的? 在html agility pack中是否有任何选项可以使我们能够首先使html页面整洁 ,然后解析网页。