Tag: html parsing

在C＃中解析具有Html敏捷性的表格，单元格: 我需要解析Html代码。更具体地说，解析所有表中每行的每个单元格。每行代表一个对象，每个单元代表不同的属性。我想解析这些，以便能够写入包含每个数据的XML文件（没有无用的HTML代码）。我已经成功地解析了HTML文件中的每一列，但现在我不知道将这个列写入XML文件的选项。我很困惑。 HTML： 1 Sidney Crosby PIT C 39 32 33 65 20 29 10 1 3 0 154 20.8 21:54 22.6 55.7 C＃： using HtmlAgilityPack; namespace Stats { class StatsParser { private string htmlCode; private static string fileName = “[” + DateTime.Now.ToShortDateString() + ” NHL Stats].xml”; public StatsParser(string htmlCode) { […]

Html Agility Pack – 解析: 我想从简单的网站上删除一系列事实。每个事实都包含在标签中。我如何使用Html Agility Pack执行此操作？有更好的方法吗？标签中包含的唯一内容是事实而不是其他内容。

HTML敏捷包: 我想使用html敏捷包解析html表。我想从表中只提取一些预定义的列数据。但我是解析和html敏捷包的新手，我已经尝试但我不知道如何使用html敏捷包来满足我的需求。如果有人知道，那么尽可能给我一个例子编辑：如果我们只想提取决定的列名数据，是否可以解析html表？就像有4列名称，地址，phno和我想要只提取名称和地址数据。

HTML Agility pack：解析href标记: 我如何有效地解析href属性值： 7 D. Kulikov D 0 0 0 […] 我有兴趣拥有玩家ID，这是： 8475179这是我到目前为止的代码： // Iterate all rows (players) for (int i = 1; i < rows.Count; ++i) { HtmlNodeCollection cols = rows[i].SelectNodes(".//td"); // new player Dim_Player player = new Dim_Player(); // Iterate all columns in this row for (int j = 1; j < 6; ++j) { […]

使用HTML Agility Pack抓取元标记和注释: 我一直在寻找使用HTML Agility Pack的教程，因为它似乎做了我想做的一切，但似乎对于这样一个强大的工具，它在互联网上几乎没有噪音。我正在编写一个简单的方法，它将根据名称检索任何给定的标记： public string[] GetTagsByName(string TagName, string Source) { … } 这可以使用正则表达式轻松完成，但我们都知道使用正则表达式解析HTML是不对的。到目前为止，我有以下代码： … // TODO: Clear Comments (can this be done or should I use RegEx?) HtmlDocument doc = new HtmlDocument(); doc.LoadHtml(Source); ArrayList tags = new ArrayList(); string xpath = “//” + TagName; foreach (HtmlTextNode node in doc.DocumentNode.SelectNodes(xpath) { tags.Add(node.Text); } return […]

HTML Agility Pack解析大小写标签？: 我使用HTML Agility Pack效果很好，我对此印象非常深刻 – 但是，我选择的内容是这样的 doc.DocumentNode.SelectSingleNode(“//body”).InnerHtml 如何处理以下情况，使用不同的文件？我的代码上面只会得到小写版本吗？

哪个是最好的HTML整洁包？ HTML agility pack中是否有任何选项可以使HTML网页整洁？: 我正在使用html agility pack来解析html 表格信息。现在有一些html内容缺少结束标记，并且由于缺少结束标记而来自此页面html敏捷包不能正确解析信息。所以我想在缺少结束标记的地方插入结束标记，以便html敏捷包正确解析信息。所以要插入缺少的结束标记我该怎么办？我应该为此编写自己的代码还是使用html tidy pack来做到这一点？如果html整洁包然后哪个是最好的html整洁包，如果可能的话如何使用它的任何例子？如果我自己的代码比它可能是什么样的？在html agility pack中是否有任何选项可以使我们能够首先使html页面整洁，然后解析网页。

ItextSharp尝试解析html进行pdf转换时出错: 我使用ItextSharp模块将下面列出的html转换为pdf页面。 mmammar Click to View Pricing FCI: 78211-014 78211-009 78211-006 78211-007 78211-003 78211-005 78211-008 78211-004 78211-012 78211-007LF 78211-015LF 78211-003LF 78211-009LF 78211-005LF 78211-010LF 78211-006LF 78211-014LF 78211-004LF 78211-012LF 78211-008LF 78211-011LF 78211-013LF 78211-010 78211-015 Souriau: 24JR124-3 C＃代码生成上面的html： var html = new StringBuilder(@”Authorized Distributor Click to View Pricing, Inventory, Delivery & Lifecycle Information:”); List mfrBrands = MfrBrandView.Load(fileId); var uniquesuppliers […]

解析HTML以使用C＃获取内容: 我正在编写一个抓取一组网页的应用程序。而不是采取页面的整个源代码，我想采取所有内容并存储，并能够将页面作为纯文本存储在数据库中。内容将在其他应用程序中使用，而不是由用户阅读，因此不需要它完全是人类可读的。起初，我正在考虑使用正则表达式，但我无法控制网页的有效性，并且很有可能没有正则表达式会给我内容。如果我在字符串中有源代码，我怎样才能将该源代码串转换为C＃中的内容？