Tag: html parsing

在C#中解析具有Html敏捷性的表格,单元格

我需要解析Html代码。 更具体地说,解析所有表中每行的每个单元格。 每行代表一个对象,每个单元代表不同的属性。 我想解析这些,以便能够写入包含每个数据的XML文件(没有无用的HTML代码)。 我已经成功地解析了HTML文件中的每一列,但现在我不知道将这个列写入XML文件的选项。 我很困惑。 HTML: 1 Sidney Crosby PIT C 39 32 33 65 20 29 10 1 3 0 154 20.8 21:54 22.6 55.7 C#: using HtmlAgilityPack; namespace Stats { class StatsParser { private string htmlCode; private static string fileName = “[” + DateTime.Now.ToShortDateString() + ” NHL Stats].xml”; public StatsParser(string htmlCode) { […]

Html Agility Pack – 解析

我想从简单的网站上删除一系列事实。 每个事实都包含在 标签中。 我如何使用Html Agility Pack执行此操作? 有更好的方法吗? 标签中包含的唯一内容是事实而不是其他内容。

HTML敏捷包

我想使用html敏捷包解析html表。 我想从表中只提取一些预定义的列数据。 但我是解析和html敏捷包的新手,我已经尝试但我不知道如何使用html敏捷包来满足我的需求。 如果有人知道,那么尽可能给我一个例子 编辑: 如果我们只想提取决定的列名数据,是否可以解析html表? 就像有4列名称,地址,phno和我想要只提取名称和地址数据。

HTML Agility pack:解析href标记

我如何有效地解析href属性值: 7 D. Kulikov D 0 0 0 […] 我有兴趣拥有玩家ID,这是: 8475179这是我到目前为止的代码: // Iterate all rows (players) for (int i = 1; i < rows.Count; ++i) { HtmlNodeCollection cols = rows[i].SelectNodes(".//td"); // new player Dim_Player player = new Dim_Player(); // Iterate all columns in this row for (int j = 1; j < 6; ++j) { […]

使用HTML Agility Pack抓取元标记和注释

我一直在寻找使用HTML Agility Pack的教程,因为它似乎做了我想做的一切,但似乎对于这样一个强大的工具,它在互联网上几乎没有噪音。 我正在编写一个简单的方法,它将根据名称检索任何给定的标记: public string[] GetTagsByName(string TagName, string Source) { … } 这可以使用正则表达式轻松完成,但我们都知道使用正则表达式解析HTML是不对的。 到目前为止,我有以下代码: … // TODO: Clear Comments (can this be done or should I use RegEx?) HtmlDocument doc = new HtmlDocument(); doc.LoadHtml(Source); ArrayList tags = new ArrayList(); string xpath = “//” + TagName; foreach (HtmlTextNode node in doc.DocumentNode.SelectNodes(xpath) { tags.Add(node.Text); } return […]

HTML Agility Pack解析大小写标签?

我使用HTML Agility Pack效果很好,我对此印象非常深刻 – 但是,我选择的内容是这样的 doc.DocumentNode.SelectSingleNode(“//body”).InnerHtml 如何处理以下情况,使用不同的文件? 我的代码上面只会得到小写版本吗?

哪个是最好的HTML整洁包? HTML agility pack中是否有任何选项可以使HTML网页整洁?

我正在使用html agility pack来解析html 表格信息 。 现在有一些html内容缺少结束标记,并且由于缺少结束标记而来自此页面html敏捷包不能正确解析信息。所以我想在缺少结束标记的地方插入结束标记,以便html敏捷包正确解析信息。 所以要插入缺少的结束标记我该怎么办?我应该为此编写自己的代码还是使用html tidy pack来做到这一点? 如果html整洁包然后哪个是最好的html整洁包 ,如果可能的话如何使用它的任何例子? 如果我自己的代码比它可能是什么样的? 在html agility pack中是否有任何选项可以使我们能够首先使html页面整洁 ,然后解析网页。

ItextSharp尝试解析html进行pdf转换时出错

我使用ItextSharp模块将下面列出的html转换为pdf页面。 mmammar Click to View Pricing FCI: 78211-014 78211-009 78211-006 78211-007 78211-003 78211-005 78211-008 78211-004 78211-012 78211-007LF 78211-015LF 78211-003LF 78211-009LF 78211-005LF 78211-010LF 78211-006LF 78211-014LF 78211-004LF 78211-012LF 78211-008LF 78211-011LF 78211-013LF 78211-010 78211-015 Souriau: 24JR124-3 C#代码生成上面的html: var html = new StringBuilder(@”Authorized Distributor Click to View Pricing, Inventory, Delivery & Lifecycle Information:”); List mfrBrands = MfrBrandView.Load(fileId); var uniquesuppliers […]

解析HTML以使用C#获取内容

我正在编写一个抓取一组网页的应用程序。 而不是采取页面的整个源代码,我想采取所有内容并存储,并能够将页面作为纯文本存储在数据库中。 内容将在其他应用程序中使用,而不是由用户阅读,因此不需要它完全是人类可读的。 起初,我正在考虑使用正则表达式,但我无法控制网页的有效性,并且很有可能没有正则表达式会给我内容。 如果我在字符串中有源代码,我怎样才能将该源代码串转换为C#中的内容?