编写一个C#程序,扫描电子商务网站并从中提取产品图片+价格+描述

我正在开发一个电子商务搜索引擎,允许您在很多电子商务网站中搜索产品。

我该如何处理此事?

我需要一个能够扫描网站,解析HTML并确定网站中哪些图像是产品图像的应用程序,这些产品描述是产品价格。

很高兴听到任何想法,例如。

提前致谢。

编辑:我的问题不是如何从网站上获取HTML(称为屏幕抓取),而是更多关于如何解析该信息并了解哪些html包含我正在寻找的实际数据,哪些不是。

您可能会发现此主题对您的任务有帮助。 我概述了那里的基本步骤。 这是SO上标记为“ 屏幕抓取 ”的所有问题的链接。 此外,网上有很多资料 – 谷歌 。

您要抓取的大多数网站(更准确地说是网络抓取 )都有合作伙伴API用于“经销商”类型的交易。 对于您来说,通过屏幕抓取可以快速发现您的IP被其流量服务器阻止,并可能使您处于合法境地。

这在道德上是可疑的。