编写一个C#程序,扫描电子商务网站并从中提取产品图片+价格+描述
我正在开发一个电子商务搜索引擎,允许您在很多电子商务网站中搜索产品。
我该如何处理此事?
我需要一个能够扫描网站,解析HTML并确定网站中哪些图像是产品图像的应用程序,这些产品描述是产品价格。
很高兴听到任何想法,例如。
提前致谢。
编辑:我的问题不是如何从网站上获取HTML(称为屏幕抓取),而是更多关于如何解析该信息并了解哪些html包含我正在寻找的实际数据,哪些不是。
您可能会发现此主题对您的任务有帮助。 我概述了那里的基本步骤。 这是SO上标记为“ 屏幕抓取 ”的所有问题的链接。 此外,网上有很多资料 – 谷歌 。
您要抓取的大多数网站(更准确地说是网络抓取 )都有合作伙伴API用于“经销商”类型的交易。 对于您来说,通过屏幕抓取可以快速发现您的IP被其流量服务器阻止,并可能使您处于合法境地。
这在道德上是可疑的。