从网站下载所有PDF文件
我需要在c#中创建一个从桌面下载所有PDF的Windows桌面应用程序。 我有链接到网站,但我面临的问题是,PDF不在网站上的特定文件夹中,但遍布各地。
我需要的是帮助找到所有这些链接,以便我可以下载它们或任何其他可以帮助我解决问题的建议。
感谢先进的所有帮助。
- 刮掉所有页面
- 找到所有“* .pdf”url
- 重建它们,只需下载:)
请更具体地说,您是想从html页面还是从整个域中获取所有PDF?
你要做的事情被称为Web抓取 ,有一些库可以使你的任务变得容易,其中一个是IronWebScraper,但它是付费的。
这里提供了大量的NuGet包,可用于网络抓取。