从网站下载所有PDF文件

我需要在c#中创建一个从桌面下载所有PDF的Windows桌面应用程序。 我有链接到网站,但我面临的问题是,PDF不在网站上的特定文件夹中,但遍布各地。

我需要的是帮助找到所有这些链接,以便我可以下载它们或任何其他可以帮助我解决问题的建议。

感谢先进的所有帮助。

  1. 刮掉所有页面
  2. 找到所有“* .pdf”url
  3. 重建它们,只需下载:)

请更具体地说,您是想从html页面还是从整个域中获取所有PDF?

你要做的事情被称为Web抓取 ,有一些库可以使你的任务变得容易,其中一个是IronWebScraper,但它是付费的。

这里提供了大量的NuGet包,可用于网络抓取。