如何从c#获取网站标题
我正在重新审视我的旧代码并且偶然发现了一种基于其url获取网站标题的方法。 这并不是你所谓的稳定方法,因为它经常无法产生结果,有时甚至会产生不正确的结果。 此外,有时它无法显示标题中的某些字符,因为它们是替代编码。
有没有人有这个旧版本的改进建议?
public static string SuggestTitle(string url, int timeout) { WebResponse response = null; string line = string.Empty; try { WebRequest request = WebRequest.Create(url); request.Timeout = timeout; response = request.GetResponse(); Stream streamReceive = response.GetResponseStream(); Encoding encoding = System.Text.Encoding.GetEncoding("utf-8"); StreamReader streamRead = new System.IO.StreamReader(streamReceive, encoding); while(streamRead.EndOfStream != true) { line = streamRead.ReadLine(); if (line.Contains("")) { line = line.Split(new char[] { '' })[2]; break; } } } catch (Exception) { } finally { if (response != null) { response.Close(); } } return line; }
最后一点 – 我希望代码运行得更快,因为它一直阻塞,直到页面被提取,所以如果我只能得到网站标题而不是整个页面,那就太棒了。
获取内容的更简单方法:
WebClient x = new WebClient(); string source = x.DownloadString("http://www.singingeels.com/");
获得标题的更简单,更可靠的方法:
string title = Regex.Match(source, @"\]*\>\s*(?[\s\S]*?)\ ", RegexOptions.IgnoreCase).Groups["Title"].Value;
或许有了这个建议,为你开启了一个新的世界,我也遇到了这个问题并且提出了这个问题
从http://html-agility-pack.net/?z=codeplex下载“Html Agility Pack”
或者去nuget: https ://www.nuget.org/packages/HtmlAgilityPack/并添加此参考。
在代码文件中添加folow:
using HtmlAgilityPack;
在你的方法中写下以下代码:
var webGet = new HtmlWeb(); var document = webGet.Load(url); var title = document.DocumentNode.SelectSingleNode("html/head/title").InnerText;
资料来源:
https://codeshare.co.uk/blog/how-to-scrape-meta-data-from-a-url-using-htmlagilitypack-in-c/ HtmlAgilityPack获取标题和元
为了实现这一目标,您需要做一些事情。
- 使您的应用程序具有线程,以便您可以在此时处理多个请求并最大化正在进行的HTTP请求的数量。
- 在执行异步请求时,只下载要撤回的数据量,您可能会在数据返回时查找数据
- 可能想用正则表达式来取出标题名称
我之前用SEO机器人完成了这项工作,我一次能够处理近10,000个请求。 您只需要确保每个Web请求都可以自包含在一个线程中。