从外部URL中提取文本

我正在分享像facebook这样的链接function。 目前我正在解析元标记以获取关键字,描述等,但如何解析这些类型的页面http://en.wikipedia.org/wiki/Wikipedia此页面没有元描述,但facebook仍然提取以下描述: 维基百科(/wˌkɪpiːdi.ə/或/ˌwɪkipiːdi.ə/WIK-i-PEE-dee-ə)是一个免费的,[3]基于网络的,协作的,多语言的百科全书项目,由非盈利的维基媒体基金会支持。 它的1700万篇文章(英语超过340万篇)是由志愿者共同撰写的

如果页面上没有找到元描述标记,如何提取此类描述。

看起来他们以与Bing相同的方式生成描述,这可能很难轻易地重新创建:

Bing如何生成我的网站的描述?

设计网页内容的方式对网页描述的影响最大。 当MSNBot抓取您的网站时,它会分析索引网页上的内容,并生成与每个网页关联的关键字。 MSNBot提取与关键字最相关的网页内容,并构建搜索结果中显示的网站描述。 网页内容通常是包含描述标签中的关键字或信息的句子段。 网页标题和URL也会被提取并显示在搜索结果中。

如果更改网页的内容,则下次更新Bing索引时,网页描述可能会更改。 要影响您的网站描述,请确保您的网页在搜索结果中有效地提供您想要的信息。 网站管理员中心在您设计内容时建议采用以下策略:

* Place descriptive content near the top of each Web page. * Make sure that each Web page has a clear topic and purpose. * Create unique  tag content for each page. * Add a Web site description <meta /> tag to describe the purpose of 

您网站上的每个页面。 例如:

 >  CONTENT="Sample text - describe your 

http://www.bing.com/toolbox/support/faqs.aspx

一种选择是点击Bing并尝试从那里获取描述。

如果你想创建一个程序,让你对任意网站有一个很好的描述,你将不得不做一个完整的KI,甚至可能通过图灵测试。 如此简短的回答:你做不到。

如果您愿意支付人工智能来为您撰写关于网页的摘要,请谷歌搜索“Microjobs”。 您可以创建一个自动化的工作描述,例如“写一个关于网页XY的两句话摘要”,并在其后面加上一些价值。

当然你可以尝试找到第一段文本并从中取出前N个句子,但是在很多网站上都会失败。

亚马逊面临类似的问题,并有一个相当新颖的解决方案 。 显然,它并不完美,但通过将其与Bing使用的想法结合起来,我敢打赌你可以自动生成一些非常可靠且有趣的关键字标签,以配合本身更可疑的描述。
所以它看起来像:
来自meta的描述
有趣的句子根据bing \ google
STP作为标签,hover在上下文中。

我认为,在所有可能的情况下,这就像是在飞行。
它会把你的问题解决到荒谬的程度。

下载此页面并解析以提取您需要获取的所有内容:

 System.Net.WebClient client = new System.Net.WebClient(); String url = "http://en.wikipedia.org/wiki/Wikipedia"; String pageHTMLSource = client.DownloadString(url); //Parse pageHTMLSource