Sitecore文本在PDF或Word文档中搜索

我想知道是否可以配置Sitecore的Lucene搜索引擎来索引PDF或Word文档? 我在本文档( http://sdn.sitecore.net/upload/sitecore6/65/sitecore_search_and_indexing_sc60-65-a4.pdf )上查看了Sitecore支持网站,但它提到创建一个文件爬虫类,它向我建议只有通过编写自定义代码才能实现这一目标。 如果我确实需要编写自定义代码来执行此操作,是否还需要一些API才能从PDF文档中提取文本内容?

我最近不得不在我的一个项目上做类似的事情。 看看如何使用Lucene.NET索引Word 2003,2007和2010文档 。

我最终创建了一个自定义索引器,它处理MS Office文档(XP,2003,2007和2010格式)和PDF文档:

  • 对于索引XP-2003 MS Office文档,您可以使用操作系统内置的IFilter (假设您使用的是Windows Server 2003或更高版本)
  • 要索引2007-2010 MS Office文档,您需要安装Microsoft Office 2010 Filter Pack
  • 为了索引PDF文档,我强烈建议使用Foxit PDF IFilter 。 它不是免费的,但比Adobe PDF IFilter做得好得多。

注意:不要在Adobe PDF IFilter上浪费时间:它无法读取有效的PDF文件,而且速度慢得多。 Foxit IFilter旨在利用多核CPU,并在大型文档上表现更好。