在Lucene.net 2.9.2中突出显示整个句子

目前我正在使用Lucene.net 2.9.2框架。 由于我的搜索,我希望获得带有突出显示的文本片段的结果页面(asp.net)。 我希望所选片段是一个完整的句子而不仅仅是几个单词。

例如,如果我有文字:

Lorem ipsum dolor sit amet,consectetur adipisicing elit,sed do eiusmod tempor incididunt ut labore et dolore magna aliqua。 Ut enim ad minim veniam,quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat。 Duis aute irure dolor in repreptderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur。 Excepteur sint occaecat cupidatat non proident,sunt in culpa qui officia deserunt mollit anim id est laborum。

我正在寻找cupidatat我想得到片段:

Excepteur sint occaecat cupidatat non proident,sunt in culpa qui officia deserunt mollit anim id est laborum。

我现在的代码是:

var scorer = new QueryScorer(q); var formatter = new SimpleHTMLFormatter("
", "
"); var highlighter = new Highlighter(formatter, scorer); highlighter.SetTextFragmenter(new SimpleFragmenter(100)); var fragments = highlighter.GetBestFragments(stream, text, 1);

但它只返回大小为100的文本范围。

我会感谢任何建议。

您想要创建一个新的Fragmenter(类似于SimpleFragmenter)。 您需要调整的function是:

 public virtual bool IsNewFragment(Token token) { bool isNewFrag = token.EndOffset() >= (fragmentSize * currentNumFrags); if (isNewFrag) { currentNumFrags++; } return isNewFrag; } 

这可能需要一些调整,直到你得到正确的逻辑,但这应该给你一个很好的开端