Solr 停用词显示在方面搜索结果中

发布于 2024-11-08 15:54:22 字数 246 浏览 6 评论 0原文

我目前正在 Solr 架构中的文本字段上测试分面搜索,并注意到我在 stopwords.txt 文件中获得了大量结果。

我的架构当前使用文本数据类型的默认配置,并且我的印象是,如果使用“solr.StopFilterFactory”过滤器,则不会对停用词建立索引。

我希望有人能够阐明这一点,或者a)帮助我理解为什么停用词不适用于构面以及如何忍受它,或者b)为我指明正确的方向,这样我的构面查询就不会返回来自停用词的单词。

谢谢!

I am currently testing facet searches on a text field in my Solr schema and noticing that I am getting a significant number of results that are in my stopwords.txt file.

My schema is currently using the default configuration for the text data type, and I was under the impression that stopwords were not indexed if the "solr.StopFilterFactory" filter was in use.

I am hoping that someone can shed some light on this and either a) help me understand why stopwords don't apply to facets and how to live with it, or b) point me in the right direction so my facet queries don't return words from stopwords.

Thanks!

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

过去的过去 2024-11-15 15:54:22

停用词确实适用于方面。换句话说:如果您请求已使用停用词索引的字段的某个方面,您不应该在该方面看到任何停用词。

我的猜测是,您没有按照您的想法建立索引:您的 schema.xml 是错误的,或者您在与您想象的不同的字段中建立索引。

我在这个领域使用方面并且效果很好:

<fieldType name="text_ws_stop" class="solr.TextField" positionIncrementGap="100">
  <analyzer>
<tokenizer class="solr.WhitespaceTokenizerFactory"/>
            <filter class="solr.StopFilterFactory"
    ignoreCase="true"
            words="stopwords_spanish.txt"
            enablePositionIncrements="true"
    />
  </analyzer>
</fieldType>

...

<field name="phrases" type="text_ws_stop" indexed="true" stored="true" required="false"/>

Stopwords do apply to facets. In other words: if you ask for a facet of a field that has been indexed with stopwords you should not see any stopwords in the facet.

My guess is that you are not indexing the way you think: either your schema.xml is wrong or you are indexing in a different field than you think.

I am using facets on this field and works well:

<fieldType name="text_ws_stop" class="solr.TextField" positionIncrementGap="100">
  <analyzer>
<tokenizer class="solr.WhitespaceTokenizerFactory"/>
            <filter class="solr.StopFilterFactory"
    ignoreCase="true"
            words="stopwords_spanish.txt"
            enablePositionIncrements="true"
    />
  </analyzer>
</fieldType>

...

<field name="phrases" type="text_ws_stop" indexed="true" stored="true" required="false"/>
~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文