Solr Tokenizer无需做任何事情

发布于 2025-02-11 21:12:52 字数 937 浏览 1 评论 0原文

我想将一个solr字符串字段“ content”归为“一个sikenized”。因此，例如：

{
  "content":"Hello World this is a Test",
  "tokenized":["hello", "world", "this", ...]
}

为此，我使用的

<field name="content" type="string" indexed="true" stored="true"/>
<field name="tokenized" type="customType" indexed="true" stored="true"/>

<copyField source="content" dest="tokenized"/>

自定义字段类型是，

<fieldType name="customType" class="solr.TextField">
   <analyzer>      
      <tokenizer class="solr.StandardTokenizerFactory"/>
      <filter class="solr.LowerCaseFilterFactory"/>
   </analyzer>
</fieldType>

我的理解是，在提交所有内容后，将用指定的令牌化将所有内容归为令牌，然后将其作为令牌列表放入令牌化字段中。但是，令牌化字段仅包含列表中的内容，例如：

{
  "content":"Hello World this is a Test",
  "tokenized":["Hello World this is a Test"]
}

我需要做出一些全局配置以使Tokenizers工作吗？

原文

I want to tokenize one solr string field "content" to another field "tokenized".
So e.g.:

{
  "content":"Hello World this is a Test",
  "tokenized":["hello", "world", "this", ...]
}

For that i use

<field name="content" type="string" indexed="true" stored="true"/>
<field name="tokenized" type="customType" indexed="true" stored="true"/>

<copyField source="content" dest="tokenized"/>

and the custom field type

<fieldType name="customType" class="solr.TextField">
   <analyzer>      
      <tokenizer class="solr.StandardTokenizerFactory"/>
      <filter class="solr.LowerCaseFilterFactory"/>
   </analyzer>
</fieldType>

My understanding was that upon committing all contents are tokenized with the specified tokenizer and then put, as a list of tokens, into the tokenized field. However the tokenized field only contains the content in a list, e.g.:

{
  "content":"Hello World this is a Test",
  "tokenized":["Hello World this is a Test"]
}

Is there some global configuration i need to make to get tokenizers to work?

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

梦在夏天 2025-02-18 21:12:52

令牌仅在内部存储在Lucene和Solr中。他们不会更改以任何方式返回给您的存储文本。文本是逐字存储的 - 即您发送的文本是返回给您的内容。

在后台生成并存储在索引中的令牌会影响您可以搜索存储的内容以及处理方式的方式，它不会影响字段的显示值。

您可以在Solr的管理页面下使用分析页面，以确切查看在存储在索引中之前，如何将字段的文本处理到令牌中。

这样做的原因是，您通常有兴趣将实际的文本返回给用户，使令牌化和处理的值可见，对于返回到人类的文档而言并没有真正的意义。

回复收藏 0 原文

~没有更多了~

关于作者

等数载，海棠开

暂无简介

文章

26 人气

关注发私信

夢野间

文章 0 评论 0

关注

百度③文鱼

文章 0 评论 0

关注

小草泠泠

文章 0 评论 0

关注

zhuwenyan

文章 0 评论 0

关注

weirdo

文章 0 评论 0

关注

坚持沉默

文章 0 评论 0

友情链接

文江博客

Solr Tokenizer无需做任何事情

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

夢野间

百度③文鱼

小草泠泠

zhuwenyan

weirdo

坚持沉默

友情链接

Solr Tokenizer无需做任何事情

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

夢野间

百度③文鱼

小草泠泠

zhuwenyan

weirdo

坚持沉默

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。