单核或多核 Solr

发布于 2024-11-16 12:44:49 字数 174 浏览 3 评论 0原文

我们计划部署 Solr 来搜索从通用 CMS 平台发布的多个站点。

每种语言都会有单独的网站,而其他语言的内容大多是从英语翻译而来的。

搜索要求包括 - 关键字突出显示、建议(“您是说吗?”)、停用词、分面。

我们正在评估使用单核与每种语言的多核 Solr 选项。这里推荐的方法是什么?

We are planning to deploy Solr for searching multiple sites published from common CMS platform.

There will be separate sites per language where other languages will mostly have content translated from English.

The search requirements include – keyword highlighting, suggestions (“did you mean?”), stopwords, faceting.

We are evaluating using single core vs per-language multi-core Solr option. What is the recommended approach here?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

霞映澄塘 2024-11-23 12:44:49

您需要多核,因为您无法在多语言数据库上进行词干提取和停用词处理。

英语中常见的停用词是“by”和“is”,但这些词在许多北欧语言中表示“城镇”和“冰”。

如果您采用多核,每种语言都可以在自己的核心上使用自定义的 schema.xml,选择正确的词干分析器、停用词和受保护的词。但是同一个 JVM 在同一台服务器上运行所有这些内容,因此您无需为一种特定语言的服务器花费任何额外的费用。然后,如果负载对于一台服务器来说太大,您可以复制多核设置,所有索引都会从副本中受益。

You need multicore because you cannot do stemming and stopwords on a multilingual database.

Common stopwords in English are "by" and "is" but these words mean "town" and "ice" in many Nordic languages.

If you do multicore, each language can be on its own core with a customized schema.xml that selects the right stemmer, stopwords and protected words. But the same JVM is running it all on the same server, so you are not spending any extra money for servers for one specific language. Then, if the load is too great for one server, you replicate your multicore setup and all of the indexes benefit from the replicas.

凶凌 2024-11-23 12:44:49

您应该使用多核方法。
当您想一次查询多个核心时,可以使用 shards 参数
http://wiki.apache.org/solr/DistributedSearch

You should use the multicore approach.
When you want to query multiple cores at once you can use the shards parameter
http://wiki.apache.org/solr/DistributedSearch

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文