单核或多核 Solr
我们计划部署 Solr 来搜索从通用 CMS 平台发布的多个站点。
每种语言都会有单独的网站,而其他语言的内容大多是从英语翻译而来的。
搜索要求包括 - 关键字突出显示、建议(“您是说吗?”)、停用词、分面。
我们正在评估使用单核与每种语言的多核 Solr 选项。这里推荐的方法是什么?
We are planning to deploy Solr for searching multiple sites published from common CMS platform.
There will be separate sites per language where other languages will mostly have content translated from English.
The search requirements include – keyword highlighting, suggestions (“did you mean?”), stopwords, faceting.
We are evaluating using single core vs per-language multi-core Solr option. What is the recommended approach here?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
您需要多核,因为您无法在多语言数据库上进行词干提取和停用词处理。
英语中常见的停用词是“by”和“is”,但这些词在许多北欧语言中表示“城镇”和“冰”。
如果您采用多核,每种语言都可以在自己的核心上使用自定义的 schema.xml,选择正确的词干分析器、停用词和受保护的词。但是同一个 JVM 在同一台服务器上运行所有这些内容,因此您无需为一种特定语言的服务器花费任何额外的费用。然后,如果负载对于一台服务器来说太大,您可以复制多核设置,所有索引都会从副本中受益。
You need multicore because you cannot do stemming and stopwords on a multilingual database.
Common stopwords in English are "by" and "is" but these words mean "town" and "ice" in many Nordic languages.
If you do multicore, each language can be on its own core with a customized schema.xml that selects the right stemmer, stopwords and protected words. But the same JVM is running it all on the same server, so you are not spending any extra money for servers for one specific language. Then, if the load is too great for one server, you replicate your multicore setup and all of the indexes benefit from the replicas.
您应该使用多核方法。
当您想一次查询多个核心时,可以使用 shards 参数
http://wiki.apache.org/solr/DistributedSearch
You should use the multicore approach.
When you want to query multiple cores at once you can use the shards parameter
http://wiki.apache.org/solr/DistributedSearch