无重复数据的分面搜索（无 ETL）

发布于 2024-11-14 05:03:28 字数 284 浏览 16 评论 0原文

到目前为止，我见过的所有解决方案都涉及使用 nosql 或数据仓库来复制数据。有没有更有效的方法？

2011-06-07 编辑：当我说不重复时，我的意思是不ETL 之一。我想直接从主数据库提取数据。这是相关的，但我及时改变了。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

知你几分 2024-11-21 05:03:28

Solr 有一个补丁，它添加了字段折叠功能。它工作得相当好，除了当返回的结果集有数百万个文档长时报告问题之外。

此外，它不能非常精确地计算构面数量 - 有时所有构面的总数与集合中的文档数量不相符。然而，差异似乎总是没有那么大——我注意到 10000-50000 个文档的结果集的波动小于 100。

显然，要使用此补丁，您必须构建自己的 Solr 版本。如果您对此不满意，可以尝试我正在使用的已构建版本。我已经上传到
我的 SkyDrive 都有一个修补过的 .war 文件和我的“lib”文件夹（不确定是否
后者是必要的，如果补丁对库进行了任何更改，但只是
万一他们也在那里）。另外我需要提到应该使用这个版本
您只需自行承担风险 - 他们为我服务，没有任何严重的投诉，但我不能
保证对其他人也同样如此。这是下载链接。

或者，您可以等待 Solr 4 发布 - 它将包括字段崩溃，但在我上次检查时它仍然存在未解决的关键问题。顺便说一句，它的折叠搜索参数与上述补丁不兼容，因此您使用第一个，然后使用另一个，您还需要修改代码。