当前位置：文江博客话题详情

使用 Hadoop 进行导入操作并使用 Solr 提供 Web 界面是否有意义？

发布于 2024-09-14 05:44:29 字数 548 浏览 8 评论 0原文

我正在考虑将大量数据实时导入 Lucene 索引的需要。这将包含各种格式的文件（Doc、Docx、Pdf 等）。

数据将作为批量压缩文件导入，因此需要将它们解压缩并索引到单个文件中，并以某种方式与整个文件批次相关。

我仍在尝试找出如何实现这一点，但我认为我可以使用 Hadoop 进行处理并导入到 lucene 中。然后我可以使用 Solr 作为 Web 界面。

既然 Solr 已经可以处理数据了，我是否让事情变得过于复杂了？由于导入的 CPU 负载非常高（由于预处理），我相信无论实现如何，我都需要将导入和临时搜索分开。

问：“请定义大量数据并实时”

“大量”数据是指每年 10 亿封电子邮件（或更多），平均大小为 1K，附件大小从 1K 到20 Megs，少量数据范围为 20 Megs 到 200 Megs。这些通常是需要上面引用的索引的附件。

实时意味着它支持在准备导入后 30 分钟或更短时间内进行搜索。

SLA：

我希望为搜索操作提供 15 秒或更短的搜索 SLA。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

勿忘初心 2024-09-21 05:44:29

如果您需要实时（或接近实时）完成处理，那么 Hadoop 可能不是您的最佳选择。

Solr 已经处理了处理和索引文件的所有方面。我会首先坚持仅使用 Solr 的解决方案。 Solr 允许您扩展到多台机器，因此如果您发现 CPU 负载因处理而过高，那么您可以轻松添加更多机器来处理负载。

回复收藏 0 原文

你怎么这么可爱啊 2024-09-21 05:44:29

我建议您使用 Solr Replication 来减轻负载，方法是在一台机器上建立索引并从其他的。 Hadoop不适合实时处理。

回复收藏 0 原文

过期以后 2024-09-21 05:44:29

每年 10 亿份文档相当于每秒约 32 个文档均匀传播。

您可以在单独的计算机上运行文本提取并将可索引文本发送到 Solr。我想，在这种规模上，您应该选择多核 Solr。因此，您可以将可索引内容发送到不同的核心。这应该会加快索引速度。

我已经在单核上完成了 1 亿范围内的小型结构化文档的索引，没有遇到太多麻烦。您应该能够使用单个 solr 实例扩展到几亿个文档。（文本提取服务可以使用另一台机器。）

在Hathi Trust 的博客上阅读有关大规模搜索的各种信息挑战和解决方案。他们使用 Lucene/Solr。

回复收藏 0 原文

~没有更多了~

关于作者

旧情别恋

暂无简介

0 文章

0 评论

23 人气

关注发私信

游缘惊梦

文章 0 评论 0

关注

小兔几

文章 0 评论 0

关注

Glik

文章 0 评论 0

关注

生生漫

文章 0 评论 0

关注

Luxian

文章 0 评论 0

关注

Champion-Ming

文章 0 评论 0

友情链接

文江博客

使用 Hadoop 进行导入操作并使用 Solr 提供 Web 界面是否有意义？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

游缘惊梦

小兔几

Glik

生生漫

Luxian

Champion-Ming

友情链接

使用 Hadoop 进行导入操作并使用 Solr 提供 Web 界面是否有意义？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

游缘惊梦

小兔几

Glik

生生漫

Luxian

Champion-Ming

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。