当前位置：文江博客话题详情

搜索引擎软件的线程和进程架构所需的建议

发布于 2024-08-24 07:07:28 字数 430 浏览 4 评论 0原文

该软件是一个经典的搜索引擎。应用程序的一部分负责爬行/收集数据，另一部分则获取该数据并构建索引或数据库。最后一部分处理来自客户端的查询，并在检索结果之前对数据执行搜索。

我正在讨论的特定引擎是数据经常更新的引擎（至少每分钟一次），因此查询必须始终对最新数据进行操作。

我的问题很简单。这三个任务应该由三个独立的进程处理，还是由一个进程处理，每个进程有多个线程专用？

我的问题的主要原因是关于分区内存的最佳方法。如果搜索器必须更新索引器的可用数据，并且索引器必须更新查询处理程序的数据集，那么它们都位于同一进程下并具有相同的地址空间是否有意义？或者使用共享内存映射文件的单独进程是否可以接受？

我倾向于单独的进程，以便每个进程都可以运行在不同的机器上，从而实现集群、分发等。但是就较小数据集的原始速度而言，是否会首选整合方法？

操作系统是Windows，语言是C++。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

无人问我粥可暖 2024-08-31 07:07:28

我不是专家，但我倾向于采用单独的流程方法，因为这提供了最佳的灵活性、扩展能力、易于管理（重新启动一项服务不会影响其他服务）和性能。

我也很想考虑使用不同的数据库来完成不同的任务。
如果您采取让一个组件完成一项工作的方法 - 并且做得很好，那么将这一原则应用于数据库也是有意义的。

这取决于您在哪里看到性能瓶颈以及如何做到这一点。
我正在考虑初始收集区域，也许是暂存区域（排序等）和专用于快速访问和搜索的最终区域。

我认为 SQL 到 SQL 批处理/ETL 会提供最佳性能。

经过深思熟虑 - 我将构建 3 个单独的应用程序，它们共同构成了解决方案。如果您确实愿意，这还允许您使用不同的技术来完成不同的任务。允许更灵活的维护路径。

回复收藏 0 原文

~没有更多了~

关于作者

狼性发作

暂无简介

0 文章

0 评论

22 人气

关注发私信

杨绘峰

文章 0 评论 0

关注

听闻余生

文章 0 评论 0

关注

谜兔

文章 0 评论 0

关注

xiaotwins

文章 0 评论 0

关注

你说

文章 0 评论 0

关注

若能看破又如何

文章 0 评论 0

友情链接

文江博客

搜索引擎软件的线程和进程架构所需的建议

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

杨绘峰

听闻余生

谜兔

xiaotwins

你说

若能看破又如何

友情链接

搜索引擎软件的线程和进程架构所需的建议

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

杨绘峰

听闻余生

谜兔

xiaotwins

你说

若能看破又如何

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。