当前位置：文江博客话题详情

网络爬虫使用哪种数据库，如何在分布式环境中使用 MySQL？

发布于 2024-09-15 06:23:41 字数 103 浏览 18 评论 0原文

我应该为网络爬虫使用哪种数据库引擎：InnoDB 还是 MYiSAM？我有两台 PC，每台都有 1TB 硬盘。如果一个已满，我希望它自动保存到另一台电脑，但读取应该转到正确的电脑；我该怎么做？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

山有枢 2024-09-22 06:23:41

至于你问题的第一部分，这取决于你的具体实施。如果您要使用一个受网络带宽限制的爬虫，那么 MYiSAM 可能会更快。如果您使用多个爬虫，那么 InnoDB 将为您提供诸如事务之类的优势，这可能会有所帮助。

AFAIK MySQL 不支持您建议的硬件配置。如果您需要大存储空间，您可能需要考虑 MySQL Cluster。

回复收藏 0 原文

半枫 2024-09-22 06:23:41

MyISAM 是首选，因为您将只进行写操作，并且爬虫（甚至并行运行）将被配置为（我想）来爬取不同的域/url。因此您无需处理访问冲突。

当向Mysql写入大量数据，尤其是文本时，请避免事务、索引等，因为这会大大减慢MySQL的速度。

回复收藏 0 原文

~没有更多了~

关于作者

温柔戏命师

暂无简介

文章

28 人气

关注发私信

转角预定愛

文章 0 评论 0

关注

玩物

文章 0 评论 0

关注

qq_dEbOhs

文章 0 评论 0

关注

陆九渊

文章 0 评论 0

关注

qq_ScZtKg

文章 0 评论 0

关注

权谋诡计

文章 0 评论 0

友情链接

文江博客

网络爬虫使用哪种数据库，如何在分布式环境中使用 MySQL？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签