爬虫的数据库该怎么设计?

发布于 2022-09-01 20:50:38 字数 102 浏览 12 评论 0

毕设做一个小型搜索引擎,爬虫系统的数据库该怎样设计?
基于phantomjs实现抓取,入库后,剔除重复数据,利用开源的机器学习库做中文分词,然后形成索引。
最后再做一套搜索系统。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(4

青丝拂面 2022-09-08 20:50:38

数据库的设计跟你要爬的数据的结构和你的搜索引擎的设计有关。请再添加一些描述。

别念他 2022-09-08 20:50:38

毕设的项目。怎么设计都行。

删除会话 2022-09-08 20:50:38
CREATE TABLE IF NOT EXISTS `Document` (
   `id`    INT AUTO_INCREMENT PRIMARY KEY,
   `url`   VARCHAR(1024) UNIQUE NOT NULL,
   `content` TEXT NOT NULL,
   `last_fetch_time` DATETIME
);
迷你仙 2022-09-08 20:50:38

可以存成json,后面再慢慢处理

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文