当前位置：文江博客话题详情

使用Django构建搜索引擎的建议

发布于 2024-10-10 17:16:22 字数 293 浏览 6 评论 0原文

我是网络爬行的新手。我将构建一个搜索引擎，爬虫会保存 Rapidshare 链接，包括找到 Rapidshare 链接的 URL...

，我将构建一个类似于 filestube.com 的网站

换句话说经过一番搜索，我发现 Scrapy 可以与 Django 配合使用。我试图找到有关 nutch 与 Django 集成的信息，但一无所获。

我希望你能给我构建此类网站的建议......尤其是爬虫

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

万水千山粽是情ミ 2024-10-17 17:16:22

最著名的可插入应用程序是 Django-Haystack，它允许您连接到多个搜索后端：

Solr / Lucene 符合流行语的 Apache 基金会项目
Whoosh 原生 Python 搜索库
Xapian 另一个非常好的语义搜索引擎

haystack 允许您使用API 看起来像 Django 自己的查询集语法，可以直接使用这些搜索引擎（它们都恰好有自己的 API 和方言）。

如果您只使用抓取工具，无论您使用什么工具：BeautifulSoup 或 Scrappy，您将自己编写 Python 代码来解析您想要解析的内容，然后填充您的 django 模型。
这甚至可以是单独的 python 脚本，可在commands.py 模块中使用。

如果您有很多文件要搜索，您可能需要一个索引，该索引会经常重建并允许快速搜索而无需使用 django ORM。
使用 Solr 索引（例如）使您能够动态创建其他字段，例如基于真实模型字段的虚拟字段（例如：拆分作者名字和姓氏、添加大写文件标题字段等）

当然，如果您不需要快速索引、关键字提升或语义分析，您仍然可以对几个 django 模型字段进行经典的全文搜索：

Django 原生 QuerySet 查看“__search('something')”字段查找
PostGreSQL 特定全文搜索使用 Django

回复收藏 0 原文

如梦亦如幻 2024-10-17 17:16:22

您检查过 DjangoItem 吗？这是一个实验性的 Scrapy 功能，但众所周知它是有效的

回复收藏 0 原文

~没有更多了~

关于作者

青巷忧颜

暂无简介

0 文章

0 评论

22 人气

关注发私信

友情链接

文江博客

使用Django构建搜索引擎的建议

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

烙印

singlesman

给自己一个微笑

独孤求败

晨钟暮鼓

我是自愿种绣球花的

友情链接

使用Django构建搜索引擎的建议

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

烙印

singlesman

给自己一个微笑

独孤求败

晨钟暮鼓

我是自愿种绣球花的

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。