当前位置：文江博客话题详情

使用 Lucene 索引维基百科

发布于 2024-12-11 18:30:17 字数 404 浏览 6 评论 0原文

是否可以使用 Lucene Benchmark 来索引维基百科转储？我希望能够在最新的英语维基百科页面转储上执行短语查询。我正在尝试寻找示例用例，但还没有找到。

我下载了最新的英文转储，名为： enwiki-latest-pages-articles.xml.bz2

然后我在终端中运行命令： java org.apache.lucene.benchmark.utils.ExtractWikipedia -i ~/enwiki-latest-pages-articles.xml.bz2

我相信将页面提取到标有“enwiki”的目录中

现在我需要的基准测试中还有其他内容吗运行以便索引维基？ README.enwiki 并没有真正给我一套清晰的说明，事实上我什至不确定我是否应该运行 ExtractWikipedia 类。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

指尖上的星空 2024-12-18 18:30:17

只需运行“ant”即可；我在 Lucene 邮件列表上发布了更彻底的答案，但这基本上就是它的要点。 build.xml 文件有一堆用于运行基准测试的目标。

回复收藏 0 原文

哀由 2024-12-18 18:30:17

维基媒体基金会一直致力于开发名为 DiffDb 的新项目。使用 Hadoop，我们创建两个修订版之间的差异，并且所有这些差异都使用 Lucene 进行索引。您可以在 github 上找到代码：

Wikihadoop： https://github.com/whym/wikihadoop
DiffDb： https://github.com/whym/diffindexer

英文维基百科的结果索引是1.4Tb，但你可以做非常酷的查询，例如谁在 2005 年 4 月添加了 foo，谁删除了超过 10k 字节等。

回复收藏 0 原文

~没有更多了~

关于作者

ヤ经典坏疍

暂无简介

文章

28 人气

关注发私信

李珊平

文章 0 评论 0

关注

Quxin

文章 0 评论 0

关注

范无咎

文章 0 评论 0

关注

github_ZOJ2N8YxBm

文章 0 评论 0

关注

若言

文章 0 评论 0

关注

南…巷孤猫

文章 0 评论 0

友情链接

文江博客

使用 Lucene 索引维基百科

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者