在哪里可以获得维基百科 XML 语料库

发布于 2024-10-31 13:16:58 字数 282 浏览 2 评论 0原文

我不知道是否可以在这里问这个问题,但我一直在努力寻找这个问题,并且一次又一次地陷入了死胡同。我正在开展一个信息检索研究项目。我已经对我的搜索引擎进行了编码,但无法测试它,因为我需要维基百科的 xml 语料库。我发现了http://www-connex.lip6.fr/~denoyer/wikipediaXML/< /a> 但事实证明毫无用处。如果有人知道如何获取该语料库,请告诉我

I don't know if this can be asked here, but I have looked so hard for this and have reached deadend time and again. I'm working on a project for Information Retrieval Research. I've coded up my search engine but cannot test it because I need this xml corpus of Wikipedia. This I found http://www-connex.lip6.fr/~denoyer/wikipediaXML/ but it turns out useless. Please let me know if someone knows a way of getting me this corpus

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

别低头,皇冠会掉 2024-11-07 13:16:58

您提供的页面看起来像是在展示 2007 年 INEX 研讨会中使用的维基百科 XML 语料库。我发现这个网站保存了所使用的维基百科数据集2009-2010 年在 INEX 中进行特别跟踪(我认为也是集群)。我想你也可以使用它。

以防万一您可以使用官方 wikimedia XML 转储:英语维基百科转储
更多信息和其他语言:维基百科数据库下载

The page you provided looks like to be presenting the Wikipedia XML corpus used in the 2007 INEX workshop. I've found this site which holds the wikipedia dataset used in 2009-2010 ad hoc (I think clustering too) track in INEX. I think you can use it as well.

Just in case you can use the official wikimedia XML dump: English Wikipedia Dumps.
More information and other languages: Wikipedia Database Download

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文