维基百科:“你的意思是”如何表达?工作原理以及如何利用它?
我想知道维基百科的“您的意思是:...”是如何工作的,以及是否有一种方法(例如 API)可以使用它?因为我想从我的输入中获取相应的页面,但这可能包…
如何检索由“{{”括起来的子字符串的最长匹配项和“}}”?
我正在尝试解析通过维基百科的 API 接收的维基文本文件,问题是它的一些模板(即包含在 {{ 和 }} 中的片段)不会自动扩展为维基文本,因此我必须在文…
cron 作业的应用程序引擎 DeadlineExceededError 和维基百科爬虫的任务队列
我正在尝试在谷歌应用程序引擎上构建一个维基百科链接爬虫。我想在数据存储中存储索引。但我遇到了 cron 作业和任务队列的 DeadlineExceededError 。 …
在 Lucene 中使用 WikipediaTokenizer 的示例
我想在 lucene 项目中使用 WikipediaTokenizer - http://lucene.apache.org/java/3_0_2/api/contrib-wikipedia/org/apache/lucene/wikipedia/analysis…
Java:使用 SAXParser 拆分大型 XML 文件
我正在尝试使用 java 的 SAXParser 将大型 XML 文件拆分为较小的文件(特别是维基百科转储,未压缩时约为 28GB)。 我有一个 Pagehandler 类,它扩展…
当请求缺少用户代理时,维基百科 API 给出 HTTP 403
我在使用维基百科 API 时遇到问题。我使用这个 PHP 脚本: load("http://en.wikipedia.org/w/api.php?a…
使用 NSScanner 获取维基百科文章摘要问题
我正在尝试获取一篇文章的摘要并将其作为字符串下载。这对于某些文章非常有用,但维基百科网站不一致。因此 NSScanner 经常失败,而它对于其他文章却…
我在哪里可以找到网络上的原始文本转储?
我希望在我正在编写的程序中进行一些文本分析。我正在寻找原始形式的替代文本源,类似于维基百科转储 (download.wikimedia.com) 中提供的内容。 我宁…