cron 作业的应用程序引擎 DeadlineExceededError 和维基百科爬虫的任务队列
我正在尝试在谷歌应用程序引擎上构建一个维基百科链接爬虫。我想在数据存储中存储索引。但我遇到了 cron 作业和任务队列的 DeadlineExceededError 。 …
在 Lucene 中使用 WikipediaTokenizer 的示例
我想在 lucene 项目中使用 WikipediaTokenizer - http://lucene.apache.org/java/3_0_2/api/contrib-wikipedia/org/apache/lucene/wikipedia/analysis…
Java:使用 SAXParser 拆分大型 XML 文件
我正在尝试使用 java 的 SAXParser 将大型 XML 文件拆分为较小的文件(特别是维基百科转储,未压缩时约为 28GB)。 我有一个 Pagehandler 类,它扩展…
当请求缺少用户代理时,维基百科 API 给出 HTTP 403
我在使用维基百科 API 时遇到问题。我使用这个 PHP 脚本: <?php $xmlDoc = new DOMDocument() $xmlDoc->load("http://en.wikipedia.org/w/api.ph…
使用 NSScanner 获取维基百科文章摘要问题
我正在尝试获取一篇文章的摘要并将其作为字符串下载。这对于某些文章非常有用,但维基百科网站不一致。因此 NSScanner 经常失败,而它对于其他文章却…
我在哪里可以找到网络上的原始文本转储?
我希望在我正在编写的程序中进行一些文本分析。我正在寻找原始形式的替代文本源,类似于维基百科转储 (download.wikimedia.com) 中提供的内容。 我宁…
使用jquery读取wikipedia url的内容,跨域网络调用
jQuery.ajax( { url:'http://en.wikipedia.org/wiki/Football', type:'get', dataType:'jsonp', success:function(data){alert(data)}, } 我想使用 j…