从默认的 python xml.sax 转换为 lxml sax 接口
我希望加快维基百科部分内容(大约 5GB)的解析速度。现在我正在使用一个使用 python sax 接口的脚本,而 lxml 似乎是一个直接的加速解决方案。 但是…
使用 GeoNames Java API 检索给定维基百科文章标题的坐标
假设我有维基百科文章的标题,例如费城,并且我想要那个地方的坐标。我不想从维基百科获取此内容,因为看起来我必须检索整篇文章。我不想只是松散地查…
jsoup - 从维基百科文章中提取文本
我正在编写一些 Java 代码,以便使用维基百科的文本实现 NLP 任务。如何使用 JSoup 提取维基百科文章的所有文本(例如 http:// 中的所有文本en.wikipe…
如何获取“所有带有前缀的页面”的结果使用维基百科 API?
我希望使用 Wikipedia api 提取此页面的结果: http://en.wikipedia.org /wiki/Special:PrefixIndex 当搜索“某物”时,例如: http://en.wikipedia.o…
使用 DBpedia 和 SPARQL 获取所有定义的颜色
如何查询 DBpedia 以获取 Wikipedia 中所有颜色值的名称和十六进制代码(即 color 信息框的任何使用)? Spring Green 文章使用 color 模板,如下所示…
Wikipedia list=search REST API:如何检索匹配文章的 Url
我正在研究维基百科 REST API,但我无法找到正确的选项来获取搜索查询的 URL。 这是请求的 URL: http://it.wikipedia.org/w/api.php?action=query&li…
如何获取复杂的维基百科模板的结果?
这是一个有点难以理解的问题,但我会尽力解释它。首先,让我展示一个示例页面: http://en.wikipedia.org/wiki/African_bush_elephant 这是一个维基百…
在 PHP 中解析 Wikipedia 标记的最佳方法是什么?
我正在尝试以结构化的方式解析特定的维基百科内容。这是一个示例页面: http://en.wikipedia.org/wiki/Polar_bear 我是取得了一些成功。我可以检测到…
使用正则表达式从Python中的字符串中提取括号
如果我们只知道“模板”,我如何从这个字符串中提取 {{template|{{template2}}|other params}} : {{template0}} {{template|{{template2}}|other par…
如何使用搜索字符串搜索维基百科并获取数据,在我的应用程序中解析和显示......?
全部 我在谷歌中搜索过这个,但我对很多网站感到困惑,这些网站没有找到明确的逐步程序。 如果有人有想法,所有需要做的事情是什么。请指导我...! 提…
使用 JQuery 获取维基百科信息框内容
我希望使用 JQuery 来提取包含公司详细信息的维基百科信息框的内容。 我想我已经快到了,但我只是无法完成最后一步 var searchTerm="toyota"; var url…