从 nutch 中获取链接
我正在使用 nutch 1.3 来抓取网站。我想要获取已爬网的网址列表以及源自页面的网址。
我使用 readdb 命令获取爬网的网址列表。
bin/nutch readdb crawl/crawldb -dump file
有没有办法通过读取crawldb或linkdb来找出页面上的url?
在 org.apache.nutch.parse.html.HtmlParser 中,我看到 outlinks 数组,我想知道是否有一种快速方法可以从命令行访问它。
I am using nutch 1.3 to crawl a website. I want to get a list of urls crawled, and urls originating from a page.
I get list of urls crawled using readdb command.
bin/nutch readdb crawl/crawldb -dump file
Is there a way to find out urls that are on a page by reading crawldb or linkdb ?
in the org.apache.nutch.parse.html.HtmlParser
I see outlinks array, I am wondering if there is a quick way to access it from command line.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
在命令行中,您可以使用带有 -dump 或 -get 选项的 readseg 来查看外链。例如,
From command line, you can see the outlinks by using readseg with -dump or -get option. For example,
您可以使用 readlinkdb 命令轻松完成此操作。它为您提供了 URL 的所有内链和外链。
linkdb:这是我们希望从中读取和获取信息的linkdb目录。
out_dir:此参数将整个 linkdb 转储到我们希望指定的任何 out_dir 中的文本文件。
url:-url 参数为我们提供了有关特定 url 的信息。这被写入 System.out。
欲了解更多信息,请参阅
http://wiki.apache.org/nutch/bin/nutch%20readlinkdb
You can easily do this with readlinkdb command. It gives you all the inlinks and outlinks to and from a url.
linkdb: This is the linkdb directory we wish to read and obtain information from.
out_dir: This parameter dumps the whole linkdb to a text file in any out_dir we wish to specify.
url: The -url arguement provides us with information about a specific url. This is written to System.out.
For more information refer to
http://wiki.apache.org/nutch/bin/nutch%20readlinkdb