用eclipse跑webmagic抓取网页例子无任何输出?
eclipse跑的就是如下的例子,但是控制台没输出,这个是咋回事了,无论运行还是debug模式?新手不太懂。
控制台输出:
log4j:WARN No appenders could be found for logger (us.codecraft.webmagic.scheduler.QueueScheduler).
log4j:WARN Please initialize the log4j system properly.
log4j:WARN See http://logging.apache.org/log4j/1.2/faq.html#noconfig for more info.
跑的例子:
private Site site = Site.me().setRetryTimes(3).setSleepTime(1000);
// process是定制爬虫逻辑的核心接口,在这里编写抽取逻辑
public void process(Page page) {
// 部分二:定义如何抽取页面信息,并保存下来
page.putField("author", page.getUrl().regex("https://github\.com/(\w+)/.*").toString());
page.putField("name", page.getHtml().xpath("//h1[@class='entry-title public']/strong/a/text()").toString());
if (page.getResultItems().get("name") == null) {
//skip this page
page.setSkip(true);
}
page.putField("readme", page.getHtml().xpath("//div[@id='readme']/tidyText()"));
// 部分三:从页面发现后续的url地址来抓取
page.addTargetRequests(page.getHtml().links().regex("(https://github\.com/[\w\-]+/[\w\-]+)").all());
}
public Site getSite() {
return site;
}
public static void main(String[] args) {
Spider.create(new App())
//从"https://github.com/code4craft"开始抓
.addUrl("https://github.com/code4craft")
//开启5个线程抓取
.thread(1)
//启动爬虫
.run();
}
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(7)
log4j.properties文件放在classpath下边就好了
log4j.rootLogger=info, ServerDailyRollingFile, stdout log4j.appender.ServerDailyRollingFile=org.apache.log4j.DailyRollingFileAppender log4j.appender.ServerDailyRollingFile.DatePattern='.'yyyy-MM-dd log4j.appender.ServerDailyRollingFile.File=logs/notify-subscription.log log4j.appender.ServerDailyRollingFile.layout=org.apache.log4j.PatternLayout log4j.appender.ServerDailyRollingFile.layout.ConversionPattern=%d - %m%n log4j.appender.ServerDailyRollingFile.Append=true log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.layout=org.apache.log4j.PatternLayout log4j.appender.stdout.layout.ConversionPattern=%d{yyyy-MM-dd HH:mm:ss} %p [%c] %m%n
配置好slf4j的maven依赖和log4j配置文件后,然后跑webmagic-core-<最新版本号>.jar下us.codecraft.webmagic/processor/example/GithubRepoPageProcessor.java这个例子就可以了。
需要添加log4j的配置才会有
如果要看日志 你要配置 log4j.properties 文件啊~ 要不他怎么知道按什么格式输出日志啊。。。
另外 你要System.out.println("你要显示的东西"); 什么都不配当然没有输出了
同求。。。
同遇到这问题,求解决方法
我也碰到了,您解决了吗,