用eclipse跑webmagic抓取网页例子无任何输出?

发布于 2021-12-06 21:26:44 字数 2660 浏览 982 评论 7

eclipse跑的就是如下的例子,但是控制台没输出,这个是咋回事了,无论运行还是debug模式?新手不太懂。

控制台输出:

log4j:WARN No appenders could be found for logger (us.codecraft.webmagic.scheduler.QueueScheduler).
log4j:WARN Please initialize the log4j system properly.
log4j:WARN See http://logging.apache.org/log4j/1.2/faq.html#noconfig for more info.

 

 

 

跑的例子:

private Site site = Site.me().setRetryTimes(3).setSleepTime(1000);

    // process是定制爬虫逻辑的核心接口,在这里编写抽取逻辑
    public void process(Page page) {
        // 部分二:定义如何抽取页面信息,并保存下来
        page.putField("author", page.getUrl().regex("https://github\.com/(\w+)/.*").toString());
        page.putField("name", page.getHtml().xpath("//h1[@class='entry-title public']/strong/a/text()").toString());
        if (page.getResultItems().get("name") == null) {
            //skip this page
            page.setSkip(true);
        }
        page.putField("readme", page.getHtml().xpath("//div[@id='readme']/tidyText()"));

        // 部分三:从页面发现后续的url地址来抓取
        page.addTargetRequests(page.getHtml().links().regex("(https://github\.com/[\w\-]+/[\w\-]+)").all());
    }

    
    public Site getSite() {
        return site;
    }

    public static void main(String[] args) {

        Spider.create(new App())
                //从"https://github.com/code4craft"开始抓
                .addUrl("https://github.com/code4craft")
                //开启5个线程抓取
                .thread(1)
                //启动爬虫
                .run();
    }

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(7

拍不死你 2021-12-10 03:35:46

 

log4j.properties文件放在classpath下边就好了

log4j.rootLogger=info, ServerDailyRollingFile, stdout log4j.appender.ServerDailyRollingFile=org.apache.log4j.DailyRollingFileAppender log4j.appender.ServerDailyRollingFile.DatePattern='.'yyyy-MM-dd log4j.appender.ServerDailyRollingFile.File=logs/notify-subscription.log log4j.appender.ServerDailyRollingFile.layout=org.apache.log4j.PatternLayout log4j.appender.ServerDailyRollingFile.layout.ConversionPattern=%d - %m%n log4j.appender.ServerDailyRollingFile.Append=true log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.layout=org.apache.log4j.PatternLayout log4j.appender.stdout.layout.ConversionPattern=%d{yyyy-MM-dd HH:mm:ss} %p [%c] %m%n

别再吹冷风 2021-12-10 03:33:35

配置好slf4j的maven依赖和log4j配置文件后,然后跑webmagic-core-<最新版本号>.jar下us.codecraft.webmagic/processor/example/GithubRepoPageProcessor.java这个例子就可以了。

平定天下 2021-12-10 03:23:16

需要添加log4j的配置才会有

泪冰清 2021-12-10 03:03:40

如果要看日志 你要配置 log4j.properties 文件啊~ 要不他怎么知道按什么格式输出日志啊。。。

另外 你要System.out.println("你要显示的东西"); 什么都不配当然没有输出了

倾城泪 2021-12-10 00:39:48

同求。。。

等风来 2021-12-09 21:16:51

同遇到这问题,求解决方法

归属感 2021-12-08 18:27:46

我也碰到了,您解决了吗,

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文