WebMagic

WebMagic

文章 155 浏览 209

webmagic在输出的时候顺序为什么和putfield的顺序不一样

@黄亿华 你好,想跟你请教个问题:webmagic在输出的时候顺序为什么和putfield的顺序不一样,比如我依次压入title,name,lon,lat四个值,但是consolepi…

水水月牙 2021-11-21 19:29:35 747 0

SeleniumDownloader 遇到点问题

@黄亿华 你好,想跟你请教个问题: Spider spider = new Spider(new OschinaBlogPageProcesser()); spider.addUrl("http://my.oschina.net/flashswor…

甜扑 2021-11-21 12:19:15 925 0

如何设置请求的Header

@黄亿华 你好,想跟你请教个问题: webmagic在访问有些页面的时候会由于页面判断head中的Referer来源来屏蔽非本站的访问请求, 请问发起请求的时候在…

够钟 2021-11-21 10:10:45 455 0

请教一个关于webmagic的问题

@黄亿华 你好,想跟你请教个问题: 每次抓取一个页面的时候,按照项目需求,我必须保存当前页面的url。 要怎么才能获取当前抓取的页面的url呢? 谢谢…

月牙弯弯 2021-11-21 06:43:19 383 0

请问如何获取网页的修改时间?

请问如何获取网页的修改时间?为了避免重复抓取,我想用url和网页的最后修改时间来判断是否抓取过,抓取过的是否修改过。不知道怎么获取网页的修改时…

成熟稳重的好男人 2021-11-21 06:17:17 782 0

webmagic是否支持robots协议

@黄亿华 你好,想跟你请教个问题:webmagic支持robots协议吗?我没有找到相关代码,如果不支持是否考虑添加 …

清风夜微凉 2021-11-21 01:35:49 458 0

webmagic可以使用多线程吗

看了好几篇文章,都没有提到具体怎么使用多线程。 webmagic可以使用多线程吗,如果可以,可不可提供一个例子啊…

平定天下 2021-11-20 11:36:59 819 0

webmagic是广度优先还是深度优先?

@黄亿华 你好,想跟你请教个问题:webmagic是广度优先还是深度优先? …

月牙弯弯 2021-11-20 11:25:51 796 0

怎么写抓取的 html 特征节点

@黄亿华 你好,想跟你请教个问题: page.putField("intro",page.getHtml().xpath("//div[@class='left_648 top_border']/div[... 要得到图中的文字,…

眉黛浅 2021-11-20 01:11:12 866 0

请教webmagic SeleniumDownloader数据保存问题

@黄亿华 你好,想跟你请教个问题: 我想爬取一个网站,是瀑布流的,现在下载了webmagic,copy了你写的花瓣雨例子运行,代码如下: import us.codecra…

英雄似剑 2021-11-19 20:43:50 368 0

code error 403

請求這是為什麽? FilePipeline filePipeline = new FilePipeline("F://webmagic//"); Spider.create(                 new SimplePageProcessor("ht…

你曾走过我的故事 2021-11-19 14:10:49 360 0

webmagic持久化

@黄亿华 你好,请教个问题:webmagic 如何让实现持久化,jobhunter这个实例运行不了啊? …

反话 2021-11-19 12:45:49 855 0

webmagic中怎么实现把垂直搜到的所有信息输出到一个文件内

@黄亿华 你好,想跟你请教个问题:现在FilePipeline只支持一种输出方式,可以自定义输出文件类型吗?比如输出到txt? …

终遇你 2021-11-19 10:57:54 15 0

webmagic 如何使用xpath获取 <a>的内部值

@黄亿华 刚开始接触爬虫,请教一个简单的问题:在使用webmagic 时 page.putField("title", page.getHtml().xpath("/html/body/table[5]/tbody/tr[5]/…

等你爱我 2021-11-18 14:33:47 890 0

请教HttpClientDownloader类的问题

@黄亿华 黄大,今天在用webmagic时,仔细读了一下HttpClientDownloader源码,发现通过Site#addCookie()设置的cookie在HttpClientDownloader中没有用…

筱果果 2021-11-18 12:50:06 732 0
更多

推荐作者

苦中寻乐

文章 0 评论 0

lueluelue

文章 0 评论 0

嗼ふ静

文章 0 评论 0

王权女流氓

文章 0 评论 0

与花如笺

文章 0 评论 0

残酷

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文