webmagic数抓取问题

发布于 2022-01-01 13:25:28 字数 2404 浏览 715 评论 1

@黄亿华 你好,想跟你请教个问题:在使用webmagic数据抓取过程中,发现数据有漏抓的现像。列表页600条,但在实际抓取的过程中只有抓到200多条。代码下图所示:


@TargetUrl("http://www.tuicool.com/articles/\w+")
@HelpUrl("http://www.tuicool.com/ah/0/\w+?lang=1")
public class TuiCoolBlog extends AbstractUpdatableEntity implements AfterExtractor {


    @ExtractBy(value = "//div[@class='span8 contant article_detail_bg']//h1/text()", notNull = true)
    private String article_title;

    @ExtractBy(value = "div.article_body", type = ExtractBy.Type.Css)
    private String article_content;

    @ExtractBy(value=("//span[@class='source']//a[@class='cut cut70']/text()"))
    private String article_link_url;

    @ExtractBy(value = "//span[@class='from']//a[@class='cut cut28 from']/text()")
    private String article_sourse;

    @Formatter(formatter = DateTemplateFormatter.class)
    @ExtractBy("//div[@class='article_meta']//span[@class='timestamp']/text()")
    private Date article_publish_time;

    public String getArticle_title() {
        return article_title;
    }

    public void setArticle_title(String article_title) {
        this.article_title = article_title;
    }

    public String getArticle_content() {
        return article_content;
    }

    public void setArticle_content(String article_content) {
        this.article_content = article_content;
    }

    public String getArticle_link_url() {
        return article_link_url;
    }

    public void setArticle_link_url(String article_link_url) {
        this.article_link_url = article_link_url;
    }

    public String getArticle_sourse() {
        return article_sourse;
    }

    public void setArticle_sourse(String article_sourse) {
        this.article_sourse = article_sourse;
    }

    public Date getArticle_publish_time() {
        return article_publish_time;
    }

    public void setArticle_publish_time(Date article_publish_time) {
        this.article_publish_time = article_publish_time;
    }

    public void afterProcess(Page page) {


    }


}



public class DateTemplateFormatter implements ObjectFormatter<Date> {

    public static final String[] DEFAULT_PATTERN = new String[]{"yyyy-MM-dd HH
              

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

多情癖 2022-01-07 04:54:16

你好,想请问下,数据漏抓,要怎么处理,

我设置了失败重复抓取也没用,

漏抓的数据较少,但是每次漏掉的数据都不一样,不是网页问题,

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文