当前位置：文江博客话题详情

scrapy 跟踪大型 XML feed 链接

发布于 2024-11-07 12:29:58 字数 1566 浏览 4 评论 0原文

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

温柔嚣张 2024-11-14 12:29:58

首先阅读： http://readthedocs.org/docs/scrapy/ en/latest/intro/tutorial.html

我在 scrapy 中创建了一个项目。以下是获取该特定 XML 的所有 url 的代码。您应该使用蜘蛛目录。

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import re
from scrapy.item import BaseItem
from scrapy.spider import BaseSpider
from scrapy.selector import XmlXPathSelector
from scrapy.utils.spider import create_spider_for_request
from scrapy.utils.misc import load_object
from scrapy.utils.response import open_in_browser

class TestSpider(BaseSpider):
    name = "test"
    start_urls = ["http://fgeek.kapsi.fi/test.xml"]

    def parse(self, response):
        xpath = XmlXPathSelector(response)
        count = 0
        for url in xpath.select('entries/entry/url').extract():
            print url

First of all read: http://readthedocs.org/docs/scrapy/en/latest/intro/tutorial.html

I created a project in scrapy. Here is the code to fetch all urls of that specific XML. You should use spiders-directory.

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import re
from scrapy.item import BaseItem
from scrapy.spider import BaseSpider
from scrapy.selector import XmlXPathSelector
from scrapy.utils.spider import create_spider_for_request
from scrapy.utils.misc import load_object
from scrapy.utils.response import open_in_browser

class TestSpider(BaseSpider):
    name = "test"
    start_urls = ["http://fgeek.kapsi.fi/test.xml"]

    def parse(self, response):
        xpath = XmlXPathSelector(response)
        count = 0
        for url in xpath.select('entries/entry/url').extract():
            print url

回复收藏 0 原文

~没有更多了~

关于作者

生来就爱笑

暂无简介

0 文章

0 评论

25 人气

关注发私信

游缘惊梦

文章 0 评论 0

关注

小兔几

文章 0 评论 0

关注

Glik

文章 0 评论 0

关注

生生漫

文章 0 评论 0

关注

Luxian

文章 0 评论 0

关注

Champion-Ming

文章 0 评论 0

友情链接

文江博客

scrapy 跟踪大型 XML feed 链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

游缘惊梦

小兔几

Glik

生生漫

Luxian

Champion-Ming

友情链接

scrapy 跟踪大型 XML feed 链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

游缘惊梦

小兔几

Glik

生生漫

Luxian

Champion-Ming

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。