通过python加载网站内容

发布于 2024-10-25 22:13:17 字数 62 浏览 1 评论 0原文

如何通过python从网站加载特定内容?例如,我想加载博客的一些帖子并将它们显示到我自己的网站上。我该怎么做?

How can i load a specific content from a website through python?For example,i want to load some posts of a blog and appear them to my own site.How can i do this?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

反话 2024-11-01 22:13:18

答案:

import urllib2
from BeautifulSoup import BeautifulSoup

def fetchtags(req, name, attrs, num):
        try:
            website = urllib2.urlopen(req)
        except urllib2.HTTPError, e:
            print 'A problem occured. Please try again.'
            return
        soup = BeautifulSoup(website,
                             convertEntities=BeautifulSoup.HTML_ENTITIES)
        tags = soup.findAll(name=name,
                            attrs=attrs,
                            limit=num)
        return tags

然后你可以像这样使用它:

fetchtags('http://www.website.com', 'div', {'class':'c'}, 10)

从指定的url获取c类的10个div...

有关返回对象的更多详细信息,请参阅Beautiful Soup。

An answer:

import urllib2
from BeautifulSoup import BeautifulSoup

def fetchtags(req, name, attrs, num):
        try:
            website = urllib2.urlopen(req)
        except urllib2.HTTPError, e:
            print 'A problem occured. Please try again.'
            return
        soup = BeautifulSoup(website,
                             convertEntities=BeautifulSoup.HTML_ENTITIES)
        tags = soup.findAll(name=name,
                            attrs=attrs,
                            limit=num)
        return tags

Then you can use it like:

fetchtags('http://www.website.com', 'div', {'class':'c'}, 10)

To get 10 divs of class c from the specified url...

See Beautiful Soup for more details on the returned object.

草莓味的萝莉 2024-11-01 22:13:18

urlliburllib2 将允许您加载原始 HTML。 HTML 解析器(例如 BeautifulSoup 和 lxml)将允许您解析原始 HTML,以便您可以获取您关心的部分。 Mako、Cheetah 等模板引擎可以让您生成 HTML,以便您可以显示网页。

urllib and urllib2 will let you load the raw HTML. HTML parsers such as BeautifulSoup and lxml will let you parse the raw HTML so you can get at the sections you care about. Template engines such as Mako, Cheetah, etc. will let you generate HTML so that you can have web pages to display.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文