当前位置：文江博客话题详情

Python python3.5

请问我的python小爬虫代码应该怎么做优化？

发布于 2022-09-04 02:48:15 字数 1031 浏览 14 评论 0

新入门做的一个爬取文段程序，代码看起来比较臃肿，请问有没有什么好的建议呢？

另外我准备在for循环末尾把数据插入mysql数据库，这样做好吗，还是说再弄一个for循环，第一个for循环把数据存进二维列表里，第二个循环再逐条插入数据呢？

#-*- coding:utf-8 -*-
import re
from pyquery import PyQuery as pq
import time

#过滤html标签
def stripTag(x):
    return re.sub('<(.*?)>','',str(x))

#转换时间戳
def timeStamp(x):
    return time.mktime(time.strptime(x,'%Y-%m-%d %H:%M'))

#获取网页局部源码
d = pq(url='http://www.juexiang.com/list/1017')
d = pq(d('.left').html())
x = d('div.arttitle')

#匹配时间格式
pattern = re.compile(r"[0-9]{4}(.*)[0-9]{2}")

#for循环获取标题、作者、时间
for i in x:
    a = pq(pq(i).html())
    title = stripTag(pq(a('a').eq(0).text()))
    author = stripTag(pq(a('a').eq(1).text()))
    time1 = str(pq(a('span').eq(2).text()))
    time1 = timeStamp((pattern.search(time1)).group())
    print(title,'\t',author,'\t',time1,'\n')

这是print的部分结果：title-author-time

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（1）

来日方长 2022-09-11 02:48:15

如果还在for循环里添加数据库操作，那代码看起来就很丑了，其实每一部分都可以分成函数或建类来处理，
比如
1.获取网页内容和过滤html标签可以建一个函数

def get_page(url):
    pass

2.获取时间戳和转换时间戳可以合并在一个函数中

def handld_time():
    pass

3.获取标题、作者、时间可用一个函数处理

def get_article_content():
    pass

这样函数可以复用，并且调用起来十分方便灵活，因为这只是一个小程序，用几个函数重构就可以达到效果了

~没有更多了~

关于作者

暂无简介

0 文章

0 评论

21 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

lioqio

文章 0 评论 0

Single

文章 0 评论 0

禾厶谷欠

文章 0 评论 0

alipaysp_2zg8elfGgC

文章 0 评论 0

qq_N6d4X7

文章 0 评论 0

放低过去

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文