第 9 页 - 网页爬虫

投稿关注

网页爬虫

文章 1.0k 浏览 268

在html代码中 python利用正则表达式提取数据问题

在下面这段html中，怎么利用正则表达式把“（SJ顺丰 051131145456）”中的单号“051131145456”提取出来，注意单号前有一个空格，单号长度不定，但是…

自演自醉 2022-09-12 01:27:04 19 0

python关于列表生成式的内存占用问题

今天爬虫遇到个很奇怪的问题，整个测试大致是这样的：采用scrapy shell测试： scrapy shell -s USER_AGENT="Mozilla/5.0 (Windows NT 10.0; Win64; …

九厘米的零° 2022-09-12 01:23:37 18 0

node如何生成字体文件？

我现在有一个全量的字体文件，我现在希望分割出一个小的字体文件，只包含个别字。有什么类库可以实现吗? 基于上个需求，想做字体混淆。比如说我想把…

安人多梦 2022-09-12 01:23:04 13 0

图像转字符画报错 'Image' object has no attribute 'getpixe' 请求指导一下新人

代码:# -*- coding=utf-8 -*- from PIL import Image import argparse parser=argparse.ArgumentParser() parser.add_argument('--file', default='1…

贵在坚持 2022-09-12 01:20:42 12 0

vuepress搭建的站点，如何把内容保存下来？

想保存下来，除了直接ctrl+S，或者复制网页内容外，还有其他什么高效的方法吗？…

溺深海 2022-09-12 01:19:47 19 0

python在内存中的字典数据如何逐个写入本地文件中？

萌新请教下：python如何将内存中字典数据逐个追加到json文件中的列表之中，不是一次性将列表写入json。如图：实际情况：就是我在爬取网站信息时，每…

蓝颜夕 2022-09-12 01:19:25 11 0

scrapy shell通过列表生成式未得到正确的结果，与单独测试不一致

过程今天用 scrapy shell 做爬虫测试的时候，列表生成式语法 [x for x in x_s if x != ""] 的结果和单独测试的结果不一致，让我出乎意料。如下图：…

很糊涂小朋友 2022-09-12 01:18:31 19 0

python中如何快速删json文件中指定的数据

如图所示，要如何一次性删除所有的 "explanation":与 "more": 其它的保留 json = open(r'./word.json', 'r') …

孤星 2022-09-12 01:17:24 15 0

python用代码下载文件文件大小为0或只有2KB怎么解决？

代码1： #!/usr/bin/env python # coding=utf-8 #import importlib,sys #import sys #sys.setdefaultencoding('gbk') '''import sys import imp impo…

我一向站在原地 2022-09-12 01:16:12 17 0

selenium如何设置代理ip？

爬虫萌新一枚，最近在用selenium作动态页面的处理，但是时间久了会遇到被禁止访问的情况，在网上找了一些设置selenium代理的资料，每个都尝试了，但…

逐鹿 2022-09-12 01:15:46 17 0

pyquery怎么获取到多个span标签的第一个内容？

问题：获取多个相同类型的span标签的内容,如图(框注内容)，仅仅只是想要第一个 .title 的 text() ,后面的title都不想要。(注:不用xpath,仅pyquery)尝…

海夕 2022-09-12 01:15:03 17 0

正则求助：正在表达式怎么匹配一个字符串中满足特定格式的字符串

数据：AA AaaAa AkkAa BnnAl Am An我的正则 :([A-Z][a-z]*\s)+这样会匹配到AA AaaAa AKKAa BnnAl Am An但是我希望只匹配到 : Aa BnnAl Am An类似这样…

夜血缘 2022-09-12 01:11:34 12 0

content样式内容如何抓取？

某网站数据是写在css中的content样式，class名是根据js动态生成出来的。例如: ::before .aa_bb_asdasfasd::before{ content: "99.99"; } 求问有什么…

无人问我粥可暖 2022-09-12 01:10:42 24 0

python pandas排序问题

原始数据的excel表格，如下图想用python的pandas把excel变成按相同地点和按相同地点的数量由大到小排序，如下图 …

吾家有女初长成 2022-09-12 01:06:56 23 0

爬虫抓下来的数据，按日期增量更新，应该怎样写入MongoDB？

如题，在写一个爬虫，其中基本信息是固定的，然后数据是按照日期不断变化。因为刚接触数据库，不知道这样增量更新的数据类型，有没有比较快捷的写法…

瞄了个咪的 2022-09-12 01:03:19 11 0

共 68 页
上一页
7
8
9
10
11
下一页

友情链接

文江博客