网页爬虫

网页爬虫

文章 1.0k 浏览 268

一个前端标签问题

https://gongshang.mingluji.com/beijing/name/朗乐迅洁(北京)科技有限责任公司 https://gongshang.mingluji.com/beijing/name/硕链科技有限公司感…

七堇年 2022-09-12 13:25:54 13 0

java css 选择器的问题

网站是https://gongshang.mingluji.com/beijing/name/三眼科技(北京)有限公司String PostCode = DoucumentIns.selectFirst("li:first-child span[cl…

看透却不说透 2022-09-12 13:23:19 11 0

帮忙看看一个python爬虫问题,beautifulsoup返回空列表

网页结构如图,bs = BeautifulSoup(html,"html.parser")house_list = bs.select("#content > div.leftContent > ul > li:nth-child(1) > div.info.cle…

热情消退 2022-09-12 13:22:05 14 0

帮们看看这个页面如何提取内容?

帮忙看看这个页面,我想提取10和2这两个数字,是在下面的,但是里面是data-class,我使用beautifulsoup的要怎么选取呢?或者用其他解析器也可以,谢谢…

羁拥 2022-09-12 13:18:55 19 0

java css 选择器的问题

目标网址:view-source:https://gongshang.mingluji.co...我是想把这里面的公司直接提取到字符串数组保存的时间格式可以吗?但是我找到的方法都都是通…

撑一把青伞 2022-09-12 13:16:34 24 0

java 泛型设计

这里的@是什么关系,和泛型设计什么关系呢?…

大海や 2022-09-12 13:16:30 12 0

用爬虫爬取的数据,存下来的是字典嵌套列表,存的json文件,现在想把字典嵌套列表的格式改成标准的json格式,把列表变成字符串

这是最初的json文件,想把它转换成以下这种{‘name’:'张三','phone':1111111111,'title':'中国'}如果有大神可以把里面的换行符和回车符去掉那就更好…

注定孤独终老 2022-09-12 13:15:54 14 0

java 格式化报错

报错如下D:\javasoftware\jdk\bin\java.exe "-javaagent:D:\loading software\IntelliJ IDEA 2020.2.3\lib\idea_rt.jar=62089:D:\loading software\In…

如梦亦如幻 2022-09-12 13:15:29 12 0

帮忙看看这样的页面如何解析?

如图,全部是构成的,里面的class都一样,而且html标签也当做内容,这样爬出来都混在一起了,比如我想抓取的是“41岁”,结果“”“=”“>”这些也都…

凡尘雨 2022-09-12 13:13:51 13 0

java 爬虫代码优化

package com.company; import org.apache.http.client.methods.CloseableHttpResponse; import org.apache.http.client.methods.HttpGet; import org.…

春夜浅 2022-09-12 13:13:15 19 0

请问这个链接里面的视频如何爬取

视频网页抓包 只发现了swf这种 请问如何抓取…

╭ゆ眷念 2022-09-12 13:12:21 19 0

java 爬虫 css 问题

我用css 爬这个公司名字为啥不对?String CompanyName = document.selectFirst("span[class='field-item'] span[itemprop='name']").text();我这个css…

西瓜 2022-09-12 13:11:38 12 0

nodejs读取本地html文件并快速获取dom内容的工具 ?

目的:读取本地html文件,获取页面表格内容并将其输出成对应的md写法虽然纯靠正则匹配可以实现,但这逻辑较为复杂,有没有工具可以复用呢?html文件是…

赠我空喜 2022-09-12 13:11:30 10 0

java 爬虫 发送请求

HttpGet httpGet = new HttpGet(url); httpGet.setHeader("User-Agent", "Mozilla/5.0(Windows NT 6.1;Win64; x64; rv:50.0) Gecko/20100101 Firefox/…

浪荡不羁 2022-09-12 13:08:12 16 0

java 爬虫报错 ,网站meta不匹配如何解析?

Document document; ReponseBody =mingspider.getrequestdata("https://gongshang.mingluji.com/beijing/diqu/%E4%B8%9C%E5%9F%8E"); System.out.prin…

万劫不复 2022-09-12 13:07:25 16 0
更多

推荐作者

已经忘了多久

文章 0 评论 0

15867725375

文章 0 评论 0

LonelySnow

文章 0 评论 0

走过海棠暮

文章 0 评论 0

轻许诺言

文章 0 评论 0

信馬由缰

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文