java css 选择器的问题
网站是https://gongshang.mingluji.com/beijing/name/三眼科技(北京)有限公司String PostCode = DoucumentIns.selectFirst("li:first-child span[cl…
帮忙看看一个python爬虫问题,beautifulsoup返回空列表
网页结构如图,bs = BeautifulSoup(html,"html.parser")house_list = bs.select("#content > div.leftContent > ul > li:nth-child(1) > div.info.cle…
java css 选择器的问题
目标网址:view-source:https://gongshang.mingluji.co...我是想把这里面的公司直接提取到字符串数组保存的时间格式可以吗?但是我找到的方法都都是通…
用爬虫爬取的数据,存下来的是字典嵌套列表,存的json文件,现在想把字典嵌套列表的格式改成标准的json格式,把列表变成字符串
这是最初的json文件,想把它转换成以下这种{‘name’:'张三','phone':1111111111,'title':'中国'}如果有大神可以把里面的换行符和回车符去掉那就更好…
java 格式化报错
报错如下D:\javasoftware\jdk\bin\java.exe "-javaagent:D:\loading software\IntelliJ IDEA 2020.2.3\lib\idea_rt.jar=62089:D:\loading software\In…
java 爬虫代码优化
package com.company; import org.apache.http.client.methods.CloseableHttpResponse; import org.apache.http.client.methods.HttpGet; import org.…
java 爬虫 css 问题
我用css 爬这个公司名字为啥不对?String CompanyName = document.selectFirst("span[class='field-item'] span[itemprop='name']").text();我这个css…
nodejs读取本地html文件并快速获取dom内容的工具 ?
目的:读取本地html文件,获取页面表格内容并将其输出成对应的md写法虽然纯靠正则匹配可以实现,但这逻辑较为复杂,有没有工具可以复用呢?html文件是…
java 爬虫 发送请求
HttpGet httpGet = new HttpGet(url); httpGet.setHeader("User-Agent", "Mozilla/5.0(Windows NT 6.1;Win64; x64; rv:50.0) Gecko/20100101 Firefox/…
java 爬虫报错 ,网站meta不匹配如何解析?
Document document; ReponseBody =mingspider.getrequestdata("https://gongshang.mingluji.com/beijing/diqu/%E4%B8%9C%E5%9F%8E"); System.out.prin…