Python Dataframe合并问题
用Pandas读取一个七百万条记录的微博爬虫文件,大小约1G。直接读入内存不足,于是采用chunksize=100000来分批读取。每个chunk的数据处理后得到count…
Pandas完成excel中文字替换 决策树
刚开始用Pandas,想做一个ID3的决策树,首先需要把表中的非量化值以数字形式展示,表如下: 想把“预习程度”字段用-1,0,1来表示一般、好和差,学习…
用python selenium抓取携程信息
最近在学习selenium,遇到一个很奇怪的问题,debug了半天还是没弄明白,我是在测试抓取携程网站的机票信息 我的代码: # -*- coding: utf-8 -*- from…
python使用pandas的交叉表crosstab出现问题
对数据分析时使用到pandas,下面的代码是从数据库中获取数据再转换成DataFrame结构 sql = 'select * from content;' cur.execute(sql) rows = cur.fe…
Python scrapy 高手看过来
我现在有一个初始网址获得网页内容是: http://a.com/q=boy&alias=aps ["boy",["boys clothes","boys shoes","boys toys","boys socks","boyfriend g…
使用pandas从一个csv文件中筛选部分数据,求高效率方法
两个csv文件(1.csv 2.csv),第一个有 100万行数据左右,第二个30万行数据,它们有两个相同的列标,我想同时匹配这两列字符串,如果1的这两个字符串和2…