文章来源于网络收集而来,版权归原创者所有,如有侵权请及时联系!
1.数据清洗
从探索分析的过程中发现与分析目标无关的数据,归纳总结其数据满足如下规则:中间页面的网址、咨询发布成功页面、律师登录助手的页面等。将其整理成删除数据的规则,其清洗的结果见表12-16。从表中可以发现,律师用户信息占了所有记录中的22%左右。其他类型的数据,占比很小,大概5%左右。
表12-16 规则清洗表
经过上述数据清洗后的记录中仍然存在大量的目录网页(可理解为用户浏览信息的路径),在进入推荐系统时,这些信息的作用不大,反而会影响推荐的结果,因此需要进一步筛选以html为后缀的网页。根据分析目标以及探索结果可知,咨询与知识是其主要业务来源,故需筛选咨询与知识相关的记录,将此部分数据作为模型分析需要的数据。
针对数据进行清洗操作,Python实现的代码例子(部分)如代码清单12-5所示。
代码清单12-5 Python访问MariaDB(MySQL)数据库进行清洗操作
import pandas as pd from sqlalchemy import create_engine engine = create_engine('mysql+pymysql://root:123456@127.0.0.1:3306/test?charset=utf8') sql = pd.read_sql('all_gzdata', engine, chunksize = 10000) for i in sql: d = i[['realIP', 'fullURL']] #只要网址列 d = d[d['fullURL'].str.contains('\.html')].copy() #只要含有.html的网址 #保存到数据库的cleaned_gzdata表中(如果表不存在则自动创建) d.to_sql('cleaned_gzdata', engine, index = False, if_exists = 'append')
代码详见:demo/code/sql_clean_save.py
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论