返回介绍

1.数据清洗

发布于 2024-01-28 21:41:24 字数 1068 浏览 0 评论 0 收藏 0

从探索分析的过程中发现与分析目标无关的数据,归纳总结其数据满足如下规则:中间页面的网址、咨询发布成功页面、律师登录助手的页面等。将其整理成删除数据的规则,其清洗的结果见表12-16。从表中可以发现,律师用户信息占了所有记录中的22%左右。其他类型的数据,占比很小,大概5%左右。

表12-16 规则清洗表

经过上述数据清洗后的记录中仍然存在大量的目录网页(可理解为用户浏览信息的路径),在进入推荐系统时,这些信息的作用不大,反而会影响推荐的结果,因此需要进一步筛选以html为后缀的网页。根据分析目标以及探索结果可知,咨询与知识是其主要业务来源,故需筛选咨询与知识相关的记录,将此部分数据作为模型分析需要的数据。

针对数据进行清洗操作,Python实现的代码例子(部分)如代码清单12-5所示。

代码清单12-5 Python访问MariaDB(MySQL)数据库进行清洗操作

import pandas as pd
from sqlalchemy import create_engine
engine = create_engine('mysql+pymysql://root:123456@127.0.0.1:3306/test?charset=utf8')
sql = pd.read_sql('all_gzdata', engine, chunksize = 10000)
for i in sql:
  d = i[['realIP', 'fullURL']] #只要网址列
  d = d[d['fullURL'].str.contains('\.html')].copy() #只要含有.html的网址
  #保存到数据库的cleaned_gzdata表中(如果表不存在则自动创建)
  d.to_sql('cleaned_gzdata', engine, index = False, if_exists = 'append')

代码详见:demo/code/sql_clean_save.py

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文