文章来源于网络收集而来，版权归原创者所有，如有侵权请及时联系！

1.数据清洗

发布于 2024-01-28 21:41:24 字数 1068 浏览 0 评论 0 收藏 0

从探索分析的过程中发现与分析目标无关的数据，归纳总结其数据满足如下规则：中间页面的网址、咨询发布成功页面、律师登录助手的页面等。将其整理成删除数据的规则，其清洗的结果见表12-16。从表中可以发现，律师用户信息占了所有记录中的22%左右。其他类型的数据，占比很小，大概5%左右。

表12-16　规则清洗表

经过上述数据清洗后的记录中仍然存在大量的目录网页（可理解为用户浏览信息的路径），在进入推荐系统时，这些信息的作用不大，反而会影响推荐的结果，因此需要进一步筛选以html为后缀的网页。根据分析目标以及探索结果可知，咨询与知识是其主要业务来源，故需筛选咨询与知识相关的记录，将此部分数据作为模型分析需要的数据。

针对数据进行清洗操作，Python实现的代码例子（部分）如代码清单12-5所示。

代码清单12-5　Python访问MariaDB（MySQL）数据库进行清洗操作

import pandas as pd
from sqlalchemy import create_engine
engine = create_engine('mysql+pymysql://root:123456@127.0.0.1:3306/test?charset=utf8')
sql = pd.read_sql('all_gzdata', engine, chunksize = 10000)
for i in sql:
  d = i[['realIP', 'fullURL']] #只要网址列
  d = d[d['fullURL'].str.contains('\.html')].copy() #只要含有.html的网址
  #保存到数据库的cleaned_gzdata表中（如果表不存在则自动创建）
  d.to_sql('cleaned_gzdata', engine, index = False, if_exists = 'append')

代码详见：demo/code/sql_clean_save.py

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

列表为空，暂无数据

1.数据清洗

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。