3.13 本章小结
内容小结:本章介绍了11条有关数据化运营过程中的数据预处理经验,涵盖了常见的数据清洗、标志转换、数据降维、样本不均衡、数据源冲突、抽样、共线性、相关性分析、数据标准化、数据离散化等内容,并在最后提出了运营业务对于数据处理的影响和应对措施。在扩展内容中简单介绍了有关网页、日志、图像、自然语言的文本预处理工作。本章涉及技术的部分都有对应示例代码,这些代码可在“附件-chapter3”文件夹中的名为chapter3_code.py的文件中找到。
重点知识:客观上讲,本章的每一节内容都非常重要,原因是所有的内容都没有唯一答案,都需要读者根据不同的场景进行判别,然后选择最合适的方法进行处理。因此,掌握每种方法的适用条件以及如何辨别其应用前提是关键。
外部参考:限于篇幅,本书涉及很多内容无法一一展开介绍,以下给出更多外部参考资源供读者学习:
Python第三方库imblearn提供了非常多的样本不均衡处理方法,尤其是SMOTE、组合、集成方法的应用。读者可在https://github.com/scikit-learn-contrib/imbalanced-learn中找到更多信息。
本书中多次引用了Sklearn中的processing库,里面还有许多有关数据处理的方法,读者可查阅http://scikit-learn.org/stable/modules/preprocessing.html进一步了解。
关于数据的预处理,Pandas库真的非常好用,推荐读者深入了解和学习,点击http://pandas.pydata.org/pandas-docs/stable/可查看更多。
应用实践:本章几乎每个小节都带有示例代码,读者可直接使用附件中的示例数据进行模拟操作,以了解实现方法;同时,推荐读者从自己所在环境中找到一些真实数据,针对每个模块进行操作练习。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论