第1单元 数据分析步骤
常见的数据分析研究步骤通常与一般的科学发现顺序一致。
数据科学发现从要解决的问题和要应用的分析方式开始。最简单的分析类型是描述性的,通常使用一种可视化的形式给出数据集总量的描述。不论你接下来打算做什么,至少需要描述一下数据!在探索性数据分析的过程中,你需要尝试找出现有变量之间的相互关系。基于统计的推断分析可以帮助你利用手头上少量的数据样本,对更大的群体进行描述。预测分析是从过去的规律中预测未来。因果分析能找出相互影响的变量。最后,机制性数据分析准确揭示了一个变量如何影响另一个变量。
然而,分析结果的好坏依赖于数据的质量,因此引出了如下问题:什么样的数据集是理想的呢?在理想情况下,什么样的数据能够解决问题呢?另外,理想的数据集可能根本就不存在,或者是很难甚至不可能获取。对于这种情况,一个较小的或者特征不那么丰富的数据集还依然有用吗?
幸运的是,从Web或数据库获取原始数据并不难,有大量基于Python的工具可用于下载和解析这些数据。你可以在第2单元(“数据获取途径”)中进一步了解这些工具。
应该注意到,完美的数据是不存在的。难免会遇到有丢失值、异常值和其他“非标准”项的“脏”数据。“脏”数据的例子包括:未来的出生日期、负年龄和负体重,以及不合理的电子邮件地址(noreply@)。因此,一旦获得了原始数据,接下来就是使用数据清洗工具和统计知识来正则化数据集。
完成上述处理后,就可以使用干净的数据,开展描述性和探索性分析。这一步的成果通常包括散点图(参考第44单元)、直方图和统计总结(参考第46单元)。它们赋予了你对数据独有的感觉——这是一种在后续研究中不可或缺的对数据集(尤其是针对多维数据集)的直观认识。
现在离实现预测只有一步之遥了。你手中的数据模型工具,在经过恰当的训练后,就可以实现预测功能。值得注意的是,不能忽视对模型的质量及其预测精度的评估!
至此,你可以摘掉统计学家和程序员的帽子,换上一顶领域专家的帽子了。你已经得到了一些成果,但它们称得上是领域内的重要成果吗?换句话说,是否有人关心这些成果,还有,这些成果带来了什么不一样的认知?设想一下,你被聘用为一名评论员,来评价自己的工作。你做的哪些是正确的,哪些是错误的?如果再给你一次机会,哪些工作你能做得更好或者不同?你是否会使用不同的数据,作出不同类型的分析,提出不同的问题,抑或建立一个不同的模型?一定有人会提出这些问题。提前进行思考,对你是大有裨益的。当你还沉浸在这些字里行间时,寻觅答案的征程已然开始。
最后,你必须完成一个报告,说明你处理数据的方式及理由、建立了什么模型、可能得出什么结论、可能作出什么预测。本章末尾(第3单元)讲解了报告的结构。
作为一本数据科学领域的Python手册,本书的重点是典型数据分析步骤中早期的、最随意,同时也是最有创意的部分:数据的获取、清洗、组织和分级。本书几乎不涉及数据建模的内容,包括预测数据的建模。(当然,完全抛开数据建模是不合理的,毕竟这是魔法的真正所在!)一般来说,结果解释、质疑和报告非常依赖于特定的领域,这些内容可在专门的教材中找到。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论