文章来源于网络收集而来，版权归原创者所有，如有侵权请及时联系！

第1单元数据分析步骤

发布于 2024-01-28 22:01:16 字数 1399 浏览 0 评论 0 收藏 0

常见的数据分析研究步骤通常与一般的科学发现顺序一致。

数据科学发现从要解决的问题和要应用的分析方式开始。最简单的分析类型是描述性的，通常使用一种可视化的形式给出数据集总量的描述。不论你接下来打算做什么，至少需要描述一下数据！在探索性数据分析的过程中，你需要尝试找出现有变量之间的相互关系。基于统计的推断分析可以帮助你利用手头上少量的数据样本，对更大的群体进行描述。预测分析是从过去的规律中预测未来。因果分析能找出相互影响的变量。最后，机制性数据分析准确揭示了一个变量如何影响另一个变量。

然而，分析结果的好坏依赖于数据的质量，因此引出了如下问题：什么样的数据集是理想的呢？在理想情况下，什么样的数据能够解决问题呢？另外，理想的数据集可能根本就不存在，或者是很难甚至不可能获取。对于这种情况，一个较小的或者特征不那么丰富的数据集还依然有用吗？

幸运的是，从Web或数据库获取原始数据并不难，有大量基于Python的工具可用于下载和解析这些数据。你可以在第2单元（“数据获取途径”）中进一步了解这些工具。

应该注意到，完美的数据是不存在的。难免会遇到有丢失值、异常值和其他“非标准”项的“脏”数据。“脏”数据的例子包括：未来的出生日期、负年龄和负体重，以及不合理的电子邮件地址（noreply@）。因此，一旦获得了原始数据，接下来就是使用数据清洗工具和统计知识来正则化数据集。

完成上述处理后，就可以使用干净的数据，开展描述性和探索性分析。这一步的成果通常包括散点图（参考第44单元）、直方图和统计总结（参考第46单元）。它们赋予了你对数据独有的感觉——这是一种在后续研究中不可或缺的对数据集（尤其是针对多维数据集）的直观认识。

现在离实现预测只有一步之遥了。你手中的数据模型工具，在经过恰当的训练后，就可以实现预测功能。值得注意的是，不能忽视对模型的质量及其预测精度的评估！

至此，你可以摘掉统计学家和程序员的帽子，换上一顶领域专家的帽子了。你已经得到了一些成果，但它们称得上是领域内的重要成果吗？换句话说，是否有人关心这些成果，还有，这些成果带来了什么不一样的认知？设想一下，你被聘用为一名评论员，来评价自己的工作。你做的哪些是正确的，哪些是错误的？如果再给你一次机会，哪些工作你能做得更好或者不同？你是否会使用不同的数据，作出不同类型的分析，提出不同的问题，抑或建立一个不同的模型？一定有人会提出这些问题。提前进行思考，对你是大有裨益的。当你还沉浸在这些字里行间时，寻觅答案的征程已然开始。

最后，你必须完成一个报告，说明你处理数据的方式及理由、建立了什么模型、可能得出什么结论、可能作出什么预测。本章末尾（第3单元）讲解了报告的结构。

作为一本数据科学领域的Python手册，本书的重点是典型数据分析步骤中早期的、最随意，同时也是最有创意的部分：数据的获取、清洗、组织和分级。本书几乎不涉及数据建模的内容，包括预测数据的建模。（当然，完全抛开数据建模是不合理的，毕竟这是魔法的真正所在！）一般来说，结果解释、质疑和报告非常依赖于特定的领域，这些内容可在专门的教材中找到。

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

列表为空，暂无数据

第1单元 数据分析步骤

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

第1单元数据分析步骤

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。