第2单元 数据获取途径
数据获取涉及获得包含来自各种输入器件的数据源、从器件中提取数据,以及将其转换为适于进一步处理的表示方式,如下图所示。
数据的三个主要来源是因特网(即万维网)、数据库,以及本地文件(可能是先前手动下载或利用其他软件下载得到的)。某些本地文件可能是通过Python程序生成的,包括序列化的或“pickled”的数据(更详细的解释请参考第12单元)。
来自器件的数据格式多种多样。在后续章节中,你将接触到最流行的数据格式及其对应的数据分析方式和方法。
自然语言中的非结构化纯文本(比如英语、汉语)
结构化数据,包括:
o 逗号分隔值(CSV)文件中的表格数据
o 数据库中的表格数据
o 使用超文本标记语言(HTML)或更一般的可扩展标记语言(XML)的标记数据
o JavaScript对象表示法(JSON)中的标记数据
根据所提取数据的原始结构,以及进一步处理的目的和性质,本书示例中的数据均表示为原生的Python数据结构(列表和字典),或支持特定操作的高级数据结构(numpy中的数组和pandas中的frame数据)。
我将尽可能地呈现一个完全自动化的数据处理流程(获取、清洗和变换原始数据;描述性和探索性数据分析;数据建模和预测)。为此,我避免使用交互式GUI工具,因为GUI的处理方式很少能脚本化以实现批处理模式,且几乎不记录任何处理历史。为了提高模块化程度、可重用性和可恢复性,我会把较长的流程分解为较短的子流程,并将中间结果保存到Pickle(参考第12单元)或JSON(参考第15单元)文件中。
自动化流程自然产生了可重用的代码:一组任何人都可以执行的Python脚本。这些脚本可以将原始数据转换为报告中描述的最终结果;在理想情况下,这一过程不需要任何额外的人机交互。其他研究人员能使用可重用的代码对模型和结果进行验证,并应用你开发的程序解决他们遇到的问题。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论