第 2 章 CSV 文件
CSV(comma-separated value,逗号分隔值)文件格式是一种非常简单的数据存储与分享方式。CSV 文件将数据表格存储为纯文本,表格(或电子表格)中的每个单元格都是一个数值或字符串。与 Excel 文件相比,CSV 文件的一个主要优点是有很多程序可以存储、转换和处理纯文本文件;相比之下,能够处理 Excel 文件的程序却不多。所有电子表格程序、文字处理程序或简单的文本编辑器都可以处理纯文本文件,但不是所有的程序都能处理 Excel 文件。尽管 Excel 是一个功能非常强大的工具,但是当你使用 Excel 文件时,还是会被局限在 Excel 提供的功能范围内。CSV 文件则为你提供了非常大的自由,使你在完成任务的时候可以选择合适的工具来处理数据——如果没有现成的工具,那就使用 Python 自己开发一个!
当你使用 CSV 文件时,确实会失去某些 Excel 功能:在 Excel 电子表格中,每个单元格都有一个定义好的“类型”(数值、文本、货币、日期等),CSV 文件中的单元格则只是原始数据。幸好,Python 在识别不同数据类型方面相当聪明,第 1 章中已经展示了这一点。使用 CSV 文件的另一个问题是它只能保存数据,不能保存公式。但是,通过将数据存储(CSV 文件)和数据处理(Python 脚本)分离,你可以很容易地在不同数据集上进行加工处理。当数据存储和数据处理过程分开进行时,错误(不管是数据处理中的错误,还是数据存储中的错误)不但更容易被发现,而且更难扩散。
要使用 CSV 文件开始工作,需要先创建一个 CSV 文件,你可以从以下地址(https://github.com/cbrownley/foundations-for-analytics-with-python/blob/master/csv/supplier_data.csv)下载这个文件,步骤如下。
(1) 打开一个新的电子表格,向其中加入数据,如图 2-1 所示。
图 2-1:向 supplier_data.csv 文件中添加数据
(2) 将文件保存在桌面上,文件名为 supplier_data.csv。
要确认 supplier_data.csv 确实是纯文本文件。
(1) 将所有打开的窗口最小化,在桌面上找到 supplier_data.csv。
(2) 在文件上点击鼠标右键。
(3) 选择“Open with”,然后选择一个文本编辑器,如 Notepad、Notepad++ 或 Sublime Text。
当你在文本编辑器中打开这个文件时,它看上去应该如图 2-2 所示。
图 2-2:Notepad 中的 supplier_data.csv 文件
正如你所看到的,这个文件是一个简单的纯文本文件。每行包含 5 个由逗号分隔的值。对这种文件的另一种理解是由逗号划定了 Excel 电子表格中的 5 列。现在你可以关闭这个文件了。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论