- 第01课:初识 Python
- 第02课:第一个 Python 程序
- 第03课:Python 语言元素之变量
- 第04课:Python 语言元素之运算符
- 第05课:分支结构
- 第06课:循环结构
- 第07课:分支和循环结构的应用
- 第08课:常用数据结构之列表
- 第09课:常用数据结构之元组
- 第10课:常用数据结构之字符串
- 第11课:常用数据结构之集合
- 第12课:常用数据结构之字典
- 第13课:函数和模块
- 第14课:函数的应用
- 第15课:函数使用进阶
- 第16课:函数的高级应用
- 第17课:面向对象编程入门
- 第18课:面向对象编程进阶
- 第19课:面向对象编程应用
- 第20课:Python 标准库初探
- 第21课:文件读写和异常处理
- 第22课:对象的序列化和反序列化
- 第23课:用 Python 读写 CSV 文件
- 第24课:用 Python 读写 Excel 文件-1
- 第25课:用 Python 读写 Excel 文件-2
- 第26课:用 Python 操作 Word 文件和 PowerPoint
- 第27课:用 Python 操作 PDF 文件
- 第28课:用 Python 处理图像
- 第29课:用 Python 发送邮件和短信
- 第30课:正则表达式的应用
- 第31课:网络数据采集概述
- 第32课:用 Python 获取网络资源
- 第33课:用 Python 解析 HTML 页面
- 第34课:Python 中的并发编程-1
- 第35课:Python 中的并发编程-2
- 第36课:Python 中的并发编程-3
- 第37课:并发编程在爬虫中的应用
- 第38课:抓取网页动态内容
- 第39课:爬虫框架 Scrapy 简介
- 第40课:关系型数据库和 MySQL 概述
- 第41课:SQL 详解之 DDL
- 第42课:SQL 详解之 DML
- 第43课:SQL 详解之 DQL
- 第44课:SQL 详解之 DCL
- 第45课:索引
- 第46课:视图 + 函数 + 过程
- 第47课:MySQL 新特性
- 第48课:Python 程序接入 MySQL 数据库
第24课:用 Python 读写 Excel 文件-1
第24课:用Python读写Excel文件-1
Excel简介
Excel是Microsoft(微软)为使用Windows和macOS操作系统开发的一款电子表格软件。Excel凭借其直观的界面、出色的计算功能和图表工具,再加上成功的市场营销,一直以来都是最为流行的个人计算机数据处理软件。当然,Excel也有很多竞品,例如Google Sheets、LibreOffice Calc、Numbers等,这些竞品基本上也能够兼容Excel,至少能够读写较新版本的Excel文件,当然这些不是我们讨论的重点。掌握用Python程序操作Excel文件,可以让日常办公自动化的工作更加轻松愉快,而且在很多商业项目中,导入导出Excel文件都是特别常见的功能。
Python操作Excel需要三方库的支持,如果要兼容Excel 2007以前的版本,也就是xls
格式的Excel文件,可以使用三方库xlrd
和xlwt
,前者用于读Excel文件,后者用于写Excel文件。如果使用较新版本的Excel,即操作xlsx
格式的Excel文件,可以使用openpyxl
库,当然这个库不仅仅可以操作Excel,还可以操作其他基于Office Open XML的电子表格文件。
本章我们先讲解基于xlwt
和xlrd
操作Excel文件,大家可以先使用下面的命令安装这两个三方库以及配合使用的工具模块xlutils
。
pip install xlwt xlrd xlutils
读Excel文件
例如在当前文件夹下有一个名为“阿里巴巴2020年股票数据.xls”的Excel文件,如果想读取并显示该文件的内容,可以通过如下所示的代码来完成。
import xlrd
# 使用xlrd模块的open_workbook函数打开指定Excel文件并获得Book对象(工作簿)
wb = xlrd.open_workbook('阿里巴巴2020年股票数据.xls')
# 通过Book对象的sheet_names方法可以获取所有表单名称
sheetnames = wb.sheet_names()
print(sheetnames)
# 通过指定的表单名称获取Sheet对象(工作表)
sheet = wb.sheet_by_name(sheetnames[0])
# 通过Sheet对象的nrows和ncols属性获取表单的行数和列数
print(sheet.nrows, sheet.ncols)
for row in range(sheet.nrows):
for col in range(sheet.ncols):
# 通过Sheet对象的cell方法获取指定Cell对象(单元格)
# 通过Cell对象的value属性获取单元格中的值
value = sheet.cell(row, col).value
# 对除首行外的其他行进行数据格式化处理
if row > 0:
# 第1列的xldate类型先转成元组再格式化为“年月日”的格式
if col == 0:
# xldate_as_tuple函数的第二个参数只有0和1两个取值
# 其中0代表以1900-01-01为基准的日期,1代表以1904-01-01为基准的日期
value = xlrd.xldate_as_tuple(value, 0)
value = f'{value[0]}年{value[1]:>02d}月{value[2]:>02d}日'
# 其他列的number类型处理成小数点后保留两位有效数字的浮点数
else:
value = f'{value:.2f}'
print(value, end='\t')
print()
# 获取最后一个单元格的数据类型
# 0 - 空值,1 - 字符串,2 - 数字,3 - 日期,4 - 布尔,5 - 错误
last_cell_type = sheet.cell_type(sheet.nrows - 1, sheet.ncols - 1)
print(last_cell_type)
# 获取第一行的值(列表)
print(sheet.row_values(0))
# 获取指定行指定列范围的数据(列表)
# 第一个参数代表行索引,第二个和第三个参数代表列的开始(含)和结束(不含)索引
print(sheet.row_slice(3, 0, 5))
提示:上面代码中使用的Excel文件“阿里巴巴2020年股票数据.xls”可以通过后面的百度云盘地址进行获取。链接:https://pan.baidu.com/s/1rQujl5RQn9R7PadB2Z5g_g 提取码:e7b4。
相信通过上面的代码,大家已经了解到了如何读取一个Excel文件,如果想知道更多关于xlrd
模块的知识,可以阅读它的官方文档。
写Excel文件
写入Excel文件可以通过xlwt
模块的Workbook
类创建工作簿对象,通过工作簿对象的add_sheet
方法可以添加工作表,通过工作表对象的write
方法可以向指定单元格中写入数据,最后通过工作簿对象的save
方法将工作簿写入到指定的文件或内存中。下面的代码实现了将5
个学生3
门课程的考试成绩写入Excel文件的操作。
import random
import xlwt
student_names = ['关羽', '张飞', '赵云', '马超', '黄忠']
scores = [[random.randrange(50, 101) for _ in range(3)] for _ in range(5)]
# 创建工作簿对象(Workbook)
wb = xlwt.Workbook()
# 创建工作表对象(Worksheet)
sheet = wb.add_sheet('一年级二班')
# 添加表头数据
titles = ('姓名', '语文', '数学', '英语')
for index, title in enumerate(titles):
sheet.write(0, index, title)
# 将学生姓名和考试成绩写入单元格
for row in range(len(scores)):
sheet.write(row + 1, 0, student_names[row])
for col in range(len(scores[row])):
sheet.write(row + 1, col + 1, scores[row][col])
# 保存Excel工作簿
wb.save('考试成绩表.xls')
调整单元格样式
在写Excel文件时,我们还可以为单元格设置样式,主要包括字体(Font)、对齐方式(Alignment)、边框(Border)和背景(Background)的设置,xlwt
对这几项设置都封装了对应的类来支持。要设置单元格样式需要首先创建一个XFStyle
对象,再通过该对象的属性对字体、对齐方式、边框等进行设定,例如在上面的例子中,如果希望将表头单元格的背景色修改为黄色,可以按照如下的方式进行操作。
header_style = xlwt.XFStyle()
pattern = xlwt.Pattern()
pattern.pattern = xlwt.Pattern.SOLID_PATTERN
# 0 - 黑色、1 - 白色、2 - 红色、3 - 绿色、4 - 蓝色、5 - 黄色、6 - 粉色、7 - 青色
pattern.pattern_fore_colour = 5
header_style.pattern = pattern
titles = ('姓名', '语文', '数学', '英语')
for index, title in enumerate(titles):
sheet.write(0, index, title, header_style)
如果希望为表头设置指定的字体,可以使用Font
类并添加如下所示的代码。
font = xlwt.Font()
# 字体名称
font.name = '华文楷体'
# 字体大小(20是基准单位,18表示18px)
font.height = 20 * 18
# 是否使用粗体
font.bold = True
# 是否使用斜体
font.italic = False
# 字体颜色
font.colour_index = 1
header_style.font = font
注意:上面代码中指定的字体名(
font.name
)应当是本地系统有的字体,例如在我的电脑上有名为“华文楷体”的字体。
如果希望表头垂直居中对齐,可以使用下面的代码进行设置。
align = xlwt.Alignment()
# 垂直方向的对齐方式
align.vert = xlwt.Alignment.VERT_CENTER
# 水平方向的对齐方式
align.horz = xlwt.Alignment.HORZ_CENTER
header_style.alignment = align
如果希望给表头加上黄色的虚线边框,可以使用下面的代码来设置。
borders = xlwt.Borders()
props = (
('top', 'top_colour'), ('right', 'right_colour'),
('bottom', 'bottom_colour'), ('left', 'left_colour')
)
# 通过循环对四个方向的边框样式及颜色进行设定
for position, color in props:
# 使用setattr内置函数动态给对象指定的属性赋值
setattr(borders, position, xlwt.Borders.DASHED)
setattr(borders, color, 5)
header_style.borders = borders
如果要调整单元格的宽度(列宽)和表头的高度(行高),可以按照下面的代码进行操作。
# 设置行高为40px
sheet.row(0).set_style(xlwt.easyxf(f'font:height {20 * 40}'))
titles = ('姓名', '语文', '数学', '英语')
for index, title in enumerate(titles):
# 设置列宽为200px
sheet.col(index).width = 20 * 200
# 设置单元格的数据和样式
sheet.write(0, index, title, header_style)
公式计算
对于前面打开的“阿里巴巴2020年股票数据.xls”文件,如果要统计全年收盘价(Close字段)的平均值以及全年交易量(Volume字段)的总和,可以使用Excel的公式计算即可。我们可以先使用xlrd
读取Excel文件夹,然后通过xlutils
三方库提供的copy
函数将读取到的Excel文件转成Workbook
对象进行写操作,在调用write
方法时,可以将一个Formula
对象写入单元格。
实现公式计算的代码如下所示。
import xlrd
import xlwt
from xlutils.copy import copy
wb_for_read = xlrd.open_workbook('阿里巴巴2020年股票数据.xls')
sheet1 = wb_for_read.sheet_by_index(0)
nrows, ncols = sheet1.nrows, sheet1.ncols
wb_for_write = copy(wb_for_read)
sheet2 = wb_for_write.get_sheet(0)
sheet2.write(nrows, 4, xlwt.Formula(f'average(E2:E{nrows})'))
sheet2.write(nrows, 6, xlwt.Formula(f'sum(G2:G{nrows})'))
wb_for_write.save('阿里巴巴2020年股票数据汇总.xls')
说明:上面的代码有一些小瑕疵,有兴趣的读者可以自行探索并思考如何解决。
简单的总结
掌握了Python程序操作Excel的方法,可以解决日常办公中很多繁琐的处理Excel电子表格工作,最常见就是将多个数据格式相同的Excel文件合并到一个文件以及从多个Excel文件或表单中提取指定的数据。当然,如果要对表格数据进行处理,使用Python数据分析神器之一的pandas
库可能更为方便。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论