01. Python 工具
02. Python 基础
03. Numpy
- Numpy 简介
- Matplotlib 基础
- Numpy 数组及其索引
- 数组类型
- 数组方法
- 数组排序
- 数组形状
- 对角线
- 数组与字符串的转换
- 数组属性方法总结
- 生成数组的函数
- 矩阵
- 一般函数
- 向量化函数
- 二元运算
- ufunc 对象
- choose 函数实现条件筛选
- 数组广播机制
- 数组读写
- 结构化数组
- 记录数组
- 内存映射
- 从 Matlab 到 Numpy
04. Scipy
05. Python 进阶
- sys 模块简介
- 与操作系统进行交互:os 模块
- CSV 文件和 csv 模块
- 正则表达式和 re 模块
- datetime 模块
- SQL 数据库
- 对象关系映射
- 函数进阶:参数传递,高阶函数,lambda 匿名函数,global 变量,递归
- 迭代器
- 生成器
- with 语句和上下文管理器
- 修饰符
- 修饰符的使用
- operator, functools, itertools, toolz, fn, funcy 模块
- 作用域
- 动态编译
06. Matplotlib
- Pyplot 教程
- 使用 style 来配置 pyplot 风格
- 处理文本(基础)
- 处理文本(数学表达式)
- 图像基础
- 注释
- 标签
- figures, subplots, axes 和 ticks 对象
- 不要迷信默认设置
- 各种绘图实例
07. 使用其他语言进行扩展
- 简介
- Python 扩展模块
- Cython:Cython 基础,将源代码转换成扩展模块
- Cython:Cython 语法,调用其他C库
- Cython:class 和 cdef class,使用 C++
- Cython:Typed memoryviews
- 生成编译注释
- ctypes
08. 面向对象编程
09. Theano 基础
- Theano 简介及其安装
- Theano 基础
- Theano 在 Windows 上的配置
- Theano 符号图结构
- Theano 配置和编译模式
- Theano 条件语句
- Theano 循环:scan(详解)
- Theano 实例:线性回归
- Theano 实例:Logistic 回归
- Theano 实例:Softmax 回归
- Theano 实例:人工神经网络
- Theano 随机数流变量
- Theano 实例:更复杂的网络
- Theano 实例:卷积神经网络
- Theano tensor 模块:基础
- Theano tensor 模块:索引
- Theano tensor 模块:操作符和逐元素操作
- Theano tensor 模块:nnet 子模块
- Theano tensor 模块:conv 子模块
10. 有趣的第三方模块
11. 有用的工具
- pprint 模块:打印 Python 对象
- pickle, cPickle 模块:序列化 Python 对象
- json 模块:处理 JSON 数据
- glob 模块:文件模式匹配
- shutil 模块:高级文件操作
- gzip, zipfile, tarfile 模块:处理压缩文件
- logging 模块:记录日志
- string 模块:字符串处理
- collections 模块:更多数据结构
- requests 模块:HTTP for Human
12. Pandas
结构化数组
假设我们要保存这样的数据:
name | age | wgt | |
---|---|---|---|
0 | dan | 1 | 23.1 |
1 | ann | 0 | 25.1 |
2 | sam | 2 | 8.3 |
希望定义一个一维数组,每个元素有三个属性 name, age, wgt
,此时我们需要使用结构化数组。
In [1]:
import numpy as np
定义数组 a
:
0 | 1 | 2 | 3 |
---|---|---|---|
1.0 | 2.0 | 3.0 | 4.0 |
In [2]:
a = np.array([1.0,2.0,3.0,4.0], np.float32)
使用 view
方法,将 a
对应的内存按照复数来解释:
In [3]:
a.view(np.complex64)
Out[3]:
array([ 1.+2.j, 3.+4.j], dtype=complex64)
0 | 1 | 2 | 3 |
---|---|---|---|
1.0 | 2.0 | 3.0 | 4.0 |
real | imag | real | imag |
事实上,我们可以把复数看成一个结构体,第一部分是实部,第二部分是虚部,这样这个数组便可以看成是一个结构化数组。
换句话说,我们只需要换种方式解释这段内存,便可以得到结构化数组的效果!
0 | 1 | 2 | 3 |
---|---|---|---|
1.0 | 2.0 | 3.0 | 4.0 |
mass | vol | mass | vol |
例如,我们可以将第一个浮点数解释为质量,第二个浮点数解释为速度,则这段内存还可以看成是包含两个域(质量和速度)的结构体。
In [4]:
my_dtype = np.dtype([('mass', 'float32'), ('vol', 'float32')])
In [5]:
a.view(my_dtype)
Out[5]:
array([(1.0, 2.0), (3.0, 4.0)],
dtype=[('mass', '<f4'), ('vol', '<f4')])
这里,我们使用 dtype
创造了自定义的结构类型,然后用自定义的结构来解释数组 a
所占的内存。
这里 f4
表示四字节浮点数,<
表示小字节序。
利用这个自定义的结构类型,我们可以这样初始化结构化数组:
In [6]:
my_data = np.array([(1,1), (1,2), (2,1), (1,3)], my_dtype)
print my_data
[(1.0, 1.0) (1.0, 2.0) (2.0, 1.0) (1.0, 3.0)]
第一个元素:
In [7]:
my_data[0]
Out[7]:
(1.0, 1.0)
得到第一个元素的速度信息,可以使用域的名称来索引:
In [8]:
my_data[0]['vol']
Out[8]:
1.0
得到所有的质量信息:
In [9]:
my_data['mass']
Out[9]:
array([ 1., 1., 2., 1.], dtype=float32)
自定义排序规则,先按速度,再按质量:
In [10]:
my_data.sort(order=('vol', 'mass'))
print my_data
[(1.0, 1.0) (2.0, 1.0) (1.0, 2.0) (1.0, 3.0)]
回到最初的例子,定义一个人的结构类型:
In [11]:
person_dtype = np.dtype([('name', 'S10'), ('age', 'int'), ('weight', 'float')])
查看类型所占字节数:
In [12]:
person_dtype.itemsize
Out[12]:
22
产生一个 3 x 4 共12人的空结构体数组:
In [13]:
people = np.empty((3,4), person_dtype)
分别赋值:
In [14]:
people['name'] = [['Brad', 'Jane', 'John', 'Fred'],
['Henry', 'George', 'Brain', 'Amy'],
['Ron', 'Susan', 'Jennife', 'Jill']]
In [15]:
people['age'] = [[33, 25, 47, 54],
[29, 61, 32, 27],
[19, 33, 18, 54]]
In [16]:
people['weight'] = [[135., 105., 255., 140.],
[154., 202., 137., 187.],
[188., 135., 88., 145.]]
In [17]:
print people
[[('Brad', 33, 135.0) ('Jane', 25, 105.0) ('John', 47, 255.0)
('Fred', 54, 140.0)]
[('Henry', 29, 154.0) ('George', 61, 202.0) ('Brain', 32, 137.0)
('Amy', 27, 187.0)]
[('Ron', 19, 188.0) ('Susan', 33, 135.0) ('Jennife', 18, 88.0)
('Jill', 54, 145.0)]]
In [18]:
people[-1,-1]
Out[18]:
('Jill', 54, 145.0)
从文本中读取结构化数组
我们有这样一个文件:
In [19]:
%%writefile people.txt
name age weight
amy 11 38.2
john 10 40.3
bill 12 21.2
Writing people.txt
利用 loadtxt
指定数据类型,从这个文件中读取结构化数组:
In [20]:
person_dtype = np.dtype([('name', 'S10'), ('age', 'int'), ('weight', 'float')])
people = np.loadtxt('people.txt',
skiprows=1,
dtype=person_dtype)
people
Out[20]:
array([('amy', 11, 38.2), ('john', 10, 40.3), ('bill', 12, 21.2)],
dtype=[('name', 'S10'), ('age', '<i4'), ('weight', '<f8')])
查看 name
域:
In [21]:
people['name']
Out[21]:
array(['amy', 'john', 'bill'],
dtype='|S10')
删除文件:
In [22]:
import os
os.remove('people.txt')
对于下面的文件:
In [23]:
%%writefile wood.csv
item,material,number
100,oak,33
110,maple,14
120,oak,7
145,birch,3
Writing wood.csv
定义转换函数处理材料属性,使之对应一个整数:
In [24]:
tree_to_int = dict(oak = 1,
maple=2,
birch=3)
def convert(s):
return tree_to_int.get(s, 0)
使用 genfromtxt
载入数据,可以自动从第一行读入属性名称:
In [25]:
data = np.genfromtxt('wood.csv',
delimiter=',', # 逗号分隔
dtype=np.int, # 数据类型
names=True, # 从第一行读入域名
converters={1:convert}
)
In [26]:
data
Out[26]:
array([(100, 1, 33), (110, 2, 14), (120, 1, 7), (145, 3, 3)],
dtype=[('item', '<i4'), ('material', '<i4'), ('number', '<i4')])
查看域:
In [27]:
data['material']
Out[27]:
array([1, 2, 1, 3])
删除文件:
In [28]:
os.remove('wood.csv')
嵌套类型
有时候,结构数组中的域可能包含嵌套的结构,例如,在我们希望在二维平面上纪录一个质点的位置和质量:
| position | mass | | x | y |
那么它的类型可以这样嵌套定义:
In [29]:
particle_dtype = np.dtype([('position', [('x', 'float'),
('y', 'float')]),
('mass', 'float')
])
假设数据文件如下:
In [30]:
%%writefile data.txt
2.0 3.0 42.0
2.1 4.3 32.5
1.2 4.6 32.3
4.5 -6.4 23.3
Overwriting data.txt
读取数据:
In [31]:
data = np.loadtxt('data.txt', dtype=particle_dtype)
In [32]:
data
Out[32]:
array([((2.0, 3.0), 42.0), ((2.1, 4.3), 32.5), ((1.2, 4.6), 32.3),
((4.5, -6.4), 23.3)],
dtype=[('position', [('x', '<f8'), ('y', '<f8')]), ('mass', '<f8')])
查看位置的 x
轴:
In [33]:
data['position']['x']
Out[33]:
array([ 2\. , 2.1, 1.2, 4.5])
删除生成的文件:
In [34]:
os.remove('data.txt')
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论