Pandas库-处理和分析数据最好的第三方库
1 | import pandas as pd |
两个数据类型:Series和DataFrame,基于ndarray扩展的数据类型。Pandas注重数据和索引之间的关系。
Series(一维数据类型)
由一组数据和其索引组成,就是一维带标签的数据,类似于字典和ndarray的操作
1 | import pands as pd |
对齐问题:运算中只运算相对应索引的元素
Dataframe(二维数据类型)
多列的数据共用相同索引,表格型数据类型。我理解为c中的数组
有行索引也有列索引。纵向索引index,横向索引column
1 | import pandas as pd |
字典转换成DataFrame格式的时候,键会变成表头,值会变成竖着排列的值。
尝试着用DataFrame处理CSV文件
d.reindex:重排生成的表格。
1 | .reindex(index=None, columns=None, …) |
方法 | 说明 |
---|---|
.append(idx) | 连接另一个Index对象,产生新的Index对象 |
.diff(idx) | 计算差集,产生新的Index对象 |
.intersection(idx) | 计算交集 |
.union(idx) | 计算并集 |
.delete(loc) | 删除loc位置处的元素 |
.drop() | 删除Series和DataFrame指定行或列索引 |
数据类型的算术运算
- 加减乘除算数运算
方法 | 说明 |
---|---|
.add(d, **argws) | 类型间加法运算,可选参数 |
.sub(d, **argws) | 类型间减法运算,可选参数 |
.mul(d, **argws) | 类型间乘法运算,可选参数 |
.div(d, **argws) | 类型间除法运算,可选参数 |
eg.b.add(a, fill_value=100)
Note:还可以直接利用+-*/运算
- 比较运算
>< >= <= == !=进行大小比较,与每个元素都比较,返回布尔值