Pandas速查表
基本数据结构操作
维数 | 名称 | 描述 |
---|---|---|
1 | Series | 带标签的一维同构数组 |
2 | DataFrame | 带标签的,大小可变的,二维异构表格 |
DataFrame 是 Series 的容器,Series 则是标量的容器。使用这种方式,可以在容器中以字典的形式插入或删除对象。
df的基本操作
df[col]
这样子取得的是列df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list('ABCD'))
df.head(2)
df.tail(3)
df.index
df.column
df.to_numpy()
可以转换为numpydf.describe()
可以查看统计信息df.T
转置df.sort_index(axis=1, ascending=False)
按轴排序df.sort_values(by='B')
选择数据
df['A']
选择单列df[0:3]
切片行- 按照标签选择df.loc[]选择一行
df.loc[:, ['A', 'B']]
选择多个列- 选择范围就是组合应用上面的过程
df.at[]
访问数据和上面的结果一样df.iloc[]
按照索引选择数据- 布尔索引
df[df.A > 0]
e.g.操作示范
1 |
|
显示控制
1 |
|
常用操作
1. 分组去重复统计
df.groupby('param')['group'].nunique()
2. 去重
data.drop_duplicates(subset=['A','B'],keep='first',inplace=True)
3. 按日期字段分组
1 |
|
4. PANDAS 数据合并与重塑
5. 使用自定义函数处理数据
1 |
|
Pandas速查表
https://blog.yrpang.com/posts/5186/