Pandas
关键词: 数据分析库
介绍(选自-百度百科):
pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。
1、Series and DataFrame(数据结构)
s = pd.Series([i*2 for i in range(1,11)])
print(type(s))
dates = pd.date_range("20201101",periods=8)
df= pd.DataFrame(np.random.randn(8,5),index=dates,columns=(list("ABCDE")))
print(df)
2、Basic and Select and Set(基本操作)
3、Missing Data Process(缺失 数据处理)
4、Merge and Reshape(数据融合和形状定义)
5、Time Series and Graph and Files(时间序列、图形处理、文件)
#encoding=utf-8
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from pylab import *
def main():
s = pd.Series([i*2 for i in range(1,11)])
print(type(s))
dates = pd.date_range("20201101",periods=8)
df= pd.DataFrame(np.random.randn(8,5),index=dates,columns=(list("ABCDE")))
print(df)
# Basic
print(df.head(3))# 打印前几行
print(df.tail(3))# 打印后几行
print(df.index)
print(df.values)
print(df.T)# 转置
print(df.sort_index(axis=1, ascending=False))# 降序表头
print(df.sort_values("C"))# C列的值升序
print(df.describe())
# Select
print(df[:2])# 从下标切片
print(df['20201101':'20201104'])
print(df.loc[dates[0]])# 取第一行的数据
print(df.loc['20201101':'20201103',['B','D']])# 取2020-11-01到2020-11-03的B和D列的数据
print(df.at[dates[0],'C'])# 打印第0行C列的值
print(df.iloc[1:3,2:4])# 2020-11-02到2020-11-03 C、D列
print(df.iloc[1,2]) # 1,C
# 根据条件查询
print(df[df>0])
df.loc[:,'D']=np.array([4]*len(df))
print(df)
k = df[df > 0]
print(k.fillna(value='lower 0'))# 替换
# Statistics
print(df.mean())
print(df.var())
# Time Series
dates2 = pd.date_range("20201122",periods=10,freq='S')
print(dates2)
ts = pd.Series(np.random.randn(100),index=pd.date_range('20201122',periods=100))
ts = ts.cumsum()
# print(ts)
ts.plot()
plt.savefig('./graph/test2')
show()
df3 = pd.read_csv('./data/test.txt')
print(df3)
# ImportError: Missing optional dependency 'xlrd'.
# 需要下载xlrd包,命令:pip3 install xlrd
# df4 = pd.read_excel('./data/test.xlsx','Sheet1')
# df4.to_excel('./data/test2.xlsx')
main()
总结:
和Numpy一样,pandas也是用于数值计算,只需要会用就可以了,不必记住全部函数。
【git地址】https://gitee.com/sienhao/data-analysis-python.git
关注公众号,获取更多资讯!
(别忘记三连!!!)