Python实现数据分析（四） - HelloWorld开发者社区

Pandas

关键词：数据分析库

官网：https://pandas.pydata.org/

介绍（选自-百度百科）：

pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现，它是使Python成为强大而高效的数据分析环境的重要因素之一。

1、Series and DataFrame（数据结构）

s = pd.Series([i*2 for i in range(1,11)])
    print(type(s))
    dates = pd.date_range("20201101",periods=8)
    df= pd.DataFrame(np.random.randn(8,5),index=dates,columns=(list("ABCDE")))
    print(df)

2、Basic and Select and Set（基本操作）

3、Missing Data Process（缺失数据处理）

4、Merge and Reshape（数据融合和形状定义）

5、Time Series and Graph and Files（时间序列、图形处理、文件）

#encoding=utf-8
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from pylab import *

def main():
    s = pd.Series([i*2 for i in range(1,11)])
    print(type(s))
    dates = pd.date_range("20201101",periods=8)
    df= pd.DataFrame(np.random.randn(8,5),index=dates,columns=(list("ABCDE")))
    print(df)
# Basic
    print(df.head(3))# 打印前几行
    print(df.tail(3))# 打印后几行
    print(df.index)
    print(df.values)
    print(df.T)# 转置
    print(df.sort_index(axis=1, ascending=False))# 降序表头
    print(df.sort_values("C"))# C列的值升序
    print(df.describe())
# Select
    print(df[:2])# 从下标切片
    print(df['20201101':'20201104'])
    print(df.loc[dates[0]])# 取第一行的数据
    print(df.loc['20201101':'20201103',['B','D']])# 取2020-11-01到2020-11-03的B和D列的数据
    print(df.at[dates[0],'C'])# 打印第0行C列的值

    print(df.iloc[1:3,2:4])# 2020-11-02到2020-11-03 C、D列
    print(df.iloc[1,2]) # 1,C
# 根据条件查询
    print(df[df>0])
    df.loc[:,'D']=np.array([4]*len(df))
    print(df)
    k = df[df > 0]
    print(k.fillna(value='lower 0'))# 替换

    # Statistics
    print(df.mean())
    print(df.var())

    # Time Series
    dates2 = pd.date_range("20201122",periods=10,freq='S')
    print(dates2)

    ts = pd.Series(np.random.randn(100),index=pd.date_range('20201122',periods=100))
    ts = ts.cumsum()
    # print(ts)
    ts.plot()
    plt.savefig('./graph/test2')
    show()

    df3 = pd.read_csv('./data/test.txt')
    print(df3)
    # ImportError: Missing optional dependency 'xlrd'.
    # 需要下载xlrd包，命令：pip3 install xlrd
    # df4 = pd.read_excel('./data/test.xlsx','Sheet1')
    # df4.to_excel('./data/test2.xlsx')


main()

总结：

和Numpy一样，pandas也是用于数值计算，只需要会用就可以了，不必记住全部函数。

【git地址】https://gitee.com/sienhao/data-analysis-python.git

Python实现数据分析（四）
关注公众号，获取更多资讯！