Python Numpy鸢尾花实训,数据处理
本文所用数据下载地址——>点这里下载
本实训读取iris数据集中鸢尾花的萼片、花瓣长度数据,并对其进行排序,去重,并求出和、累计和、均值、标准差、方差、最小值、最大值。
1、导入模块
import numpy as np
import csv
2、获取数据
iris_data = []
with open("iris.csv") as csvfile:
#使用csvfile中的文件
csv_reader = csv.reader(csvfile)
birth_header = next(csv_reader)
for row in csv_reader:
iris_data.append(row)
iris_data
3、数据清理,去掉索引号(没有索引要转换数据类型)
iris_list = []
for row in iris_data:
iris_list.append(tuple(row))
iris_list
4、数据统计
(1)创建数据类型
datatype = np.dtype([("Sepal.Length",np.str_,40),#花萼的长度为字符型40
("Sepal.Width",np.str_,40),
("Petal.Length",np.str_,40),#花瓣的长度字符型40
("Petal.Width",np.str_,40),
("Species",np.str_,40)])#种类
(2)创建二维数组
iris_data = np.array(iris_list,dtype = datatype)
iris_data
(3)将待处理数据的类型转化为float类型
PetalLength = iris_data["Petal.Length"].astype(float)
PetalLength
(4)排序
np.sort(PetalLength)
(5)数据去重
np.unique(PetalLength)
(6)对指定列求和、均值、标准差、方差、最小值及最大值
np.sum(PetalLength)#求和
np.mean(PetalLength)#求均值
np.std(PetalLength)#求标准差
np.var(PetalLength)#求方差
np.min(PetalLength)#求最小值
np.max(PetalLength)#求最大值