用python重温统计学基础:离散型概率分布

Aidan075
• 阅读 1314

简单介绍数据的分布形态描述中的离散型概率分布

利用python中的matplotlib来模拟几种分布的图形

在上一篇描述性统计中提到数据分析的对象主要是结构化化数据,而所有的结构化数据可以从三个维度进行描述,即数据的集中趋势描述,数据的离散程度描述和数据的分布形态描述,并对前两个维度进行了介绍。

本篇主要是对数据的分布形态描述中的离散型概率分布进行介绍。

用python重温统计学基础:离散型概率分布

离散型概率分布是一条条垂直于X轴的垂线(或矩形柱),每条垂线与X轴的交点代表事件可能发生的结果,垂线上端点对应的Y轴表示该结果发生的概率(区别于概率密度)。

常见的离散型概率分布有二项分布、伯努利分布和泊松分布等。

二项分布

二项分布是由伯努利提出的概念,指的是重复n次独立的伯努利试验。在每次试验中只有两种可能的结果,而且两种结果发生与否互相对立,并且相互独立,与其它各次试验结果无关,事件发生与否的概率在每一次独立试验中都保持不变,则这一系列试验总称为n重伯努利实验,当试验次数为1时,二项分布服从0-1分布。

用python重温统计学基础:离散型概率分布

下面用python中的matplotlib模拟二项分布:

# 利用plt模拟二项分布  
n , p =10 ,0.5  
sample = np.random.binomial(n, p, size=10000)  # 产生10000个符合二项分布的随机数  
bins = np.arange(n + 2)  
plt.hist(sample, bins=bins, align='left',density=True, rwidth=0.5)  # 绘制直方图  
# 设置标题和坐标  
plt.title('Binomial FMF with n={},p={}'.format(n, p))  
plt.xlabel('number of successes')  
plt.ylabel('probability')

用python重温统计学基础:离散型概率分布

伯努利分布

伯努利分布亦称“零一分布”、“两点分布”。称随机变量X有伯努利分布, 参数为p(0<p<1),如果它分别以概率p和1-p取1和0为值。EX= p,DX=p(1-p)。伯努利试验成功的次数服从伯努利分布,参数p是试验成功的概率。伯努利分布是一个离散型机率分布,是N=1时二项分布的特殊情况

用python重温统计学基础:离散型概率分布

伯努利分布与二项分布之间的关系:

• 伯努利分布是具有单项试验的二项式分布的特殊情况。

• 伯努利分布和二项式分布只有两种可能的结果,即成功与失败。

• 伯努利分布和二项式分布都具有独立的轨迹。

下面用python中的matplotlib模拟二项分布:

# 利用plt模拟伯努利分布  
#解决画图中文乱码  
plt.rcParams['font.sans-serif']=['SimHei']  
plt.rcParams['axes.unicode_minus']=False  
#定义随机变量  
X = np.arange(10)   
p = 0.5  
#伯努利概率函数  
pList = bernoulli.pmf(X,p)  
#绘图,marker:点的形状,linestyle:线条的形状  
plt.plot(X,pList,marker = 'o',linestyle = 'None' )  
#vlines绘制树直线,参数的含义(x轴坐标轴,y轴最小值,y轴最大值)  
plt.vlines(X,0,pList)  
plt.xlabel("随机变量:抛硬币{}次".format(len(X)))  
plt.ylabel("概率")  
plt.title('伯努利分布:p={:.2f}' .format(p))  

用python重温统计学基础:离散型概率分布

泊松分布

泊松分布的概率函数为:用python重温统计学基础:离散型概率分布

泊松分布的参数λ是单位时间(或单位面积)内随机事件的平均发生次数。泊松分布适合于描述单位时间内随机事件发生的次数。

泊松分布的期望和方差均为 用python重温统计学基础:离散型概率分布

特征函数为用python重温统计学基础:离散型概率分布

用python重温统计学基础:离散型概率分布

泊松分布与二项分布之间的关系:****

泊松分布在满足以下条件的情况下是二项式分布的极限情况:

• 试验次数无限大或n → ∞。
• 每个试验成功的概率是相同的,无限小的,或p → 0。
• np = λ,是有限的。

假设通过一定时间的观察,我们知道某个路口每小时平均有8辆车通过,这是一个典型的泊松分布实例,我们通过Python进行统计模拟来看看在统计图它具体是如何呈现的。

下面用python中的matplotlib模拟二项分布:

# 用plt模拟泊松分布  
lamb = 8  
sample = np.random.poisson(lamb, size=10000)  
bins = np.arange(20)  
plt.hist(sample, bins=bins, align='left',density=True, rwidth=0.5)  
plt.title('Possion PMF (lambda=8)')  
plt.xlabel('number of appear')  
plt.ylabel('probability')  
plt.show()

用python重温统计学基础:离散型概率分布

本文完。

朱小五,某互联网公司数据分析师,热衷于爬虫,数据分析,可视化,个人公众号《凹凸玩数据》

本文相关ipynb格式代码已上传github:

https://github.com/zpw1995/aotodata/tree/master/tongji/lisan


用python重温统计学基础:离散型概率分布

历史文章:

44万条数据揭秘:如何成为网易云音乐评论区的网红段子手?

破解大众点评的字体加密,这一篇就够了。

用Python爬取b站弹幕,看大家还会接受《爱情公寓5》吗?

用python重温统计学基础:离散型概率分布


本文转转自微信公众号凹凸数据原创https://mp.weixin.qq.com/s/kRjEsvarsEALiQkUyIdpYw,可扫描二维码进行关注: 用python重温统计学基础:离散型概率分布 如有侵权,请联系删除。

点赞
收藏
评论区
推荐文章
blmius blmius
3年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
Jacquelyn38 Jacquelyn38
3年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
Aidan075 Aidan075
3年前
用python重温统计学基础:离散型概率分布
简单介绍数据的分布形态描述中的离散型概率分布利用python中的matplotlib来模拟几种分布的图形在上一篇描述性统计(http://mp.weixin.qq.com/s?__bizMzg5NDE3Nzc5Mw&mid2247483743&idx1&sn8a0bff6f07d2c1804ccf301b400a263e&
Easter79 Easter79
3年前
Twitter的分布式自增ID算法snowflake (Java版)
概述分布式系统中,有一些需要使用全局唯一ID的场景,这种时候为了防止ID冲突可以使用36位的UUID,但是UUID有一些缺点,首先他相对比较长,另外UUID一般是无序的。有些时候我们希望能使用一种简单一些的ID,并且希望ID能够按照时间有序生成。而twitter的snowflake解决了这种需求,最初Twitter把存储系统从MySQL迁移
Wesley13 Wesley13
3年前
AI研习丨针对长尾数据分布的深度视觉识别
  !(http://dingyue.ws.126.net/2020/0812/714a3e94j00qey3su000xd000q100dup.jpg)  摘要  本文介绍了目前国内外关于长尾数据分布下深度视觉识别的研究进展,主要从常用数据集及应用、经典机器学习解决方案和深度学习解决方案三个维度进行梳理和分析,并针对长尾数据分布的
Wesley13 Wesley13
3年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
Python进阶者 Python进阶者
11个月前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这
小万哥 小万哥
7个月前
NumPy 随机数据分布与 Seaborn 可视化详解
随机数据分布什么是数据分布?数据分布是指数据集中所有可能值出现的频率,并用概率来表示。它描述了数据取值的可能性。在统计学和数据科学中,数据分布是分析数据的重要基础。NumPy中的随机分布NumPy的random模块提供了多种方法来生成服从不同分布的随机数。
小万哥 小万哥
6个月前
NumPy 二项分布生成与 Seaborn 可视化技巧
二项分布是描述固定次数独立试验中成功次数的概率分布,常用于分析二元结果的事件,如抛硬币。分布由参数n(试验次数)、p(单次成功概率)和k(成功次数)定义。概率质量函数P(k)C(n,k)p^k(1p)^(nk)。NumPy的random.binomial()可生成二项分布数据,Seaborn可用于可视化。当n大且p接近0.5时,二项分布近似正态分布。练习包括模拟不同条件下的二项分布和应用到考试场景。