机器学习中的概率论与梳理统计(Python实现数学期望、方差等)

天天见闻 天天见闻 2024-05-03 社会 阅读: 2
摘要: 一、概率论数理统计常见的统计量实现总结#1、数学期望(俗称平均值)二、求相关系数的实现总结2、通过numpy的方法计算相关性系数泊松分布的实现和二项分布有些类似,在泊松分布中我们需要指定比率参数。泊松分布的输出是一个数列,包含了发生0次、1次、2次,直到10次事故的概率。

一、概率论数理统计常见的统计量实现总结

1、求数学期望

#=utf-8

asnp

arr = [1,2,3,4,5,6]

#1、数学期望(俗称平均值)

= np.mean(arr)

print()

2、求方差、标准差

#=utf-8

asnp

arr = [1,2,3,4,5,6]

# 求方差

= np.var(arr)

print()

# 求标准差

= np.std(arr,ddof=1)

print()

3、求协方差

#=utf-8

asnp

#求协方差

x=np.array([[1 ,2 ,3] ,

[2 ,5 ,6 ],

[ 7 ,8 ,9],

[ 11 ,11 ,12]])

= np.cov(x)

print()

二、求相关系数的实现总结

1、公式法

#=utf-8

X = [1,2,3,4,5]

Y = [1.01 , 2.02 , 3.03 ,4.04 , 5.05]

# 均值

XMean = numpy.mean(X)

YMean = numpy.mean(Y)

#标准差

XSD = numpy.std(X)

YSD = numpy.std(Y)

#z分数

ZX = (X-XMean)/XSD

ZY = (Y-YMean)/YSD#相关系数

r = numpy.sum(ZX*ZY)/(len(X))

print(r)

2、通过numpy的方法计算相关性系数

#=utf-8

X = [10.11, 20.11, 33.11]

Y = [10.22, 20.22, 30.22 ]

t=numpy.(X,Y)

print(t)

3、通过的corr方法计算相关性系数

#=utf-8

X = [10.11, 20.11, 33.11]

Y = [10.22, 20.22, 30.22 ]

data = .({'X':X,'Y':Y})

t2=data.corr()

print(t2)

三、常见的分布实现总结

1、正太分布

正态分布是一种连续分布,其函数可以在实线上的任何地方取值。正态分布由两个参数描述:分布的平均值μ和方差σ2 。

#=utf-8

asnp

. asplt

mu = 0 # mean

sigma = 1 #

x = np.(-3, 3, 0.1)

print(x)

y = stats.norm.pdf(x, 0, 1)

print(y)

plt.plot(x, y)

plt.title(': $\mu$=%.1f, $\sigma^2$=%.1f'% (mu, sigma))

plt.('x')

plt.(' ', =15)

plt.show()

2、指数分布

指数分布是一种连续概率分布,用于表示独立随机事件发生的时间间隔。比如旅客进入机场的时间间隔、打进客服中心电话的时间间隔、中文维基百科新条目出现的时间间隔等等。

我将参数λ设置为0.2,并将x的取值范围设置为 $[1, 10]$ 。

#=utf-8

asnp

. asplt

lambd = 0.2

x = np.(1,10,0.1)

y =lambd * np.exp(-lambd *x)

print(y)

plt.plot(x, y)

plt.title(': $\$=%.2f'% (lambd))

plt.('x')

plt.(' ', =15)

plt.show()

3、二项分布

某射手射击,射击结果分为中靶和不中靶两种,若每次射击相互独立,中靶的概率皆为0.7,讨论在4次射击中恰好2次中靶的概率(0.2646)

#=utf-8

asnp

. asplt

p = 0.7 # 事件A概率0.7

n = 4 # 重复实验4次

k = np.(n+1) # 5种可能出现的结果(中0次、中1次、中2次、中3次、中4次)

r = stats.binom.pmf(k, n, p)

print(r)

4、泊松分布( )

一个服从泊松分布的随机变量X,表示在具有比率参数(rate )λ的一段固定时间间隔内,事件发生的次数。参数λ告诉你该事件发生的比率。随机变量X的平均值和方差都是λ。

E(X) = λ, Var(X) = λ

泊松分布的例子:已知某路口发生事故的比率是每天2次,那么在此处一天内发生4次事故的概率是多少?

让我们考虑这个平均每天发生2起事故的例子。泊松分布的实现和二项分布有些类似,在泊松分布中我们需要指定比率参数。泊松分布的输出是一个数列,包含了发生0次、1次、2次,直到10次事故的概率。我用结果生成了以下图片。

#=utf-8

asnp

. asplt

rate = 2

n = np.(0, 10)

y = stats..pmf(n, rate)

print(y)

plt.plot(n, y, 'o-')

plt.title(': rate=%i'% (rate), =15)

plt.(' of ')

plt.(' of ', =15)

plt.show()

5、T分布

t分布形状类似于标准正态分布; t分布是对称分布,较正态分布离散度强,密度曲线较标准正态分布密度曲线更扁平

(1)T分布的应用场景:

- 根据小样本来估计呈正态分布且方差未知的总体的均值

- 对于任何一种样本容量,真正的平均值抽样分布是t分布,因此,当存在疑问时,应使用t分布

- 当样本容量在 30-35之间时,t分布与标准正态分布难以区分

-当样本容量达到120时,t分布与标准正态分布实际上完全相同了

(2)自由度df对分布的影响

-- 样本方差使用一个估计的参数(平均值),所以计算置信区间时使用的t分布的自由度为 n - 1

-- 由于引入额外的参数(自由度df),t分布比标准正态分布的方差更大(置信区间更宽)

-- 与标准正态分布曲线相比,自由度df越小,t分布曲线愈平坦,曲线中间愈低,曲线双侧尾部翘得愈高

-- 自由度df愈大,t分布曲线愈接近正态分布曲线,当自由度df= ∞ 时,t分布曲线为标准正态分布曲线

#=utf-8

asnp

. asplt

# 不同自由度的学生t分布与标准正态分布

asnp

.stats

.stats

. asplt

print('比较t-分布与标准正态分布')

x = np.( -3, 3, 100)

plt.plot(x, t.pdf(x,1), label='df=1')

plt.plot(x, t.pdf(x,2), label='df=20')

plt.plot(x, t.pdf(x,100), label = 'df=100')

plt.plot( x[::5], norm.pdf(x[::5]),'kx', label='')

plt.()

plt.show()

6、 β分布(Beta )

β分布是一个取值在 [0, 1] 之间的连续分布,它由两个形态参数α和β的取值所刻画。

β分布的形状取决于α和β的值。贝叶斯分析中大量使用了β分布。

#=utf-8

asnp

. asplt

a = 0.5

b = 0.5

x = np.(0.01, 1, 0.01)

y = stats.norm.pdf(x, a, b)

print(y)

plt.plot(x, y)

plt.title('Beta: a=%.1f, b=%.1f'% (a, b))

plt.('x')

plt.(' ', =15)

plt.show()

其他相关
最常用的统计学分析方法--假设检验

最常用的统计学分析方法--假设检验

作者: 天天见闻 时间:2024-05-29 阅读: 2
本期不写机器学习,而是写统计学中一个最广泛的应用---假设检验。假设检验是一种常见的基于样本的“统计证据”来对总体进行推断的方法。3、选定统计方法,根据需求选择方法,比如最常用的Z检验,T检验或卡方检验等,将样本观察值按公式计算出统计量的大小。...
福彩3D定胆的好方法

福彩3D定胆的好方法

作者: 天天见闻 时间:2024-05-24 阅读: 2
比如47期开奖号码是558,边码定胆4679,4679=1,2个,剩下的号码是=1,2个。...
7、专业交易者视每笔交易为概率游戏

7、专业交易者视每笔交易为概率游戏

作者: 天天见闻 时间:2024-05-15 阅读: 2
专业交易者明白,他们永远不知道市场会发生什么。专业交易者知道如何在原始价格图表上做出深入的分析。专业交易者,不会轻易让别人影响自己。6、专业交易者都是现实派业余交易者往往会重视他们所进行的每一笔交易,但是在交易中成功只是概率,若忽视这个概率而认为一定会赢,则是把自己推入危险的境地。...
甘肃彩民公开双色球出号规律

甘肃彩民公开双色球出号规律

作者: 天天见闻 时间:2024-05-14 阅读: 2
惊天新闻:甘肃彩民公开双色球出号规律(火爆!双色球出号究竟有没有规律?多数情况下,真理就掌握在大多数人手里,双色球出号究竟有没有规律?为了我们更好地研究双色球的出号规律,也为了让我们在即将到来的2008收获500W,我们...
一、筹码分布双峰的基本结构和理解

一、筹码分布双峰的基本结构和理解

作者: 天天见闻 时间:2024-05-08 阅读: 2
会从几个方面,来做个分享:双峰的基本结构,筹码净空间和反弹,双峰填谷,筹码峰锁定的判断思路。双峰结构顾名思义,从结构上来看是很好理解的,就是筹码分布上出现了两个比较明显的主要的筹码密集峰。麦迪科技同样在2019年2月的时候,可以从筹码分布当中看到明显的双峰结构。...
福彩3d最新试机号小秘密

福彩3d最新试机号小秘密

作者: 天天见闻 时间:2024-04-30 阅读: 2
试机号若有球下,通常是只下一个,其它两个可当杀码。3、试机号与上期开奖号重两码时,可统杀试机号。例:336期试机号520,开奖号785,52同路=8下,0所属的0路断球。3、若试机号当中有号与上期开奖号相重,这个号就是必杀号。...
我来说两句

年度爆文