统计学入门 | 第四章 0-1回归模型

天天见闻 天天见闻 2022-08-17 汽车 阅读: 217
摘要: 关注我们吧! 我们在上一节中系统地学习了线性回归模型,线性回归模型解决的是连续型因变量的建模和预测问题。然而在我们的实际生活中,也经常会碰到0-1型因变量的情况。所谓0-1型因变量就是只有两个可能性的离散型因变量,常常(并不是所有情形)可以被规范成一个是否的问题。比如:该邮件是否是垃圾邮件?某互联网广告是否会被点击?信贷业务中用户借贷后是否会按时归还?等等。此时,研究问题的因变量Y是一个0-1型变量。面对0-1型因变量,为什么不能用上一节讲的线性回归模型来拟合呢?回顾最简单的一元线性回归模型, 。如果将该模型用在0-1型因变量上,那么此时等号的左边是一个取值为0或者1的值,但是等号的右边是一个连续型数值(因为 的存在)。所以左边和右边永远不可能完全相等。因此线性回归模型不能直接对0-1型因变量建模。那应该怎么办呢?这就需要用到回归五式的第二式:0-1回归模型。为了更好的介绍0-1回归模型,我们以一个实际案例为例,详细讲解0-1回归模型的各个方面。

关注我们吧!

统计学入门 | 第四章 0-1回归模型

我们在上一节中系统地学习了线性回归模型,线性回归模型解决的是连续型因变量的建模和预测问题。然而在我们的实际生活中,也经常会碰到0-1型因变量的情况。所谓0-1型因变量就是只有两个可能性的离散型因变量,常常(并不是所有情形)可以被规范成一个是否的问题。比如:该邮件是否是垃圾邮件?某互联网广告是否会被点击?信贷业务中用户借贷后是否会按时归还?等等。此时,研究问题的因变量Y是一个0-1型变量。面对0-1型因变量,为什么不能用上一节讲的线性回归模型来拟合呢?回顾最简单的一元线性回归模型, 。如果将该模型用在0-1型因变量上,那么此时等号的左边是一个取值为0或者1的值,但是等号的右边是一个连续型数值(因为 的存在)。所以左边和右边永远不可能完全相等。因此线性回归模型不能直接对0-1型因变量建模。那应该怎么办呢?这就需要用到回归五式的第二式:0-1回归模型。为了更好的介绍0-1回归模型,我们以一个实际案例为例,详细讲解0-1回归模型的各个方面。

案例介绍

本章采用一个关于汽车保险的案例。为什么采用这样一个案例?因为随着人民生活水平的不断提高,汽车已经逐渐成为家庭标配。国家统计局数据表明,2020年全国平均每百户居民拥有37.1辆家用汽车。从总量上看,图4.5.1展示了我国民用汽车保有量从2008年到2021年的变化情况。从中可以看出,自2008年以来我国民用汽车保有量持续增加,2021年已经达到了2.9亿辆,是2008年的6倍左右。

统计学入门 | 第四章 0-1回归模型

图4.5.1 2008年至2021年民用汽车保有量1

庞大的汽车保有总量促进了车险行业的蓬勃发展。据银保监会统计,2019年与2020年全国机动车辆保险的原保费收入分别达到8188亿元和8245亿元,分别占同年保险行业总原保费收入的19.2%和18.2%。在车辆保险行业不断发展、规模不断扩大的过程中,车险计费的方式也在改变。我国车险定价在很长一段时间内执行的都是统一费率标准,而2002年8月中国保监会发布了《关于改革机动车辆保险条款费率管理制度的通知》,自此保监会不再制定统一的车险条款费率。即便如此,在今天我国车险费率的灵活性也是较低的。而随着车联网等技术的逐步普及,各类移动数据采集设备可以提供更详尽的司机驾驶行为数据,例如车辆的里程表度数、速度和时间信息、急转弯和急刹次数等。通过对这些数据与是否出险的结果进行建模,就可以估计车主的事故风险,这为更加精准的个性化车险定价提供了可能。所谓个性化车险就是对不同车主提供非常有差异化的车险保费,其核心在于让驾驶行为良好的车主享受更优惠的车险费用。这类车险模式对驾驶行为习惯良好的车主而言能够减少开销,帮助其养成良好的驾驶习惯,于保险公司而言也能够降低赔付率,提升客户体验。

表4.5.1 变量说明表

统计学入门 | 第四章 0-1回归模型

描述分析

在正式分析之前,我们可以首先进行一些描述性分析,从而对之后建模中需要使用的因变量和自变量有一些直观的认识。另一方面,描述性分析也可以帮我们初步探究一下自变量与因变量的关系,至于这些关系是否显著,还需要通过建立回归模型进一步确定。通过简单的计算可知,因变量“是否出险”中出险的样本比例达到27.64%。下面我们首先关注驾驶人因素与是否出险的关系,图4.5.2中分别展示了驾驶人年龄、驾龄关于是否出险的分组箱线图。图4.5.2(a)中显示,出险与未出险的驾驶人年龄箱线图十分接近,事实上出险和未出险的驾驶人年龄中位数均为38岁,这表明年龄可能不是显著影响是否出险的因素。图4.5.2(b)中显示,未出险驾驶人的驾龄箱线图略高于出险驾驶人,事实上未出险驾驶人和出险驾驶人的驾龄中位数分别为5年和4年,这表明驾龄高的驾驶人出险的比例更低,这与经验常识相符。

统计学入门 | 第四章 0-1回归模型

图4.5.2 驾驶人年龄分组箱线图(a)与驾驶人驾龄分组箱线图(b)

图4.5.3(a)和(b)采用棘状图的形式展示了性别以及驾驶人婚姻状况与是否出险的关系。和一般的柱状图相比,棘状图不仅可以展示离散型数据各水平取值的比例,还可以通过柱形宽度直观反映对应样本的数量。例如图4.5.3(a)中男性对应的柱形宽度远宽于女性的柱形宽度,这说明男性样本远多于女性样本,事实上样本数据中男性驾驶人占据90.4%的比例。另外,图4.5.3(a)还表明相对于男性驾驶人26.9%的出险比例,女性驾驶人出险比例更高,达到34.4%。这意味着相对于男性驾驶人,女性驾驶人可能更容易出险。除此之外,图4.5.3(b)中表明,样本数据中已婚驾驶人占据大多数,达到95.1%。而已婚驾驶人的出险比例(27.4%)略低于未婚驾驶人(32.4%),这意味着相对于已婚驾驶人,未婚驾驶人可能有着更高的出险可能性。

统计学入门 | 第四章 0-1回归模型

图4.5.3 驾驶人性别棘状图(a)与驾驶人婚姻状况棘状图(b)

除了考虑驾驶人的各项特征与是否出险的关系,也可以考虑汽车因素对是否出险的影响。图4.5.4(a)展示了车龄与是否出险的棘状图,其中车龄1年定义为“新车”,车龄在1年以上定义为“旧车”。新车和旧车对应的样本量近似相等,然而新车的出险比例达到32.8%,明显大于旧车的出险比例(22.7%)。这意味着相对于旧车,新车出险的风险可能更高。图4.5.4(b)展示了车辆引擎大小与是否出险的棘状图,其中引擎大小1.6升以上定义为“中高级车”,1.0至1.6升定义为“普通级车”。中高级车对应的样本量略多于普通级车,而普通级车的出险比例达到33.3%,明显大于中高级车的出险比例(24.0%)。这意味着相对于中高级车,普通级车出险的风险可能更大。

统计学入门 | 第四章 0-1回归模型

图4.5.4 车龄棘状图(a)与车辆级别(引擎大小)棘状图(b)

图4.5.5(a)展示了有无固定停车位和是否出险的棘状图。从中可以看到样本数据中,有固定车位的车辆达到83.1%,远高于无固定车位的车辆(16.9%)。从出险比例上看,有固定车位的车辆出险比例(28.3%)略高于无固定车位的出险比例(24.6%)。而直觉上有固定车位的车辆应该更加安全,发生事故并申请理赔的可能性更低。上述结论恰恰和直觉相反,这既有可能反映了有固定车位与高出险比例之间存在某些内在的关联,也可能仅仅是由于数据量较小而产生的偏差。二者之间是否存在显著关联,还需要借助后续的建模结果才能进行判断。图4.5.5(b)展示了不同所有者性质与是否出险的棘状图,其中私人所有车辆占据了大多数(71.7%)。而从出险比例上看,私人所有车辆的出险比例最高,达到31.1%,明显超过公司所有车辆(20.2%)和政府所有车辆的出险比例(15.4%)。这表明相对于公司和政府所有车辆,私人所有车辆出险的风险可能更大。

统计学入门 | 第四章 0-1回归模型

图4.5.5 有无固定停车位棘状图(a)与所有者性质棘状图(b)

模型描述

接下来,我们考虑如何建立一个适合0-1型因变量的回归分析模型。为方便讨论,我们先考虑一个简单情形:那就是只有一个X变量。此时,如果Y是连续型数据,那么最简单的一元线性回归模型:Y = β 0 + β 1 X + ε 也许就可以满足建模要求。但是,如果Y是0-1型数据,那么就显然不成立了,因为在数学上等号的两边是矛盾的。那应该怎么办呢?

回到本车险案例。一个司机是否出险(Y=0 或者1)实在是一个非常随机的现象。虽然我们都知道酒后特别容易出事,但是你也常常看到酒后不出事的案例。虽然我们都知道疲劳驾驶很容易发生事故,但是疲劳驾驶仍然无事故发生的案例其实是大多数。这其中的矛盾出在哪里?原因其实很简单。从纯粹的统计学技术上讲,是否喝酒(例如)不是车祸的直接原因。喝酒这个X,其实影响的是车主神志不清醒的程度(假设为Z),而Z才对出险直接负责。理论上我们假设有这么一个奇才,体内能循环产生巨量的乙醇脱氢酶和乙醛脱氢酶(人体内用于代谢酒精的酶),喝多少酒,都会在胃肠道化解掉,一滴酒精都进不了血管。那么,对于这个人而言,喝多少酒X,都影响不了神志不清醒程度Z。当然,这是一个虚构的故事。但是,通过这个故事,希望你能学习理解这样一个理论框架:从X出发,到Z,然后到Y。类似的故事不仅仅发生在车险领域。经济学家如何解释消费者的购买行为?他认为,一个手机的各种功能X,影响了消费者可感知的效用Z,于是产生了购买行为Y。类似的案例还比如,一个人的生活习惯X,影响了他的健康状况Z,最后决定了某个疾病的发生Y。这类案例可以有很多很多,聪明的你一定能想出更多来。在这个过程中你有没有注意到一个特点,这个Z常常是看不见摸不着的。例如,你能测量一个人的驾驶能力吗?驾校的各种考试虽然是在测量,但是那仅仅是某一种测量,而且可以肯定的是,绝对是不完美的测量。为什么?因为完美的测量根本不存在。又例如,你能测量一个手机之于消费者的效用吗?营销学者为此发明了联合分析等各种有趣的工具,就是在一定程度上测量这个目标,非常有用,但是显然不可能完美。还比如,你能测量一个人的综合身体状况吗?为此,我们每年都要体检,非常有用,但是显然不可能完美。所以,Z有一个很大的特点:看不见摸不着。这是Z的第一个特点。

这个神奇的中介变量Z还有一个很大的特点,那就是:它似乎是连续的。为什么?我自己就是司机,我会有一个清晰的感觉,什么时候清醒程度最好(一大早吃饱喝足的时候),什么时候清醒程度不好(大中午吃饱喝足的时候),还有的时候不好不坏。我似乎能感受到,某时候的驾驶状态比另一个时刻似乎好一点点,或者差不多,说不清楚。为什么?因为:驾驶状态这个Z变量本质上是连续的。手机对于消费者的效用也同样如此,一款处理器、屏幕、内存、容量等等配置都达到最高的手机对于消费者的效用一定是很高的,因为这样高配置的设备能很好的满足消费者的通话、影音、摄影和游戏等等需求。相比之下,一款配置很低的老人机对于消费者的效用一定是很低的,因为它可能只能用于通话。而两款配置接近的设备对于消费者效用的区别有多大?内存大容量小的手机效用更高,还是容量大内存小的手机效用更高?这是很难说清楚的。原因就在于:手机对于消费者的效用这个Z变量本质上是连续的。同样的道理也适用于一个人的健康状况,一个经常进行体检筛查、各项体检指标均正常、生活习惯良好的人的健康状况一定是高的,这是很容易判断的。同样地,一个体检筛查发现罹患癌症的人的健康状态一定是低的。但一个患有胃炎但体重正常的人和一个肥胖但胃部健康的人相比,谁的健康状况更高?有的人可能觉得胃病危害更大,前者健康状况更低;有的人可能觉得体重影响的身体机能更广泛,后者健康状况更低。总之,二者健康状态孰高孰低,高多少低多少?这是说不清楚的。为什么?因为:健康状况这个Z变量本质上也是连续的。

既然Z本质上是连续的,那么X对他的影响是否可以通过一个简单的线性回归来描述呢?例如: 。接着,在给定Z的前提下,Y的取值就很简单了。还是以车辆出险案例为例,对于一个给定的司机,如果其神志不清醒程度Z足够高,那么他就必定出险(Y=1)。相反,如果神志不清醒程度Z足够低,那么他就必定不出险(Y=0)。类似地,对于一个消费者,如果某款手机对他的效用Z足够高,那么他就必定购买(Y=1)。相反如果该款手机对他的效用Z足够低,那么他就必定不购买(Y=0)。在健康状况的案例中,如果某人的健康状况Z足够高,那么他就必定不会患某疾病(Y=1)。相反如果他的健康状况Z足够低,那么他就会患该疾病(Y=0)。因此,数学上Z和Y的关系可以用下面这个确定性的规则描述:

其中c为常数,代表划分Y=1和Y=0两种状态的阈值,这也是一个未知参数。再次回到咱们的车险案例,请注意神志不清醒程度Z和X(例如:血液中酒精浓度)之间的关系是一个简单的一元线性回归模型: 。根据这一线性模型和上面的阈值模型,可以判断对于车主的出险概率为:

其中 是 的分布函数。为了使得数学上的形式简洁优美,我们重新定义 为一个新的 ,那么上面的模型就变成 。你看,这是不是已经有一点点回归模型的味道了?为什么?因为有清晰的回归系数了,有截距项和斜率,而且是非常可解读的。假设 是正的,那么自变量X的取值越大,因变量Y等于1的概率就越大。因此,只要我们能够对 的分布函数做出一个合理的假设,那么我们的0-1回归模型的构建就算大功告成了!请问:应该如何假设?

第一个最自然的假设是:假设 服从正态分布。为什么?这似乎没有太多的道理,仅仅是因为这是统计学中最常用的一个分布。如果我们假设 为均值为 方差为 的正态分布,那么对应的响应概率(Y=1的概率)为:

其中, 表示标准正态分布的分布函数。在上述式子中由于 和 均为常数,因此同样可以重新定义 为一个新的 ,定义 为一个新的 。那么上面的模型就变成了 。这表明,从任何不同参数的正态分布出发,我们都可以经过一系列参数变化,将模型调整至右侧为标准正态分布函数的形式。因此,只要我们愿意接受 服从正态分布的假设,那么具体是哪一个正态分布就不重要了。但是,面对同样的数据,如果不同的研究者采用不同的正态分布设计,就可能产生不同的参数估计结果,这对实际工作而言,确实令人烦心。为了避免这些不必要的烦恼,整个学术界约定俗成地使用标准正态分布。也就是假设 服从一个均值为0、方差为1的正态分布。此时,就产生了经典的probit回归模型,其严格形式如下:

你看,这样一个probit模型的产生是不是非常自然,甚至有一点点优美,因为它与经典的线性回归有着自然而优美的联系。但是,说来你也许不一定相信,这并不是实际中用得最多的0-1回归分析模型(虽然仍然非常常用)。为什么?主要原因是,这个正态分布函数 是一个没有显式解的积分!你也许会说:这有什么难的?是的,对于计算机如此普及的今天,这样的一元积分,真的不难。但是,对于大几十年前,计算机还非常不普及的时代,计算这样的积分,是一个非常痛苦的事情。因此,人们非常渴望能有一种稍微简单一点的、有显式解的分布函数,去替代标准正态分布的 函数。这个替代函数就是逻辑分布函数:如果我们假设 的分布函数是上面的逻辑分布函数,那么对应的回归分析模型就会从probit模型变为logit模型:

而这就是实际工作中最常用的逻辑回归模型了。对于一个真实数据而言,究竟是哪一个模型更好?这通常依赖于数据情况,没有简单一致的答案。我们的个人经验表明,大多数情况下,差别不大。所有与Y变量强正相关的X变量,在任何合理设计的模型中都会正相关;所有与Y变量强负相关的X变量,在任何合理设计的模型中都会负相关。但是实际工作中,确实存在某些X变量,可能偶尔在两个模型中的表现不一致。这往往是因为这些X变量与Y变量的相关性并不足够强。因此,也许比较稳妥的一种说法是,这两个模型都是非常有用的处理0-1型因变量的模型,而且都被各个重要的统计学软件所实现,都值得好好学习和掌握。

参数估计与统计推断

接下来我们探讨一下如何对逻辑回归中的回归系数进行参数估计。这里只讨论逻辑回归,因为probit回归的估计方法完全相似。另外,逻辑回归确实在实际中用得更多一些,尤其是在现在正在兴起的深度学习模型中,逻辑回归常常是深度学习模型的最后一层(Output Layer)。具体而言,如何估计回归系数 和 呢?假设能够直接观测到Z,那么只要做一个X关于Z的最小二乘估计就可以了。但是,这里挑战之处就在于Z是看不见摸不着的。如果Z都看到了,为什么不直接研究Z呢?这样也就没有必要研究Y了。因此,我们必须得在Z缺失的前提下,在只有X和Y的帮助下,把 和 估计出来,怎么办?

显然,由于因变量为0-1型变量,因此我们不能再借助最小二乘估计。此时,我们需要求助于极大似然估计方法。对于该方法,我们在前面2.2节中做过详细讨论。这里,我们将该方法应用于逻辑回归的参数估计。和前面的过程类似,这里我们也考虑最简单的一元逻辑回归的情况,多元情形可以类似推导。假为第 个因变量的取值,而 为第 个自变量的取值。根据极大似然估计的理论,接下来需要推导 的联合概率密度函数,即似然函数。由于在一元逻辑回归中,

于是有以下似然函数:

相应地,在实际计算中常用的对数似然函数可以表示如下:

按照极大似然估计法的步骤,接下来需要求解使得对数似然函数达到最大时的参数但遗憾的是,由于该对数似然函数形式比较复杂,在实际计算中通常借助各类最优化方法进行求解,在此处并不能给出参数的极大似然估计的显式表达式。

在进行参数的估计之后,我们实际上得到了自变量和因变量之间的关系,但仍然有一个问题没有解决:这一关系是否显著?如果参数 等于0,则意味着因变量Y与自变量无关。因此该问题可以直接转化为判断:参数 是否显著不等于0?这对应着一个双边假设检验问题H0: v.s. H1:设 的极大似然估计量为 。由于中心极限定理,在样本量足够大时, 将服从正态分布,即: N(0,1),

其中 是 的标准差。因为 是关于 的一个测量,而 是关于该测量的测量误差,因此也称其为标准误差(Standard Error)。然后可以构造假设检验统计量 ,其中 是关于 的一个相合估计。当 时,接受原假设H0: 。反之当 时,接受对立假设H1: 。上述的参数检验方法也叫做Z检验,在一般的统计软件中都能对逻辑回归模型的参数进行Z检验,并获取对应的检验统计量计算值和检验结果。或者也可以计算p值为 。相应地,如果p值小于预设的显著性水平 ,那么就可以拒绝原假设。

以上探讨的是只有一个X变量的逻辑回归。而本案例涉及多个X变量。具体而言: 表示是否为中高级车,其中 表示是中高级车(引擎大小1.6升以上),而 表示是普通级车(引擎大小在1.0至1.6升之间)。 表示是否为新车,其中 表示是新车(车龄为1年),而 表示是旧车(车龄在1年以上) 。 表示是否有防盗装置,其中 表示有防盗装置,而 表示无防盗装置。 表示是否有固定车位,其中 表示有固定车位,而 表示无。 表示所有者性质,它有三个水平,所以需要将其编码为两个哑变量。 定义表示私人所有,表示其他;表示政府所有,表示其他;因此且即表示公司所有。表示驾驶人年龄,取值范围为21到66之间的整数。表示驾驶人驾龄,取值范围为0到20之间的整数。表示驾驶人性别,其中表示驾驶人性别为女,而表示驾驶人性别为男。表示驾驶人婚姻状况,其中表示驾驶人已婚,而表示驾驶人未婚。面对这九个X变量,应该如何将它们统一到同一个逻辑回归框架之下呢?答案很简单,请看下列公式:

这就是更一般化的逻辑回归。对于任意 ,定义一个logit变换为: 。那么上面的逻辑回归模型也可以等价表示为 ,所以逻辑回归也叫做logit回归。对于这类更一般的逻辑回归模型,也可以用极大似然估计的方法求得回归系数 的估计值,并对回归系数的显著性进行假设检验。结果如下:

表4.5.2 逻辑回归模型结果

统计学入门 | 第四章 0-1回归模型

从表中可以看出,在10%的显著性水平下,显著影响是否出险的因素有:汽车级别(是否为中高级车)、是否为新车、所有者性质(是否为私人所有)、驾驶人驾龄。具体而言,可以首先以驾驶人驾龄为例来进行解读。表4.5.2表明驾驶人驾龄因素的回归系数 的极大似然估计为 - 0.0209,同时有 0.0108。因此Z统计量为 - 0.0209/0.0108 - 1.9371,对应的p值为0.0527,这表明回归系数 在10%的显著性水平下并不显著。这说明,在给定其他因素不变的前提下,驾驶人的驾龄越高,出险的可能性越低,那么具体而言低多少呢?我们可以回顾一下逻辑回归模型: 。每增加一个单位的驾龄,等式右侧降低大约0.021个单位,这意味着相应地出险可能性也将下降0.021个单位,这里的单位是 ,我们称之为对数优势比率(Log-odds Ratio),可以看到,它其实就是对出险概率( )进行logit变化。很诚实地说,这个对数优势比率不太直观,也不好解读。

我们可以用同样的方法再解读一下是否为中高级车这一变量( ),请注意自变量 也是一个0-1型变量,其中 表示是中高级车,而 表示是普通级车。对应回归系数 的极大似然估计为 - 0.3249,同时有 0.0858。因此Z统计量为 - 0.3249/0.0858 - 3.7886,对应的p值为0.0002,表明回归系数 在10%的显著性水平下显著。这说明 变量的“增加”会导致出险概率变大。但 变量是一个0-1变量,因此它只有一种“增加”的可能性,那就是从普通级车( )变为中高级车( ),此时出险可能性会减少约0.325个单位。换一种说法,这说明在控制其他X变量不变的情况下,中高级车( )与普通级车( )相比,出险的风险更低。接着还可以尝试解读一下是否为女司机这一变量( ),这也是一个0-1型变量,其中 表示男司机,而 表示女司机。对应回归系数 的极大似然估计为 0.1639,同时有 0.1357。因此Z统计量为 0.1639/0.1357 1.2078,对应的p值为0.2271,表明回归系数 在10%的显著性水平下不显著。这说明,在数据不提供任何强有力的证据时,难以证明不同性别的司机在驾驶安全方面有显著差异。总而言之,表4.5.2的结果表明,一个容易导致车险出险的司机应该具有如下特征:驾龄较高、驾驶车辆级别为普通级车、驾驶车辆为新车、驾驶车辆为私人所有。相反,一个不容易导致车险出险的优质司机应具有的特征是:驾龄较低、驾驶车辆级别为中高级车、驾驶车辆为旧车、驾驶车辆不为私人所有。

以上就是对逻辑回归模型的简要介绍。关于逻辑回归模型的理论有着更加丰富的内容可以深入。有兴趣的读者可以参考回归分析相关的专著,本书就不再深入讨论了。请注意,逻辑回归虽然不是严格的线性回归,但是同线性回归有着非常相似的构造。因此理论上,我们称其为一种广义线性回归模型(Generalized Linear Model)。而在下一节中,我们将呈现给大家的是更加有趣的非线性分类方法,为大家进一步学习机器学习方法提供一个小小的起点。

1数据来源:国家统计局

内容索引

引言:从不确定性出发

第1章:不确定性的数学表达:连续型数据

第1章:不确定性的数学表达:正态概率密度

第1章:不确定性的数学表达:t-分布

第1章:不确定性的数学表达:指数分布

第1章:不确定性的数学表达:0-1分布

第1章:不确定性的数学表达:泊松分布

第2章:参数估计:矩估计

第2章:参数估计:极大似然估计

第2章:参数估计:正态分布均值的区间估计

第2章:参数估计:正态分布方差的区间估计

第2章:参数估计:其他分布参数的区间估计

第2章:参数估计:样本量的计算

第3章:假设检验:不确定性与决策

第3章:假设检验:两种不同类型的错误

第3章:假设检验:为什么推翻原假设

第3章:假设检验:关于均值的假设检验问题

第3章:假设检验:假设检验的各种推广

第3章:假设检验:假设检验中的p.Value

第3章:假设检验:假设检验中的样本量计算

第4章:回归分析:回归分析是什么

第4章:回归分析:数据类型与回归模型

第4章:回归分析:线性回归模型

第4章:回归分析:时间序列模型

其他相关
统计学就业方向及前景 统计学就业方向

统计学就业方向及前景 统计学就业方向

作者: 天天见闻 时间:2024-03-19 阅读: 19
流行病统计学就业前景此专业的毕业生就业方向:①高等院校和科研单位从事教学和研究工作;②各级卫生监督及疾病预防控制部门、职业病防治机构、出入境检验检疫、环境监测、卫生预防保健单位、各级卫生行政管理机构。③部分硕士研究生继续攻读博士学位;④国外大学和科研机构等从事教学、科研和医疗卫生工作。经济学和统计学那个专业更好……...
预防性侵犯教育研究

预防性侵犯教育研究

作者: 天天见闻 时间:2023-06-10 阅读: 72
评估学校预防性侵犯教育对农村小学四年级学生知识和技能的影响,并为在农村小学开展预防性侵犯教育和研究提供科学依据,教育后教育组学生预防性侵知识和技能得分明显增加;学生性侵犯预防知识技能水平仍明显高于教育前,为了考察农村小学性侵犯预防教育对学生知识和技能的影响,河南省某农村地区8所小学四年级学生中开展了预防性侵犯教育研究,本研究结果将为我国农村地区以学校为基础的预防性侵犯教育事业提供实践经验。...
机器学习是如何影响我们的工作的?

机器学习是如何影响我们的工作的?

作者: 天天见闻 时间:2023-05-15 阅读: 89
它是一个人工智能系统,能够掌握人类社会的所有信息,计算未来的某种可能性,并给出任何问题的答案。外科医生在手术时,可以通过图像识别和机器学习算法的实时建议进行操作。近年来,涌现出一批实证性研究,探讨人工智能算法在工作中帮助人类决策的作用。我们首先应该了解机器学习如何影响我们的工作?分析机器学习如何影响一个具体任务。机器学习在自然语言处理、图像识别等方面已经可以超越人类。...
统计局副局长毛有丰:进一步发挥人才资源优势 推进统计学科跨越发展

统计局副局长毛有丰:进一步发挥人才资源优势 推进统计学科跨越发展

作者: 天天见闻 时间:2022-12-12 阅读: 140
  中国网财经12月12日讯 据国家统计局12月12日消息,12月10日,中国统计教育学会七届七次会长办公会以视频会议方式顺利召开。国家统计局党组成员、副局长,中国统计教育学会会长,全国应用统计专业学位研究生教育指导委员会主任毛有丰在会议上强调,2023年,学会要以党的二十大精神引领统计教育事业更好发展。要进一步发挥人才资源优势,激发学会发展新动能,开创工作新局面。...
加拿大 | 加拿大留学之统计学申请

加拿大 | 加拿大留学之统计学申请

作者: 天天见闻 时间:2022-11-09 阅读: 155
统计学专业主要开设了数理统计、描述统计、国民经济核算、宏观经济统计分析、抽样调查原理、多元统计分析、计算机应用、政治经济学、西方经济学、会计学、货币银行学、国际金融等。但是从整体情况来看,加拿大统计学专业的毕业生还是处于供不应求的状态,有发展的潜力。...

19 统计学:统计分析模型

作者: 天天见闻 时间:2022-09-29 阅读: 178
在实际的业务中,我们常常需要对一些业务问题进行建模,运用统计分析模型来解决问题,接下来我们就进入统计学习的进阶阶段,了解一下统计分析模型有哪些。统计分析方法体系多变量统计分析方法分类方差分析模型为了分析分类型自变量对数值型因变量的影响,需要从数据误差来源分析。回归分析模型回归分析和相关分析都是研究变量间关系的统计学课题,它们的差别主要是:回归分析模型介绍...
我来说两句

年度爆文