假设检验:基本概念原理及假设检验的应用步骤方法

统计学相关的内容,我们之前分享了《抽样分布》、《极大似然估计等参数估计》、《区间估计》等。参数估计与假设检验都属于统计推断的范畴,今天分享一下假设检验的基本知识。

假设检验:基本概念原理及假设检验的应用步骤方法

01、为啥需要假设检验

正式开始之前,先聊聊,假设检验到底有啥用?

我们之前分享过《AB测试系统的搭建》相关的文章。假设我们实施了推荐算法的AB测试,回收效果数据后,将面临一个问题:改进后的算法,效果数据是否有显著提升?假设实施算法的改进之前,我们推荐模块的平均点击率是3%,方差是σ。实施算法后,测试数据的平均点击率是3.1%。请问,算法是否有明显的效果改善?

如果没学过假设检验,很多同学很有可能就会觉得明显改善了。因为3.1%比3%明显提升了嘛!但是学习了假设检验后,我们需要用更加严谨的思维来看待这个问题。3.1%的提升,有可能并不是算法优化带来的,而仅仅是系统误差而已。

可以说,假设检验是解决这一类问题的良药。因此在日常数据分析工作中,假设检验是很重要的内容与工具之一,应用场景比较多。

02、基本概念

先讲一下假设检验的一些基础概念。

1)假设

对总体未知分布提出的论断,就是假设。这里的假设,是个名词。

其实在统计中,总体分布未知包括两种情况:一种是总体的分布类型未知,一种是总体分布类型已知但参数未知。

对于前一种(总体分布未知)提出的假设,属于非参数假设;对于后一种(分布已知参数未知)提出的假设,属于参数假设。

我们本篇文章重点是参数假设,非参数假设后面再详细展开。

2)假设检验

什么是假设检验呢?

所谓的“假设检验”,就是检验假设成立与否的过程。它是用来判断样本与样本、样本与总体的差异是由抽样误差引起、还是本质差别造成的统计推断方法。

03、基本思想和步骤

如何进行假设检验呢?

1)基本思想

我们通过一个通俗易懂的例子,来阐述假设检验的基本思想。

【例】比如一个袋子里有两种颜色(红、白)共100个球。张三说“一共有99个白球”。但是从袋子中抽取一个球,发现是红色的。那么张三的说法是对的吗?

【思想】用反证法。假设张三说的是对的,那么抽一个球是红球的概率是0.01,明显是个小概率事件,因此张三说的是对的这个假设,是很难成立的。因此我们有理由拒绝假设,那么,张三说的是错的。

2)假设检验步骤

其实从上面的基本思想来看,基本也能get到假设检验的步骤。

  • 步骤一:提出原假设H0与备择假设H1。
  • 步骤二:假定H0成立,构造检验统计量T(需分布已知)
  • 步骤三:给定α下,关注求解小概率事件的临界值
  • 步骤四:根据样本数据,计算检验统计量T的值。
  • 步骤五:根据T的值,判断小概率事件是否发生(即是否落在拒绝域中),下结论是否接受原假设H0

关于一个正态总体下,不同条件下的检验统计量的构造,可以参考下表:

假设检验:基本概念原理及假设检验的应用步骤方法

是的,这里和区间估计中的枢轴变量是很像的。只不过区间估计时,枢轴变量中的参数是未知,用来求未知参数;而假设检验中,是假设未知参数已知,验证统计量是否属于小概率事件。

04、两类错误

我们前面说,根据实际问题提出假设,然后根据样本去检验假设是否成立。这是一个统计推断。步骤很严谨,但实际上做出的统计推断未必一定是对的。

为啥呢?

因为样本的随机性会导致错误,或者样本容量过小,也会导致推断是错的。因此,统计推断就是有误差的,这是正常的。

关于错误,分为了两类,可以看下表:

假设检验:基本概念原理及假设检验的应用步骤方法

  • 一类错误:即弃真错误,概率记为α。
  • 二类错误:即取伪错误,概率记为β。

我们肯定期望将α和β的值越小越好,但现实中是不可能的,除非将样本量n无限增大。通常来讲,我们是尽可能确保α越小越好的前提下,再降低β。

关于假设检验,今天先分享这些,后面找机会结合具体案例给大家再分享。

业界动态

关于短视频实操的方法论

2021-4-22 9:54:45

业界动态

浅谈埋点数据质量管理

2021-4-22 9:58:11

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索