数据分析思维:用Excel做相关性分析

为什么要写【数据分析思维】这个系列文章?还是回到一个最根本的问题上:数据分析师到底是干什么的?

数据分析思维:用Excel做相关性分析

我相信不仅是想入门的小伙伴,已经入行很久的数据分析师可能多多少少还是会有些不清楚。数据分析师是每天被各个业务方呼来唤去的提数工具人么?还是被各种不靠谱的可视化软件蹂躏的报表maker?还是好不容易做了个专题分析,却被业务方嫌弃不说“人话”的,只会纸上谈兵、指手画脚的外行?

我相信每个数据分析师都会多多少少经历以上的心路历程,直到某天突然明白数据分析的终极奥义,才能跳出这个让人迷茫的怪圈。原来数据分析是要:熟悉业务,在此基础上基于对业务的理解发现业务上的问题,然后提出分析的方案,然后再是用工具提数分析,最后给出结论和建议,并推动相关方实施落地,进而解决问题,完成从业务中发现问题,再回到业务中解决问题的完整闭环。这才是数据分析的真正意义。

明白了这些,你可能就会发现,区别于其他的开发类工作,数据分析是以业务、思维为主、工具为辅的工作,重要的不是你会多么高端牛逼的工具和算法,而是你怎么发现问题,怎么形成分析思路,这才是数据分析师拉开差距的关键所在,至于剩下的就是怎么具体实施,这个,找个实习生也能做,哪部分工作含金量更高、被取代难度更大,一目了然了吧?

这也是我写【数据分析思维】系列文章的原因,数据分析本身就是业务和思维为重,授人以鱼不如授人以渔,清晰完备的思维可以让你事半功倍,知道怎么做远比实际做要重要的多,代码未动,思维先行,懂得运筹帷幄才能走得更远。

01、什么是相关性?

什么是相关性?

相关性是描述两个变量之间相互关系强弱和方向的度量。它不仅能够研究两个变量之间的相互影响的强弱,还能表征影响的方向(正负),是数据分析中较为常见的研究变量关系的方法。

以下是几个相关性很强的示例:例如,摄入的卡路里数量和体重存在着正相关,即卡路里摄入的越多,体重也会随之增加,此长彼长。但外界温度与您的暖气费也存在着相关性,只是两者是负相关,即外界温度越低,暖气费用就会越高,此长彼消。

当然也有很多没有相关性的例子:例如,猫的名字和他们最喜欢的食物,眼睛的颜色和身高,这些往往并不存在着相关性。

要了解相关性,最重要的一点是,它仅显示两个变量之间的相关性如何。但是,相关并不意味着因果关系。一个变量a的变化可能会引起另一变量b的变化,但这并不意味着另一个变量b的变化是由变量a导致的。

相关系数r

用于衡量两个连续变量之间相关性的度量称为相关系数r。相关系数r的值始终在-1和1之间,通过大小衡量变量之间线性关系的强弱,通过正负表征线性关系的方向。

r的绝对值越大,相关性越强:

  • 当所有数据点都位于一条线上时,r=-1或1表示理想的线性关系。实际的数据分析中,很少观察到这种理想的正相关或负相关。
  • r=0表示变量之间没有线性关系,两组完全随机的数据可能会得到这样的结果。
  • r介于0到+ 1 / -1之间可以表示弱、中和强相关的等级。当r越接近-1或1时,关系的强度增加。

r的正负表示相关性的方向:

  • r>0表示正相关,作图时呈现向上的斜率,即随着一个变量的增加,另一个变量也增加,反之亦然。
  • r<0表示负相关,作图时呈现向下的斜率,即随着一个变量增加,另一变量减小。

为了更好地理解,请查看以下相关图:

  • 相关系数r=1表示完美的正相关,随着一个变量的增加,另一个变量成比例地增加。
  • 相关系数r=-1表示完美的负相关,当一个变量增加时,另一个变量按比例减少。
  • 相关系数r=0意味着两个变量之间没有关系,数据点散布在整个图形上。

皮尔逊相关系数 在相关性分析中,会根据使用的数据类型不同选择不同的相关系数。这里我们将重点介绍最常见的一个。

皮尔逊相关系数(Pearson Correlation)用于在一个变量的变化与另一个变量的比例变化相关联时评估数据之间的线性关系。注意,这里着重强调是用来评估是否具有“线性”关系,简单来说,皮尔逊相关系数可以回答以下问题:相关性可以通过直线展示么?

下面是Pearson相关系数r的公式,

数据分析思维:用Excel做相关性分析

虽然公式看起来很复杂,但实际上Excel提供了相关性分析所需的函数和工具,我们只需要学会使用它们即可,不用Python不用R,就用Excel我们就可以做相关性分析。

02、Excel函数计算相关性

要手动计算相关系数,必须使用上面那个老长的公式,万能的Excel早已经帮我们准备好了函数,在Excel中我们用CORREL或PEARSON函数在一秒内就可以获得结果。

Excel CORREL函数

CORREL函数返回两组值的Pearson相关系数。它的语法非常简单明了:

CORREL(数组1,数组2)

假设我们在B2:B13中有一组自变量(x),在C2:C13中有因变量(y),则我们的相关系数公式如下:

=CORREL(B2:B13, C2:C13)

或者,我们可以交换范围并仍然得到相同的结果:

=CORREL(C2:C13, B2:B13)

无论哪种方式,该公式都表明平均每月温度与售出的加热器数量之间存在很强的负相关性(约-0.97)。

数据分析思维:用Excel做相关性分析

Excel PEARSON函数

Excel中的PEARSON函数也可以执行相同的操作,用来计算Pearson相关系数,语法类似: PEARSON(数组1,数组2) 因为PEARSON和CORREL都计算了Pearson线性相关系数,所以它们的结果应该一致,但是,在Excel 2003和更早版本中,PEARSON函数可能会显示一些舍入错误。因此,在旧版本中,建议优先使用CORREL而不是PEARSON。

在我们的样本数据集上,两个函数都显示出相同的结果:

数据分析思维:用Excel做相关性分析

03、Excel工具箱计算相关性

除了直接使用函数计算两组变量之间的相关性外,还可以使用Excel提供的数据分析工具箱计算相关性系数。

打开Excel,在“数据”tab页下有相关性分析的工具,默认情况下是不激活的,可以在设置中进行激活,激活步骤可以百度,这里不再展开。

将数据分析工具添加到Excel功能区后,您就可以运行相关分析了:

1、在“数据”选项卡>“分析”的右上角,单击“数据分析”按钮。

数据分析思维:用Excel做相关性分析

2、在“数据分析”对话框中,选择“相关系数”,然后单击“确定”。

数据分析思维:用Excel做相关性分析

3、在参数设置框中,按照以下方式配置参数:

  • 单击“输入区域”框,然后选择包含您的源数据的范围,包括列标题(在本例中为B1:C13)。
  • 在“分组方式”部分,确保已选中“逐列”单选框(假定您的源数据已分组为列)。
  • 如果所选范围包含列标题,请选中“标志位于第一行”复选框。
  • 选择所需的输出选项。要将矩阵放在同一张纸上,请选择“输出区域”,并指定要输出结果的单元格位置(在此示例中为A15)。
  • 完成后,单击“确定”按钮:

数据分析思维:用Excel做相关性分析

就这么拖拉拽拽,相关系数的计算就完成了,下面就会展示相关的结果。

在上面的示例中,我们想知道因变量(售出的加热器数量)和自变量(平均每月温度)之间的相关性。因此,我们只需要看这些行和列的交点处的数字,如下所示:

数据分析思维:用Excel做相关性分析

同样的,负系数-0.97表明每月温度与加热器销售之间存在很强的负相关关系,即随着温度的升高,加热器的销售量将减少。

04、散点图进行相关性分析

在进行相关性分析时,还可以通过绘制散点图,通过计算散点图的趋势线进行相关性分析,具体步骤如下:

1.选择两个包含数据的列,列的顺序很重要:自变量应在左列中,将在x轴上绘制。因变量应该是在右列,将在y轴绘制。

2.在“插入”选项卡上的“图表”组中,单击“散点图”图标。这将立即在工作表中插入XY散点图。

3.右键单击图表中的任何数据点,然后从上下文菜单中选择“添加趋势线”。

对于以上数据集,相关性图如下图所示。此外,除了绘制的趋势线外,还显示了R 2,也称为“决定系数”。此值表示趋势线与数据的对应程度,R 2越接近1,拟合越好。根据散点图上显示的R 2值,对其进行开方可以轻松计算出相关系数:

例如,第二张图中的R 2值为0.9455。因此,您可以找到使用以相关系数R=SQRT(0.9455)=0.9455^0.5,与之前计算的结果完全一致。

数据分析思维:用Excel做相关性分析

05、总结

虽然皮尔逊相关性分析非常方便,但在使用的时候有几点需要注意:

1、皮尔逊相关系数仅可以表征两个变量之间的线性关系,这意味着,如果两个变量是以另一种曲线形式强烈相关,皮尔逊相关系数可能仍等于或接近于零。

2、皮尔逊相关性并不能区分因变量和自变量。例如,当使用CORREL函数查找平均每月温度与售出的加热器数量之间的相关性时,我们得到的系数为-0.97,这表明负相关性很高。但是,如果交换两个变量的位置仍会获得相同的结果。因此,有人可能会得出结论,较高的加热器销售量会导致温度下降,这显然是没有意义的。因此,在Excel中运行相关性分析时,还要注意所提供的数据逻辑关系。

3、此外,皮尔逊相关对异常值非常敏感。如果数据中存在着明显的离群点和异常值,皮尔逊相关系数可能会计算不出变量之间的相关性。在这种情况下,可以使用Spearman相关性。

以上就是数据分析思维—相关性分析部分的内容,部分数据分析思维请翻看历史文章,更多数据分析思维的文章持续更新中,敬请期待!

业界动态

元气森林已然无法调头

2021-4-21 11:29:36

业界动态

七条交互设计原则,和你一起重新设计产品!

2021-4-21 11:44:02

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索