相关系数分析 相关性分析
作者:袁涛审稿人:快乐封面:吉江
斯塔塔实践
相关性分析
基础理论
概念解释
什么是相关性分析?相关分析通常是指研究同一位置两个或两个以上随机变量之间相关性的统计分析方法。比如:一个人的身高和体重之间;空空气中相对湿度与降雨量的相关性是一个相关分析的问题。
因为变量的数据类型不同。因此,采用的分析方法也不同。本文主要分析连续变量的相关性。
皮尔逊相关系数通常用来表示连续变量的相关性。相关系数R的取值范围在之间,绝对值代表相关程度,符号代表正相关或负相关。当值为正时,存在正相关,当值为负时,值为零,则表示不相关。
皮尔逊相关系数被广泛使用。作为参数法,它的应用还需要满足一些条件:
两个变量之间存在线性相关性,曲线相关性可能不准确。
尽量避免极端值,因为极端值会对结果产生更大的影响
两个变量应符合两个变量的联合正态分布。
如果数据不满足这些条件,可以考虑使用Spearman秩相关来解决问题。
Stata软件的实际操作
首先,导入系统自带的数据集nerlove.dta。
打开该数据的stata命令是:
使用“D:您自己存储nerlove.dta文件的路径nerlove.dta”。
或者通过stata软件导入数据集。
相关的Stata命令是sysuse nerlove,清除
此结果表明数据已成功导入。
数据导入成功后,可以先输入stata命令:
形容
查看数据集的一般信息
Pwcorr是stata系统附带的相关分析命令。如果想标注相关系数背后的显著性,可以从中山大学的连下载pwcorr_a进行相关分析,引出第二种方法。
方法2:
输入stata命令:pwcorr_a lntc lnq lnpf lnpk lnpl
结果如下:
通过比较两个命令可以发现,使用pwcorr_a命令,输出结果会标注相关分析的显著强度,更直观。
注意
* * *表示测试在1%时显著,* * *表示测试在5%时显著,*表示测试在10%时显著。
在统计表中,有些相关系数标有*,有些则没有。只有标有*才能说有关联。标记*越多,相关性越显著。
当P值表明测试在1%的水平上有意义时,标记* * *
当0.01表示测试在5%的水平上有意义时,标记* *
当0.05表示测试在10%的水平上有意义时,标记*
将相关性分析结果导出到word
提示:如果没有注销命令,需要先安装,对应的安装命令是ssc安装注销
导出相关性分析结果的命令如下:注销,保存单词替换:pwcorr _ a lntc lnq lnpf lnpklnpl
整理成符合论文要求的,使之更加美观,得到下图:
*0.05
除了注销,我们还可以通过corr2docx命令导出结果。
提示:如果没有corr docx命令,需要先安装,对应的安装命令是ssc install corr2docx
导出相关性分析结果的命令如下:corr2docx lntc lnq lnpf lnpklnpl使用相关性分析2.docx,star fmt title。
开放式相关性分析2.docx
整理成符合论文要求的,使之更加美观,得到下图:
*0.05