当前位置: 首页 > 科技 > 人工智能 > 16种常用的数据分析方法-回归分析_腾讯新闻

16种常用的数据分析方法-回归分析_腾讯新闻

天乐
2020-06-29 22:52:28 第一视角

1

回归的由来

回归这个词最早是被高尔顿提出的,高尔顿是达尔文的表兄。他非常痴迷于兄长的进化论说,所以一直期望把进化论理论应用到实证中以证明不同人为什么会具有不同的特性。

终于,高尔顿发现:父亲的身高和儿子的身高之间存在着某种给定的关系。

通过进一步的研究发现:子辈的平均身高是其父辈平均身高以及他们所处族群平均身高的加权平均和。

伴随着这一著名发现,“回归”一词首次被提出。

论文中把“回归”现象称为:均值回归或者平庸回归(reversion to the mean/reversion to mediocrity)。意思是:哪怕单看一组父亲和孩子的身高,两个人的身高可能差异很大,但是从整个人群上来看,父亲和孩子的身高分布应该是很相近的。

2

回归分析

研究自变量与因变量之间关系形式的分析方法,它主要是通过建立因变量y 与影响他的自变量Xi 之间的回归模型,来预测因变量y 的发展趋势。

3

回归分析类型

1、一元线性回归分析:

只有一个自变量X与因变量Y有关,X与Y都必须是连续型变量,因变量y或其残差必须服从正态分布。

2、多元线性回归分析

使用条件:分析多个自变量与因变量Y的关系,X与Y都必须是连续型变量,因变量y或其残差必须服从正态分布。

3、Logistic回归分析

线性回归模型要求因变量是连续的正态分布变里,且自变量和因变量呈线性关系,而Logistic回归模型对因变量的分布没有要求,一般用于因变量是离散时的情况

Logistic回归模型有条件与非条件之分:

条件Logistic回归模型和非条件Logistic回归模型的区别在于参数的估计是否用到了条件概率。

4、其他回归方法 非线性回归、有序回归、Probit回归、加权回归等

之所以有不同类型的回归分析,是由于原始分析数据X、Y变量的数据类型不同,不同类型的数据在进行回归分析时,要采用合适的回归分析类型。

线性回归分析:适用Y为定量变量、只有1个:

当回归模型中X变量只有1个,则适用简单线性回归或者一元线性回归;

当X变量有多个,则应进行多元线性回归分析。

Logistic回归,:适用Y为定类变量、只有1个:

当Y为0、1变量时(比如1为愿意和0为不愿意,1为购买和0为不购买),应进行二元logistic回归分析或二元Probit回归模型;

当Y为分类变量时,如1,2,3(比如DELL, Thinkpad,Mac),应做多分类logistic回归分析;

而Y为多类且为有序变量时,如1,2,3(比如1为不愿意,2为中立,3为愿意),可使用有序logistic回归分析。

Y为定量变量、只有多个时:

有时会将Y合并概括成1个(比如使用平均值),然后使用线性回归

如不做Y合并,可考虑使用PLS回归(此情况使用较少,PLS回归模型非常复杂)。

4

为什么使用回归分析?

看例子:

在疫情影响的经济条件下,要估计一家公司的销售额增长情况。

你有公司最新的数据,数据显示销售额增长大约是经济增长的2.5倍。使用回归分析,我们就可以根据当前和过去的信息来预测未来公司的销售情况。

由此可知,回归分析能够跟据过去与当前的销售额变量,预估公司未来的销售情况。

这是由于回归分析的结论能够:

表明自变量和因变量之间的显著关系

表明多个自变量对一个因变量的影响强度

所以在工作中,回归分析能够帮助我们比较衡量不同尺度的变量之间的相互影响,如价格变动与促销活动数量之间联系,并构建预测模型。

5

案例

一、问题与数据

有一份关于大学生对某商品购买意愿的调查问卷。共收集到468份问卷数据,将“性别”、“年龄”、“专业”、“收入(生活费)”四个变量作为潜在的影响因素,购买意愿为Y,做二元Logistic回归分析。

部分问卷数据如图:

二、对问题的分析

使用Logistic模型前,对数据进行基本判断:

假设1:因变量即结局是二分类变量。

假设2:有至少1个自变量,自变量可以是连续变量,也可以是分类变量。

假设3:每条观测间相互独立。分类变量(包括因变量和自变量)的分类必须全面且每一个分类间互斥。

假设4:最小样本量为自变量数目的15倍,也有认为样本量应达到自变量数目的50倍

三、SPSS操作

1.选择 “分析”-“回归”-“二项 Logistic回归”

2.“选项”指定输出内容和设置建模中的某些参数。如下图:

3. “保存”项将预测结果等保存到数据编辑窗口,如下图:

4. “分类”选项设置性别、收入分类变量对比为指示符、以第一个为参考类别。

结果解释:

无购买意向的269人中,模型正确识别了236人,错误识别了33人,正确率为87.7%。有购买意向的162中,模型正确识别了31人,错误识别了131人,正确率为19.1%,模型的总的预测正确率为62.9%。

最终检验中, P值为0.364,大于显著性水平,因此,不拒绝原假设。

在单因素分析中,年龄的统计p值大于0.05,接受原假设。

也就是说,模型中年龄变量对是否愿意购买影响不显著,可以不用考虑年龄。

提示:支持键盘“← →”键翻页
为你推荐
加载更多
意见反馈
返回顶部