文丨SUNIL RAY
编译丨丘岳才 触脉咨询数据分析师
目录
1、什么是回归分析?
2、我们为什么要使用回归分析?
3、回归分析有哪些类型?
- 线性回归
- 逻辑回归
- 多项式回归
- 逐步回归
- 岭回归
- 套索回归
- ElasticNet回归
4、如何选择合适的回归模型
引言
线性和逻辑回归通常是人们在数据科学中学习的第一个算法,由于它们的流行,很多分析师甚至认为它们是回归的唯一形式。对此关注较多的人则认为,它们是各种回归分析中最重要的形式。
事实上,有无数种可执行的回归形式。每种形式都有其自身的重要性和最适合应用的特定条件。在本文中,我将以简单的方式介绍数据科学中最常用的7种回归类型。
通过本文,我也希望大家能够对回归的广度有一个概念,而不是仅将线性/逻辑回归应用到我们遇到的每个机器学习问题上,并希望它们刚好合适。
什么是回归分析?
回归分析是一种预测建模技术,用于研究因变量(目标)和自变量(预测变量)之间的关系。该技术用于预测、时间序列建模以及找出变量之间的因果关系。
例如,通过回归可以更好地研究驾驶者的鲁莽驾驶和道路交通事故数量之间的关系。
回归分析是数据建模和分析的重要工具。在这里,我们将曲线/直线拟合到数据点上,使数据点与曲线或直线之间的距离差减到最小。在接下来的章节中将更详细的解释这一点。
我们为什么要使用回归分析?
如前所述,回归分析预测两个或多个变量之间的关系。让我们用一个简单的例子来理解这一点。
比方说,你想要根据当前的经济状况来估计一家公司的销售增长。你有公司最近的数据表明,销售增长约为经济增长的2.5倍。基于此,我们可以根据当前和过去的信息预测公司未来的销售情况。
使用回归分析有多种好处。如下:
1、它表明了因变量和自变量之间的显著关系。
2、它表明了多个自变量对一个因变量的影响强度。
回归分析还允许我们比较在不同尺度上测量的变量的影响,例如价格变化和促销活动数量之间的影响。这些都有助于市场研究人员/数据分析师/数据科学家评估用于建立预测模型的最佳变量集。
回归分析有哪些类型?
有各种回归技术可以用来进行预测。这些技术主要由三个指标驱动(自变量的数量、因变量的类型和回归线的形状),我们将在下面几节中详细讨论它们。
对于那些有创意的人,如果觉得需要使用上述参数的组合,甚至可以编造出以前没有用过的新的回归。但在这之前,让我们先来了解最常用的回归:
1、线性回归(Linear Regression)
它是最广为人知的建模技术之一。线性回归通常是人们在学习预测建模时最先选择的几个主题之一。在这种技术中心,因变量是连续的,自变量可以是连续的或离散的,回归线的性质是线性的。
线性回归使用最佳拟合直线(也称为回归线)在因变量(Y)和一个或多个自变量(X)之间建立联系。
它由方程 Y=a+bx+e 表示,其中a是截距,b是直线的斜率,e是误差项。该方程可以根据给定的预测变量来预测目标变量的值。
简单线性回归与多元线性回归的区别在于,多元线性回归有(>1)个自变量,而简单线性回归只有1个自变量。现在的问题是“我们如何获得最佳拟合线?”
如何获得最佳拟合线(a和b的值)?
用最小二乘法可以很容易地完成这一工作。这是用于拟合回归线最常用的方法。它通过最小化,从每个数据点到该线的垂直偏差的平方和,来计算观测数据的最佳拟合线。由于偏差是先平方的,因此相加后,在正值和负值之间不会抵消。
重点:
- 自变量和因变量之间必须存在线性关系。
- 多元回归存在多重共线性、自相关、异方差等问题。
- 线性回归对异常值非常敏感。它会严重影响回归线,并最终影响预测值。
- 多重共线性增加了系数估计的方差,使估计对模型中的微小变化非常敏感。结果是系数估计是不稳定的。
- 在有多个自变量的情况下,我们可以采用正向选择、反向消除和逐步法来选择最重要的自变量。
2、逻辑回归(Logistic Regression)
逻辑回归用于查找“事件=成功”和“事件=失败”的概率。当因变量本质上是二进制(0/ 1,真/假,是/否)时,我们应该使用逻辑回归。这里Y的取值范围为0到1,可以用以下方程表示。
上面,p是兴趣特征出现的概率。在这里,你应该会有个问题:“为什么我们要在等式中使用对数log ?”
由于我们在这里处理的是一个二项分布(因变量),我们需要选择一个最适合这个分布的联系函数。在上面的方程式中,选择参数是为了最大化观测样本值的可能性,而不是最小化平方差之和(如普通回归)。
重点:
- 逻辑回归广泛应用于分类问题。
- 逻辑回归不需要因变量和自变量之间存在线性关系。它可以处理各种类型的关系,因为非线性对数转换对预测让步比更合适。
- 为了避免过度拟合和拟合不足,应该包含所有的重要变量。正确的方法是使用逐步回归法来估计逻辑回归。
- 它需要较大的样本容量,因为在样本容量较小的情况下,最大似然估计的能力不如普通最小二乘法。
- 自变量之间不应相互关联,即不存在多重共线性。
- 如果因变量的值是有序的,则称之为有序逻辑回归。
- 如果因变量是多类别的,则称之为多分类逻辑回归。
3、多项式回归(Polynomial Regression)
如果自变量的幂大于1,则回归方程为多项式回归方程。以下方程式表示多项式方程:
在这种回归技术中,最佳拟合线不是直线,而是一条与数据点相吻合的曲线。
重点:
- 尽管可以尝试拟合更高阶的多项式以获得更低的误差,但这可能导致过拟合。绘制关系图以查看拟合,并着重于确保曲线符合问题的性质。下面有一个如何绘图的例子可以提供帮助。
- 尤其要注意末端的曲线,看看这些形状和趋势是否有意义。高阶多项式在推断上最终会产生更奇怪的结果。
4、逐步回归(Stepwise Regression)
当我们处理多个自变量时,会用到这种回归形式。在这种技术中,自变量的选择过程是自动的,无需人工干预。
这个方法是通过观察统计值,如R方、t-stats和AIC指标来识别重要的变量。逐步回归根据特定的标准,每步增加/删除一个协变量来拟合回归模型。
以下是一些最常用的逐步回归方法:
- 标准逐步回归做了两件事:根据需要每步添加/删除预测变量。
- 前向选择从模型中最重要的预测变量开始,并为每步添加变量。
- 后向消除从模型中的所有预测变量开始,并为每步删除最不重要的变量。
这种建模技术的目的是用最少的预测变量使预测能力最大化,是处理更高维度数据集的方法之一。
5、岭回归(Ridge Regression)
当数据之间存在多重共线性(自变量高度相关时),则使用岭回归。在多重共线性中,尽管最小二乘估计(OLS)是无偏的,但其方差较大,使观测值偏离了真实值。岭回归通过在回归估计中加入一定程度的偏差,来降低标准误差。
上面,我们已讲过线性回归方程,还记得吗?它可以表示为:
该方程式还有一个误差项,完整的等式为:
在线性方程中,预测误差可以分解为两个子分量。一个是偏差造成的,一个是方差造成的。这两种或两种因素中的任何一种,都可能发生预测误差。在这里,我们将讨论由方差引起的误差。
岭回归通过收缩参数λ(lambda)解决多重共线性问题。看下面的等式:
在这个方程中,我们有两个分量。第一个是最小二乘项,另一个是β平方的λ倍,其中β是系数。将其添加到最小二乘项中以得到一个非常低的方差。
重点:
- 该回归的假设与最小二乘回归相同,只是不假设正态性。
- 它缩小了系数的值,但没有达到零,这意味着无特征选择功能。
- 这是一种正则化方法,使用l2正则化。
6、套索回归(Lasso Regression)
与岭回归相似,套索算法(Lasso,全称Least Absolute Shrinkage and Selection Operator)也惩罚回归系数的绝对值。此外,它还可以降低线性回归模型的变异性,并提高模型的精度。看下面的方程式:
套索回归与岭回归的不同之处在于,它在惩罚函数中使用绝对值而不是平方。这将导致惩罚值使某些参数估计值恰好为零。使用的惩罚越大,估计值就会进一步缩小到接近绝对零值。这将导致要从给定的n个变量中选择变量。
重点:
- 该回归的假设与最小二乘回归相同,只是不假设正态性。
- 它将系数缩小为零(恰好为零),这无疑有助于特征选择。
- 这是一种正则化方法,使用l1正则化。
- 如果预测变量组高度相关,套索算法只会选择其中一个并将其他变量缩小为零。
7、ElasticNet回归(ElasticNet Regression)
ElasticNet回归是岭回归和套索回归技术的混合体。它使用l1训练且l2优先作正则化。当存在多个相关的特征时,ElasticNet会很有用。套索算法可能会随机选择其中一个,而ElasticNet可能会同时选择两个。
在套索回归和岭回归之间进行折衷的一个优势是,它允许ElasticNet在循环状态下继承岭回归的一些稳定性。
重点:
- 它在变量高度相关的情况下,鼓励群体效应。
- 所选变量的数量没有限制。
- 它可能会受到双重收缩。
如何选择合适的回归模型?
当你只知道一两种技巧时,生活通常是简单的。我曾经听到过这样一个结论:如果结果是连续的——则使用线性回归,如果结果是二进制的——则使用逻辑回归!
然而,可供我们选择的选项越多,选择正确的选项就越困难。回归模型也有类似的情况。
在多种类型的回归模型中,根据自变量和因变量的类型、数据的维数以及数据的其他基本特征来选择最合适的技术是很重要的。
以下是选择合适的回归模型的关键因素:
1、数据挖掘是建立预测模型不可或缺的一部分。在选择正确的模型之前,首先应该确定变量之间的关系和影响。
2、为了比较不同模型的拟合优度,我们可以分析不同的指标,例如参数统计显著性、R方、修正R方、AIC、BIC和误差项等。另一个是Mallows’s Cp准则,就是通过将模型与所有可能的子模型(或仔细选择后的子模型)进行比较,来检查模型中可能存在的偏差。
3、交叉验证是评估用于预测的模型的最佳方法。这里将数据集分为两组(训练和验证)。观测值和预测值之间的简单均方差可以衡量预测的准确性。
4、如果你的数据集中有多个干扰变量,则不应该选择自动选型法,因为你不会想同时把这些干扰变量放到模型中。
5、这也取决于你的目标。与具有高度统计意义的模型相比,功能较弱的模型更容易实现。
6、正则化回归(岭回归、套索回归、ElasticNet回归)适用于高维数据集和变量多重共线性的情况。
结束语
现在,希望大家已经对回归有了一个概念。这些回归技术的应用应考虑到数据的条件。找出使用哪种技术的最佳技巧之一是检查变量族,即离散变量或连续变量。
在本文中,我们讨论了7种回归类型及其关键因素。如果你作为这个行业的新手,建议学习这些技术并在模型中运用它们。