Regression Model是什么
Regression Model是一种基本的数据分析模型,通俗点来说就是我们在中学时期学习的截距式直线方程。通过斜率和截距来定义一种诸如 y = kx + b
的方程。一旦有了这样的方程,我们就可以通过我们现有的数据集,比如一堆x
来预测y。
今天就让我们来研究研究这一种数据模型
Centering
Centering是一种常用的数学用语,意为 集中化。什么意思呢?就是说如果我有从x1, x2 … xn 这n个数据构成的数据集{x},我可以求出他们的平均值为XM。我可以构建 bi = xi - XM
这样一个数列,这样的话,{b}这个数据集的平均值就为0,这一个过程就叫Centering。
Variances(方差)
方式的定义是:
求出一个数据集的平均数XM, 对于{x} 中的每一个数,求其与平均数差的平方。再这这些差的平房加在一起求和,最后用和除以n - 1,这里的n是数据集中数据的个数。
而标准差就是方差的平方根。 通过构建bi = xi / 标准差s
可以得到{b}数据集,它的标准差为1,这一过程也叫做Scaling
Normalization
将数据集先Centering再Scaling的过程叫做Normalization。
Covariance(协方差)
协方差的定义其实和方差类似,只不过针对的是一对数据集{x, y}。
求出数据集{x}的平均数M,求出数据集{y}的平均数N,对于每一个i,求和
(xi - M) * (yi - N)
,最后和除以n - 1
,其中n是数据集中数据的个数。
Corrleation(两个数据集的关联)
Correlation就是将两个数据集的协方差除以{x}的标准差和{y}的标准差的乘积。
Correlation的值域从-1到1,越接近两端表示两个数据集关联度越大,越靠近0表示越小。
重点
对于 y = kx + b 来说,可以通过如下公式求解方程:
k = cor(y, x) * s(y) / s(x)
以及 b = mean(y) - k * mean(x)