Regression Model

Regression Model是什么

Regression Model是一种基本的数据分析模型,通俗点来说就是我们在中学时期学习的截距式直线方程。通过斜率和截距来定义一种诸如 y = kx + b的方程。一旦有了这样的方程,我们就可以通过我们现有的数据集,比如一堆x 来预测y。

今天就让我们来研究研究这一种数据模型

Centering

Centering是一种常用的数学用语,意为 集中化。什么意思呢?就是说如果我有从x1, x2 … xn 这n个数据构成的数据集{x},我可以求出他们的平均值为XM。我可以构建 bi = xi - XM 这样一个数列,这样的话,{b}这个数据集的平均值就为0,这一个过程就叫Centering。

Variances(方差)

方式的定义是:

求出一个数据集的平均数XM, 对于{x} 中的每一个数,求其与平均数差的平方。再这这些差的平房加在一起求和,最后用和除以n - 1,这里的n是数据集中数据的个数。

而标准差就是方差的平方根。 通过构建bi = xi / 标准差s 可以得到{b}数据集,它的标准差为1,这一过程也叫做Scaling

Normalization

将数据集先Centering再Scaling的过程叫做Normalization。

Covariance(协方差)

协方差的定义其实和方差类似,只不过针对的是一对数据集{x, y}。

求出数据集{x}的平均数M,求出数据集{y}的平均数N,对于每一个i,求和(xi - M) * (yi - N),最后和除以n - 1,其中n是数据集中数据的个数。

Corrleation(两个数据集的关联)

Correlation就是将两个数据集的协方差除以{x}的标准差和{y}的标准差的乘积。
Correlation的值域从-1到1,越接近两端表示两个数据集关联度越大,越靠近0表示越小。

重点

对于 y = kx + b 来说,可以通过如下公式求解方程:

k = cor(y, x) * s(y) / s(x) 以及 b = mean(y) - k * mean(x)