机器学习之优雅落地线性回归法

在统计学中，线性回归（Linear regression）是利用称为线性回归方程的最小二乘函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析维基百科。

成都创新互联公司技术团队10年来致力于为客户提供网站设计制作、成都网站设计、成都品牌网站建设、成都全网营销、搜索引擎SEO优化等服务。经过多年发展，公司拥有经验丰富的技术团队，先后服务、推广了上千家网站，包括各类中小企业、企事单位、高校等机构单位。

简单线性回归

当只有一个自变量的时候，成为简单线性回归。

简单线性回归模型的思路

为了得到一个简单线性回归模型，假设存在以房屋面积为特征，以价格为样本输出，包含四个样本的样本集，如图：

机器学习之优雅落地线性回归法 cdn.xitu.io/2018/11/2/166d3aa7e9398516?imageView2/0/w/1280/h/960/format/webp/ignore-error/1">

寻找一条直线，最大程度上拟合样本特征与样本输出之间的关系。

假设最佳拟合的直线方程为： $机器学习之优雅落地线性回归法$ ，则对于样本特征 $机器学习之优雅落地线性回归法$ 的每一个取值 $机器学习之优雅落地线性回归法$ 的预测值为： $机器学习之优雅落地线性回归法$ 。而我们希望的就是真值 $机器学习之优雅落地线性回归法$ 和预测值 $机器学习之优雅落地线性回归法$ 之间的差距尽量小。

可以用 $机器学习之优雅落地线性回归法$ 表示两者之间的差距，对于所有的样本，使用求和公式求和处理：

∑ i =1 m | y ( i) −y ^ ( i) |

但是这个公式有一个问题，不容易求导，为了解决这个问题，可先对 $机器学习之优雅落地线性回归法$ 进行平方，如此最后的公式就变成了：

∑ i =1 m (y ( i) −y ^ ( i) ) 2

最后，替换掉 $机器学习之优雅落地线性回归法$ ，即为：

∑ i =1 m (y ( i) −a x ( i) −b ) 2

因此，找到的一个简单线性回归模型就是找到合适的 a 和 b，使得该函数的值尽可能的小，该函数也称为损失函数（loss function）。

最小二乘法

找到合适的 a 和 b，使得 $机器学习之优雅落地线性回归法$ 的值尽可能的小，这样的方法称为最小二乘法。

如何求 a 和 b 呢？令该函数为 $机器学习之优雅落地线性回归法$ ，分别使对 a 和 b 求导的结果为0。

对 b 求导： $机器学习之优雅落地线性回归法$ ，得：

b =y ¯ ¯ ¯ −a x ¯ ¯ ¯

对 a 求导： $机器学习之优雅落地线性回归法$ ，得：

a =∑ m i =1 (x ( i) −x ¯ ¯ ¯ )(y ( i) −y ¯ ¯ ¯ ) ∑ m i =1 (x ( i) −x ¯ ¯ ¯ ) 2

注：这里略去了公式的推导过程。还有很多内容因为篇幅有限不详细写了，如果想全面了解的可以点击这个链接跳转到我已经录制好的视频

简单线性回归的实现

有了数学的帮助，实现简单线性回归就比较方便了。

首先声明一个样本集：

import numpy as np

x = np.array([1., 2., 3., 4., 5.])
y = np.array([1., 3., 2., 3., 5.])

公式中用到了 x 和 y 的均值：

x_mean = np.mean(x)
y_mean = np.mean(y)

求 a 和 b 的值有两种方法。第一种是使用 for 循环：

# 分子
num = 0.0

# 分母
d = 0.0

for x_i, y_i in zip(x, y):
    num += (x_i - x_mean) * (y_i - y_mean)
    d += (x_i - x_mean) ** 2
    
a = num / d
b = y_mean - a * x_mean

第二种是使用矩阵乘：

num = (x - x_mean).dot(y - y_mean)
d = (x - x_mean).dot(x - x_mean)

a = num / d
b = y_mean - a * x_mean

注：使用矩阵乘效率更高。

求出了 a 和 b，简单线性模型就有了： $机器学习之优雅落地线性回归法$ 。对当前示例作图表示：

机器学习之优雅落地线性回归法

衡量线性回归法的指标

误差

一个训练后的模型通常都会使用测试数据集测试该模型的准确性。对于简单线性归回模型当然可以使用 $机器学习之优雅落地线性回归法$ 来衡量，但是它的取值和测试样本个数 m 存在联系，改进方法很简单，只需除以 m 即可，即均方误差（Mean Squared Error）：

M SE ： 1 m ∑ i =1 m (y ( i) t est −y ^ ( i) t est ) 2

np.sum((y_predict - y_true) ** 2) / len(y_true)

值得一提的是 MSE 的量纲是样本单位的平方，有时在某些情况下这种平方并不是很好，为了消除量纲的不同，会对 MSE 进行开方操作，就得到了均方根误差（Root Mean Squared Error）：

R MS E： 1 m ∑ i =1 m (y ( i) t est −y ^ _t est ( i) ) 2 − −− −− −− −− −− −− −− −− −− √ =M SE t es t − −− −− −− √

import math

math.sqrt(np.sum((y_predict - y_true) ** 2) / len(y_true))

还有一种衡量方法是平均绝对误差（Mean Absolute Error），对测试数据集中预测值与真值的差的绝对值取和，再取一个平均值：

M AE ： 1 m ∑ i =1 m | y ( i) t es t −y ^ ( i) t es t |

np.sum(np.absolute(y_predict - y_true)) / len(y_true)

注：Scikit Learn 的 metrics 模块中的 mean_squared_error() 方法表示 MSE，mean_absolute_error() 方法表示 MAE，没有表示 RMSE 的方法。

R Squared

更近一步，MSE、RMSE 和 MAE 的局限性在于对模型的衡量只能做到数值越小表示模型越好，而通常对模型的衡量使用1表示最好，0表示最差，因此引入了新的指标：R Squared，计算公式为：

R 2 =1 −S S r es i d u al S S t ot a l

$机器学习之优雅落地线性回归法$ ，表示使用模型产生的错误； $机器学习之优雅落地线性回归法$ ，表示使用 $机器学习之优雅落地线性回归法$ 预测产生的错误。

更深入的讲，对于每一个预测样本的 x 的预测值都为样本的均值 $机器学习之优雅落地线性回归法$ ，这样的模型称为基准模型；当我们的模型等于基准模型时， $机器学习之优雅落地线性回归法$ 的值为0，当我们的模型不犯任何错误时 $机器学习之优雅落地线性回归法$ 得到最大值1。

$机器学习之优雅落地线性回归法$ 还可以进行转换，转换结果为：

R 2 =1 −M SE ( y ^ ,y ) V ary

实现也很简单：

1 - np.sum((y_predict - y_true) ** 2) / len(y_true) / np.var(y_true)

注：Scikit Learn 的 metrics 模块中的 r2_score() 方法表示 R Squared。

多元线性回归

多元线性回归模型的思路

当有不只一个自变量时，即为多元线性回归，如图：

机器学习之优雅落地线性回归法

对于有 n 个自变量来说，我们想获得的线性模型为：

y =θ 0 +θ 1 x 1 +θ 2 x 2 +.. .+θ n x n

根据简单线性回归的思路，我们的目标即为：

找到 $机器学习之优雅落地线性回归法$ ， $机器学习之优雅落地线性回归法$ ， $机器学习之优雅落地线性回归法$ ，...， $机器学习之优雅落地线性回归法$ ，使得 $机器学习之优雅落地线性回归法$ 尽可能的小，其中 $机器学习之优雅落地线性回归法$ 。

$机器学习之优雅落地线性回归法$ ：训练数据中第 i 个样本的预测值； $机器学习之优雅落地线性回归法$ ：训练数据中第 i 个样本的第 j 个自变量。

如果用矩阵表示即为：

y ^ ( i) =X ( i) ⋅θ

其中： $机器学习之优雅落地线性回归法$ ； $机器学习之优雅落地线性回归法$ 。

更进一步，将 $机器学习之优雅落地线性回归法$ 也使用矩阵表示，即为：

y ^ =X b ⋅θ

其中： $机器学习之优雅落地线性回归法$ ， $机器学习之优雅落地线性回归法$

因此，我们目标就成了：使 $机器学习之优雅落地线性回归法$ 尽可能小。而对于这个公式的解，称为多元线性回归的正规方程解（Nomal Equation）：

还有很多内容因为篇幅有限不详细写了，如果想全面了解的可以点击这个链接跳转到我已经录制好的视频

θ =(X T b Xb ) − 1 (X T b y )

实现多元线性回归

将多元线性回归实现在 LinearRegression 类中，且使用 Scikit Learn 的风格。

_init_() 方法首先初始化线性回归模型，_theta 表示 $机器学习之优雅落地线性回归法$ ，interception_ 表示截距，chef_ 表示回归模型中自变量的系数：

class LinearRegression:
    def __init__(self):
        self.coef_ = None
        self.interceiption_ = None
        self._theta = None

fit_normal() 方法根据训练数据集训练模型，X_b 表示添加了 $机器学习之优雅落地线性回归法$ 的样本特征数据，并且使用多元线性回归的正规方程解求出 $机器学习之优雅落地线性回归法$ ：

def fit_normal(self, X_train, y_train):
    X_b = np.hstack([np.ones((len(X_train), 1)), X_train])
    self._theta = np.linalg.inv(X_b.T.dot(X_b)).dot(X_b.T).dot(y_train)

    self.interception_ = self._theta[0]
    self.coef_ = self._theta[1:]

    return self

predict() 方法为预测方法，同样使用了矩阵乘：

def predict(self, X_predict):
    X_b = np.hstack([np.ones((len(X_predict), 1)), X_predict])
    return X_b.dot(self._theta)

score() 根据给定的测试数据集使用 R Squared 指标计算模型的准确度：

def score(self, X_test, y_test):
    y_predict = self.predict(X_test)
    return r2_score(y_test, y_predict)

Scikit Learn 中的线性回归实现放在 linear_model 模块中，使用方法如下：
from sklearn.linear_model import LinearRegression

线性回归的特点

线性回归算法是典型的参数学习的算法，只能解决回归问题，其对数据具有强解释性。

缺点是多元线性回归的正规方程解 $机器学习之优雅落地线性回归法$ 的时间复杂度高，为 $机器学习之优雅落地线性回归法$ ，可优化为 $机器学习之优雅落地线性回归法$ 。

分享题目：机器学习之优雅落地线性回归法
文章源于：http://scyanting.com/article/jhiohp.html

机器学习之优雅落地线性回归法

简单线性回归

简单线性回归模型的思路

最小二乘法

简单线性回归的实现

衡量线性回归法的指标

误差

R Squared

多元线性回归

多元线性回归模型的思路

实现多元线性回归

线性回归的特点

其他资讯