大数据机器学习中的过拟合与解决办法

这篇文章将为大家详细讲解有关大数据机器学习中的过拟合与解决办法，文章内容质量较高，因此小编分享给大家做个参考，希望大家阅读完这篇文章后对相关知识有一定的了解。

成都创新互联公司专业提供成都主机托管四川主机托管成都服务器托管四川服务器托管，支持按月付款！我们的承诺：贵族品质、平民价格，机房位于中国电信/网通/移动机房，多线服务器托管服务有保障！

什么是过拟合

对于机器学习项目而言，过拟合（overfitting）这个问题一般都会遇到。什么是过拟合呢？

维基百科：

在统计学中，过拟合现象是指在拟合一个统计模型时，使用过多参数。对比于可获取的数据总量来说，一个荒谬的模型只要足够复杂，是可以完美地适应数据。过拟合一般可以视为违反奥卡姆剃刀原则。当可选择的参数的自由度超过数据所包含信息内容时，这会导致最后（拟合后）模型使用任意的参数，这会减少或破坏模型一般化的能力更甚于适应数据。过拟合的可能性不只取决于参数个数和数据，也跟模型架构与数据的一致性有关。此外对比于数据中预期的噪声或错误数量，跟模型错误的数量也有关。

过拟合现象的观念对机器学习也是很重要的。通常一个学习算法是借由训练示例来训练的。亦即预期结果的示例是可知的。而学习者则被认为须达到可以预测出其它示例的正确的结果，因此，应适用于一般化的情况而非只是训练时所使用的现有数据（根据它的归纳偏向）。然而，学习者却会去适应训练数据中太特化但又随机的特征，特别是在当学习过程太久或示例太少时。在过拟合的过程中，当预测训练示例结果的表现增加时，应用在未知数据的表现则变更差。