python中怎么实现抽样分类方法

这期内容当中小编将会给大家带来有关python中怎么实现抽样分类方法，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可以有所收获。

在连江等地区，都构建了全面的区域性战略布局，加强发展的系统性、市场前瞻性、产品创新能力，以专注、极致的服务理念，为客户提供成都网站设计、网站建设、外贸网站建设网站设计制作定制网站开发,公司网站建设,企业网站建设,高端网站设计,营销型网站,外贸营销网站建设,连江网站建设费用合理。

11.1 算法抽查

在实践之前你并不知道哪种算法对你的的数据效果最好。你需要尝试用不同的算法去实践，然后知道下一步的方向。这就是我说的算法抽查。

11.2 算法概述

两种线性算法

逻辑回归
线性判别分析非线性机器学习算法
K近邻算法
朴素贝叶斯。
分类和回归树 - CART 是决策树的一种
支持向量机

11.3 线性机器学习算法

有个问题，什么叫线性，什么叫非线性？

其实一般的书里面，并不是这么分类的。这里可能为了突出线性的重要性。算法分为线性和非线性。线性呢，比如逻辑回归， LDA。

11.3.1 逻辑回归

名字里是回归，其实是一种分类方法。

逻辑回归是一般的线性回归加了一个sigmoid函数，于是取值从整个实数域到了-1 到 +1，于是二分类就很容易理解了，大于零一种，小于零一种。
逻辑回归要求

假设高斯分布

数字的输入变量

二分类问题：

如果有时间，应该把重要的机器学习方法再回顾一遍。主要思想，实例。后面可以搞个单独的系列

# Logistic Regression Classification
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression
filename = 'pima-indians-diabetes.data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(filename, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]
num_folds = 10
kfold = KFold(n_splits=10, random_state=7)
model = LogisticRegression()
results = cross_val_score(model, X, Y, cv=kfold)
print(results.mean())

# 0.76951469583

11.3.2 线性回归分析

LDA 是一种统计技术对于二分类和多分类问题。

它也假设参数是高斯分布

# LDA Classification
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
filename = 'pima-indians-diabetes.data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(filename, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]
num_folds = 10
kfold = KFold(n_splits=10, random_state=7)
model = LinearDiscriminantAnalysis()
results = cross_val_score(model, X, Y, cv=kfold)
print(results.mean())

# 0.773462064252

可以看到其实scikit learn 给我们做了很多的封装，调用过程都是一样的，没有难度。最简单的就可以调用然后看效果。

11.4 非线性算法

11.4.1 k比邻

k比邻是一种基于距离的度量。找到k个最近的样本对一个新的样本，然后取得平均值作为预测值。这里k 的取得就可能有不同的效果。

如下

# KNN Classification
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.neighbors import KNeighborsClassifier
filename = 'pima-indians-diabetes.data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(filename, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]
num_folds = 10
kfold = KFold(n_splits=10, random_state=7)
model = KNeighborsClassifier()
results = cross_val_score(model, X, Y, cv=kfold)
print(results.mean())

# 0.726555023923

首先 1）没有说明k 是多少，应该有一个默认值，找api应该可以看到。 2） k比邻应该是很耗时的，但是今天的实践没有反应，原因应该是样本过少。

11.4.2 朴素贝叶斯

朴素贝叶斯是基于贝叶斯理论的一种算法。它有一个重要的假设，就是每个变量是独立分布的，就是没有关联。朴素贝叶斯计算每种参数的可能性以及每个类别的条件概率，然后来估计新的数据并综合计算。这样得到了新样本的估计。

假设也是高斯分布，就可以用高斯分布的密度函数
突然想到，在实践中，是可以PCA 来得到彼此正交的参数，然后来用朴素贝叶斯是否效果更好？？

# Gaussian Naive Bayes Classification
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.naive_bayes import GaussianNB
filename = 'pima-indians-diabetes.data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(filename, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]
kfold = KFold(n_splits=10, random_state=7)
model = GaussianNB()
results = cross_val_score(model, X, Y, cv=kfold)
print(results.mean())

# 0.75517771702

11.4.3 CART

决策树有几种，比如 CART， C4.5 决策树呢基本的想法是遍历所有特征，对第一个特征做分类，然后在每个分支根据第二个分类，继续。知道所有的样本分类相同，或者特征用完了。

这里有个问题，如何选择第一个分类，有gini法，最大熵等几种办法，选择合适的特征顺序，构建的决策树效率更高。
它的缺点，然后对于离异点会非常敏感，这个要小心。
当然，后期的随机森林，以及boosting 等做法很多基于决策树来做，而且起到了很好的分类效果，这是后话。

# CART Classification
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.tree import DecisionTreeClassifier
filename = 'pima-indians-diabetes.data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(filename, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]
kfold = KFold(n_splits=10, random_state=7)
model = DecisionTreeClassifier()
results = cross_val_score(model, X, Y, cv=kfold)
print(results.mean())

# 0.697795625427

11.4.4 支持向量机

支撑向量机，我感觉这是基本机器学习算法中最复杂的一个。

它的主要思想呢，就是找到一个切平面可以来区分不同的类别。 - 其实就是二分类。
那么问题来了，如果平面不能分开呢，可以引申到多个维度
还有维度如果过高呢，这里就是核函数的用武之地了。它可以来解决维度过高的问题，过高的维度，甚至无限维对计算是不利的。
在上面这个思想下， SVM 是为了找到距离两边的样本最远的线，或者平面。
对于奇异点，它又增加了一个c，作为容错。

对于SVM，基本思路可能不复杂，但是推导过程还是不简单的。详情见jly的博客，当然它是基于几个牛人的理解。后面有机会也可以写以下。

然后对于实践而言，有几个点

核函数的选择。高斯，还是别的
几个参数的调优。这个后面也应该又讨论。

# SVM Classification
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.svm import SVC
filename = 'pima-indians-diabetes.data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(filename, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]
kfold = KFold(n_splits=10, random_state=7)
model = SVC()
results = cross_val_score(model, X, Y, cv=kfold)
print(results.mean())

## 0.651025290499

11.5 小结

本章学习如何用几种分类算法做抽样。下一章是关于回归的。

cha 13 如何选择好的算法

13.1 选择算法

这个很容易理解，拿出来结果比较以下即可。看代码

# Compare Algorithms
from pandas import read_csv
from matplotlib import pyplot
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.naive_bayes import GaussianNB
from sklearn.svm import SVC
# load dataset
filename = 'pima-indians-diabetes.data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(filename, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]
# prepare models
models = []
models.append(('LR', LogisticRegression()))
models.append(('LDA', LinearDiscriminantAnalysis()))
models.append(('KNN', KNeighborsClassifier()))
models.append(('CART', DecisionTreeClassifier()))
models.append(('NB', GaussianNB()))
models.append(('SVM', SVC()))
# evaluate each model in turn
results = []
names = []
scoring = 'accuracy'
for name, model in models:
    kfold = KFold(n_splits=10, random_state=7)
    cv_results = cross_val_score(model, X, Y, cv=kfold, scoring=scoring)
    results.append(cv_results)
    names.append(name)
    msg = "%s: %f (%f)" % (name, cv_results.mean(), cv_results.std())
    print(msg)
# boxplot algorithm comparison
fig = pyplot.figure()
fig.suptitle('Algorithm Comparison')
ax = fig.add_subplot(111)
pyplot.boxplot(results)
ax.set_xticklabels(names)
pyplot.show()

result

LR: 0.769515 (0.048411)
LDA: 0.773462 (0.051592)
KNN: 0.726555 (0.061821)
CART: 0.691302 (0.069249)
NB: 0.755178 (0.042766)
SVM: 0.651025 (0.072141)

python中怎么实现抽样分类方法

上述就是小编为大家分享的python中怎么实现抽样分类方法了，如果刚好有类似的疑惑，不妨参照上述分析进行理解。如果想知道更多相关知识，欢迎关注创新互联行业资讯频道。

分享文章：python中怎么实现抽样分类方法
文章来源：http://scyanting.com/article/jsoced.html

python中怎么实现抽样分类方法

11.1 算法抽查

11.2 算法概述

11.3 线性机器学习算法

11.3.1 逻辑回归

11.3.2 线性回归分析

11.4 非线性算法

11.4.1 k比邻

11.4.2 朴素贝叶斯

11.4.3 CART

11.4.4 支持向量机

11.5 小结

cha 13 如何选择好的算法

13.1 选择算法

其他资讯