ca2c2423884340c44078fc94379a5f64.png

sklearn是一个简单的机器学习库,主要功能包括:分类、回归、聚类、降维、模型选择和预处理。

从实际项目中看,主要有分类、模型选择和预处理使用的比较多,分别进行介绍。

1 分类

分类包含二分类和多分类。分类的模型常用的有线性模型和树模型。

1.1 线性模型

逻辑回归,LogisticRegression。逻辑回归一般采用sigmoid函数处理二分类,也可以处理多分类。

from sklearn.linear_model import LogisticRegression
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

iris = load_iris()
X = iris.data
y = iris.target

X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.3)
lr = LogisticRegression()
lr.fit(X_train,y_train)
print(lr.coef_)
print(lr.intercept_)
----------------------------------------------------
[[-0.39431215  0.82078035 -2.30929326 -0.94655442]
 [ 0.37889349 -0.23137951 -0.0746177  -1.03630714]
 [ 0.01541866 -0.58940084  2.38391097  1.98286157]]
[  9.24640213   2.30336608 -11.54976821]

LogisticRegression参数的含义。

def __init__(self, penalty='l2', *, dual=False, tol=1e-4, C=1.0,
               fit_intercept=True, intercept_scaling=1, class_weight=None,
               random_state=None, solver='lbfgs', max_iter=100,
               multi_class='auto', verbose=0, warm_start=False, n_jobs=None,
               l1_ratio=None):

class_weight:用于标示分类模型中各种类型的权重,可以是一个字典或者’balanced’字符串,默认为不输入,也就是不考虑权重,即为None。如果选择输入的话,可以选择balanced让类库自己计算类型权重,或者自己输入各个类型的权重。举个例子,比如对于0,1的二元模型,我们可以定义class_weight={0:0.9,1:0.1},这样类型0的权重为90%,而类型1的权重为10%。如果class_weight选择balanced,那么类库会根据训练样本量来计算权重。某种类型样本量越多,则权重越低,样本量越少,则权重越高。当class_weight为balanced时,类权重计算方法如下:n_samples / (n_classes * np.bincount(y))。n_samples为样本数,n_classes为类别数量,np.bincount(y)会输出每个类的样本数,例如y=[1,0,0,1,1],则np.bincount(y)=[2,3]。

solver:优化算法选择参数,只有五个可选参数,即newton-cg,lbfgs,liblinear,sag,saga。默认为liblinear。solver参数决定了我们对逻辑回归损失函数的优化方法,有四种算法可以选择,分别是:

  • liblinear:使用了开源的liblinear库实现,内部使用了坐标轴下降法来迭代优化损失函数。
  • lbfgs:拟牛顿法的一种,利用损失函数二阶导数矩阵即海森矩阵来迭代优化损失函数。
  • newton-cg:也是牛顿法家族的一种,利用损失函数二阶导数矩阵即海森矩阵来迭代优化损失函数。
  • sag:即随机平均梯度下降,是梯度下降法的变种,和普通梯度下降法的区别是每次迭代仅仅用一部分的样本来计算梯度,适合于样本数据多的时候。
  • saga:线性收敛的随机优化算法的的变重。
  • 总结
    • liblinear适用于小数据集,而sag和saga适用于大数据集因为速度更快。
    • 对于多分类问题,只有newton-cg,sag,saga和lbfgs能够处理多项损失,而liblinear受限于一对剩余(OvR)。啥意思,就是用liblinear的时候,如果是多分类问题,得先把一种类别作为一个类别,剩余的所有类别作为另外一个类别。一次类推,遍历所有类别,进行分类。
    • newton-cg,sag和lbfgs这三种优化算法时都需要损失函数的一阶或者二阶连续导数,因此不能用于没有连续导数的L1正则化,只能用于L2正则化。而liblinear和saga通吃L1正则化和L2正则化。
    • 同时,sag每次仅仅使用了部分样本进行梯度迭代,所以当样本量少的时候不要选择它,而如果样本量非常大,比如大于10万,sag是第一选择。但是sag不能用于L1正则化,所以当你有大量的样本,又需要L1正则化的话就要自己做取舍了。要么通过对样本采样来降低样本量,要么回到L2正则化。
    • 从上面的描述,大家可能觉得,既然newton-cg, lbfgs和sag这么多限制,如果不是大样本,我们选择liblinear不就行了嘛!错,因为liblinear也有自己的弱点!我们知道,逻辑回归有二元逻辑回归和多元逻辑回归。对于多元逻辑回归常见的有one-vs-rest(OvR)和many-vs-many(MvM)两种。而MvM一般比OvR分类相对准确一些。郁闷的是liblinear只支持OvR,不支持MvM,这样如果我们需要相对精确的多元逻辑回归时,就不能选择liblinear了。也意味着如果我们需要相对精确的多元逻辑回归不能使用L1正则化了。

multi_class:分类方式选择参数,str类型,可选参数为ovr和multinomial,默认为ovr。ovr即前面提到的one-vs-rest(OvR),而multinomial即前面提到的many-vs-many(MvM)。如果是二元逻辑回归,ovr和multinomial并没有任何区别,区别主要在多元逻辑回归上。

1.2 树模型

集成模型包含bagging和boosting。其中随机森林是一次生成多棵树,每棵树给不同的特征值,最后根据少数服从多数原则生成最终结果。

from sklearn.ensemble import RandomForestClassifier

树模型现在基本上直接用xgboost了。

2 评估

分类模型的评估指标主要有:accuracy 、precision、recall、f1、auc。

所以评估指标基于混淆矩阵。FP(预测为正,但是预测错了。第二个为分类器预测值,第一个为结果)

混淆矩阵

预测值
真实值 TP FN
FP TN
  • accuracy:(TP+TN)/(TP+TN+FP+FN)
  • precision:TP/(TP+FP)
  • recall:TP/(TP+FN)
  • F1:2/F1 = 1/P + 1/N

可以看到上面的指标,没有考虑到TN。

auc是roc(receiver operating characteristic curve)。

  • TPR:真正率。TP/(TP+FN)
  • FPR:假正率。FP/(FP+TN)。

auc的计算过程,(1)必须是二分类。(2)必须预测是概率。(3)概率按照从大到小的顺序排序,将阈值分别取预测的概率值。(4)0,0点阈值最大,所有都预测为负例,因此TP和FP都为0。(5)1,1点阈值最小,所有预测都为正例。(6)x值阈值是从大到小。(7)auc只能用于二分类的原因是排序时按照概率进行排的。

3 评估指标

from sklearn.metrics import confusion_matrix

from sklearn.metrics import accuracy_score
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score
from sklearn.metrics import f1_score

import numpy as np

true = np.array([1, 1, 1, 0, 0, 1, 1])
pred = np.array([1, 1, 0, 1, 0, 0, 1])

print(confusion_matrix(true, pred, labels=[1, 0]))
print(accuracy_score(true, pred))
print(precision_score(true, pred))
print(recall_score(true, pred))
print(f1_score(true, pred))

-----------------------------------------
混淆矩阵:[[3 2]
 [1 1]]
acc:0.5714285714285714
P:0.75
R:0.6
f1: 0.6666666666666665

auc曲线

from sklearn.metrics import roc_curve
from sklearn.metrics import auc

import numpy as np

y = np.array([1, 1, 2, 2])
pred = np.array([0.1, 0.4, 0.35, 0.8])
fpr, tpr, thresholds = roc_curve(y, pred, pos_label=2)
print(auc(fpr, tpr))
Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐