统计机器学习【1】- 入门机器学习（三）- 精确率P与召回率R

首先还是讲讲TP，FN，FP，TN先：TP——将正类预测为正类数；TP——将正类预测为正类数；TP——将正类预测为正类数；FN——将正类预测为负类数；FN——将正类预测为负类数；FN——将正类预测为负类数；FP——将负类预测为正类数；FP——将负类预测为正类数；FP——将负类预测为正类数；TN——将负类预测为负类数；TN——将负类预测为负类数；TN——将负类预测为负类数；对于上面的我们可以这样理解

David Wolfowitz

519人浏览 · 2020-05-23 16:56:12

David Wolfowitz · 2020-05-23 16:56:12 发布

首先还是讲讲TP，FN，FP，TN先：
$T P — — 将正类预测为正类数；$

$F N — — 将正类预测为负类数；$

$F P — — 将负类预测为正类数；$

$T N — — 将负类预测为负类数；$
对于上面的我们可以这样理解，第一个字符表示该结果是预测错误的，第二个字符表示预测成了是正类（positive）还是负类（negative）。

精确率P：
$\frac{TP}{TP + FP}\tag{1}$
召回率R：
$\frac{TP}{TP + FN}\tag{2}$
F-measure：
$F_1 = 2 · \frac{precision · recall}{precision + recall}\tag{3}$

$F_\beta = (1 + \beta^2) · \frac{precision · recall}{\beta^2 · precision + recall}$

接下来举几个例子来理解:

一、图形表示理解

在这里插入图片描述
区域1指左边的长方形，区域2指右边的长方形，区域3指左边的半圆，区域4指右边的半圆。
区域1和区域2是给定的样本，其中区域1是正样本（真的），区域2是负样本（真的），区域3是前面讲的TP，区域4是FP。
其中，精确率P表示的是：
在这里插入图片描述

召回率R表示的是：
在这里插入图片描述

二、信息上下文检索

这是一个对于给定的搜索项返回相关文件的目录的任务，假定每个文件都分为两类：相关或不相关。在这个case中，相关文件属于相关类别，
召回率R被定义为被搜索出来中的相关文件文件的数目除以全部相关文件的数目，
精确率P被定义为被搜索出来中的相关文件数目除以被搜索出来的文件数目。

三、分类任务

在分类任务中，
一个类别A的精确率P（我们所关注的那个类别）被定义为被分类器分类为class A(这就是TP + FP)中实际上真正的label是A(TP)的数目除以分类器分类为class A的数目。

一个类别A的召回率R被定义为被分类器分类为class A(这就是TP + FP)中实际上真正的label是A(TP)的数目除以全部集合中真正属于类别A的数目(TP + FN)

注意，P和R是一对不可调和的矛盾，一个属性(P/R)的上升必然以另一个属性的下降作为代价。可以参考维基百科中脑瘤外科手术的例子 $^{【1】}$ 。

参考文献：
【1】Precision and recall
【2】统计学习方法-李航

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

cover

量化挑战赛冠军专访：4小时啃下W4A8量化，我靠的是这些经验

cover

替你试过了，消费级显卡可以跑的开源文生图SOTA模型，顶级渲染、高密度文本绘图

cover

「极限压缩量化未来」Modelers GeekDay上海站圆满落幕

所有评论(0)

查看更多评论

David Wolfowitz

@weixin_43763859

已为社区贡献6条内容