回归和分类是机器学习中两种常见的任务类型,用于对数据进行预测和分类,并且都是监督学习。

一、回归与分类的区别

分类和回归的区别在于输出变量的类型。

定量输出称为回归,或者说是连续变量预测;
定性输出称为分类,或者说是离散变量预测。

输入变量与输出变量均为变量序列的预测问题为标注问题

举个例子:
预测明天的气温是多少度,这是一个回归任务
预测明天是阴、晴还是雨,就是一个分类任务

  • 输出不同
    分类问题输出的是物体所属的类别,回归问题输出的是物体的值。

例如,最近福州天气比较怪(阴晴不定),为了能够对明天穿衣服的量以及是否携带雨具做判断,我们就要根据已有天气情况做预测。
在这里插入图片描述
上图中的天气可以分为:晴、阴、雨 三类,我们只知道今天(2023年11月26日)及之前的天气,我们会预测明天及以后几天的天气情况,如明天阴,下周一晴,这就是分类;

每一天的天气温度,我们知道今天及以前几天的温度,我们就要通过之前的温度来预测现在往后的温度,每一个时刻,我们都能预测出一个温度值,得到这个值用的方法就是回归。

分类问题输出的值是离散的,回归问题输出的值是连续的

注:这个离散和连续不是纯数学意义上的离散和连续。

在数学上的连续是指,在某一个点处的极限值等于在这个点的函数值。很明显,回归问题不可能测得连续值。因为我们测得的两个值再接近,这两个值之间还是会存在实数域上的值,比如我们测得空气温度是11°和10.999°(现实情况中,测空气温度小数点后三位几乎没什么意义,在此只是作为例子来说明问题),在这两个值之间还有无穷多个值,比如:10.9999°,10.99999°等等。测得的值是有范围的,小数点多少位以后,值就测不到了。

那我们怎么去理解离散和连续呢?

我们可以这么理解:离散就是规定好有有限个类别,这些类别是离散的。连续就是理论上可以取某一范围内的任意值,比如现在28°,当然这是我们测出来的,但是实际温度可能是无限趋于28。也就是说,回归并没有要求你的值必须是那个类别,你只要能回归出一个值,在可控范围内即可。

分类问题输出的值是定性的,回归问题输出的值是定量的

首先要先给大家说一下什么是定性定量

所谓定性是指确定某种东西的确切的组成有什么或者某种物质是什么,这种测定一般不用特别的测定这种物质的各种确切的数值量。

所谓定量就是指确定一种成分(某种物质)的确切的数值量,这种测定一般不用特别的鉴定物质是什么,

举个例子,这是一杯水,这句话是定性;这杯水有10毫升,这是定量。

  • 目的不同

分类的目的是为了寻找决策边界,即分类算法得到是一个决策面,用于对数据集中的数据进行分类。

回归的目的是为了找到最优拟合,通过回归算法得到是一个最优拟合线,这个线条可以最好的接近数据集中的各个点。
在这里插入图片描述

二、回归问题的应用场景

回归问题的应用场景(预测的结果是连续的,例如预测明天的温度,23,24,25度)
回归问题通常是用来预测一个值,如预测房价、未来的天气情况等等,例如一个产品的实际价格为500元,通过回归分析预测值为499元,我们认为这是一个比较好的回归分析。

一个比较常见的回归算法是线性回归算法(LR)。另外,回归分析用在神经网络上,其最上层是不需要加上softmax函数的,而是直接对前一层累加即可。回归是对真实值的一种逼近预测。

三、分类问题的应用场景

分类问题的应用场景(预测的结果是离散的,例如预测明天天气-阴,晴,雨)
分类问题是用于将事物打上一个标签,通常结果为离散值。例如判断一幅图片上的动物是一只猫还是一只狗,分类通常是建立在回归之上,分类的最后一层通常要使用softmax函数进行判断其所属类别。分类并没有逼近的概念,最终正确结果只有一个,错误的就是错误的,不会有相近的概念。最常见的分类方法是逻辑回归,或者叫逻辑分类。

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐