深度学习中常见的损失函数

不同的损失函数适用于不同的任务，回归任务中通常使用均方误差（MSE）和绝对误差（MAE），分类任务中使用交叉熵损失，物体检测和分割中使用IoU和Dice损失，而生成模型中使用对抗损失和重构损失。根据具体任务的特点选择合适的损失函数对于模型的性能有很大影响。

技术宅学长

1574人浏览 · 2024-09-12 11:12:51

技术宅学长 · 2024-09-12 11:12:51 发布

在机器学习和深度学习中，损失函数用于衡量模型预测值与真实值之间的差异。根据任务的类型（如回归、分类等），可以使用不同的损失函数。下面列举了一些常见的损失函数：

1. 回归问题中的损失函数

回归任务的目标是预测连续值，常用的损失函数有：

均方误差（Mean Squared Error, MSE）：
$LMSE=1N∑i=1N(yi−y^i)2 L_{\text{MSE}} = \frac{1}{N} \sum_{i=1}^{N} (y_i - \hat{y}_i)^2$
- 这是最常用的回归损失函数之一。它对误差的平方进行加权，较大的误差对损失的贡献更大。
均方根误差（Root Mean Squared Error, RMSE）：
$LRMSE=1N∑i=1N(yi−y^i)2 L_{\text{RMSE}} = \sqrt{\frac{1}{N} \sum_{i=1}^{N} (y_i - \hat{y}_i)^2}$
- RMSE是MSE的平方根形式，通常用于更直观地表示误差。
平均绝对误差（Mean Absolute Error, MAE）：
$LMAE=1N∑i=1N∣yi−y^i∣ L_{\text{MAE}} = \frac{1}{N} \sum_{i=1}^{N} |y_i - \hat{y}_i|$
- MAE对误差的线性差异进行惩罚，它对异常值的影响不如MSE大。
Huber损失（Huber Loss）：
$L_{\delta}(a) = \begin{cases} \frac{1}{2} a^2 & \text{if } |a| \leq \delta \\ \delta (|a| - \frac{1}{2} \delta) & \text{if } |a| > \delta \end{cases}$
- 这是MSE和MAE的折中，适用于存在异常值的数据集。它对小误差使用MSE，对大误差使用MAE。

2. 分类问题中的损失函数

分类任务的目标是将数据点分配到离散类别中，常用的损失函数包括：

交叉熵损失（Cross Entropy Loss）：
- 对于二分类问题：
  $LCE=−1N∑i=1N[yilog⁡(y^i)+(1−yi)log⁡(1−y^i)] L_{\text{CE}} = - \frac{1}{N} \sum_{i=1}^{N} \left[ y_i \log(\hat{y}_i) + (1 - y_i) \log(1 - \hat{y}_i) \right]$
  - ( y_i ) $$ 是真实类别标签（0或1），( \hat{y}_i ) 是预测值（0到1之间的概率值）。
- 对于多分类问题（Softmax交叉熵损失）：
  $LCE=−1N∑i=1N∑k=1Kyiklog⁡(y^ik) L_{\text{CE}} = - \frac{1}{N} \sum_{i=1}^{N} \sum_{k=1}^{K} y_{ik} \log(\hat{y}_{ik})$
  - 这里 $y_{ik}$ 是类别 $k$ 的真实标签（one-hot编码）， $y^ik\hat{y}_{ik}$ 是模型输出的类别概率。
Hinge Loss（用于SVM）：
$Lhinge=max⁡(0,1−yi⋅y^i) L_{\text{hinge}} = \max(0, 1 - y_i \cdot \hat{y}_i)$
- 常用于支持向量机（SVM）分类器中，确保正确类别的得分与其他类别的得分相差至少1。
Kullback-Leibler散度（Kullback-Leibler Divergence, KL Divergence）：
$D_{\text{KL}}(P || Q) = \sum_{i} P(i) \log\left(\frac{P(i)}{Q(i)}\right)$
- 用于衡量两个概率分布 $P$ 和 $Q$ 之间的差异，通常用于分类任务的概率分布预测中。

3. 用于检测和分割的损失函数

这些损失函数常用于图像处理任务，如物体检测和图像分割：

IoU损失（Intersection over Union Loss）：
$L_{\text{IoU}} = 1 - \frac{\text{Intersection Area}}{\text{Union Area}}$
- 用于目标检测，衡量预测框与真实框之间的重叠面积比例。
Dice损失（Dice Loss）：
$L_{\text{Dice}} = 1 - \frac{2 |A \cap B|}{|A| + |B|}$
- 多用于图像分割任务，衡量预测与真实分割区域之间的重叠。

4. 生成模型中的损失函数

生成模型如GANs（生成对抗网络）和自编码器中使用的损失函数包括：

对抗损失（Adversarial Loss）：
- GAN中用于生成器和判别器的损失。生成器的目标是“欺骗”判别器，判别器的目标是正确地区分真实数据和生成数据。
  $L_{\text{gen}} = -\log(D(G(z)))$
  $L_{\text{dis}} = -\left[\log(D(x)) + \log(1 - D(G(z)))\right]$
重构损失（Reconstruction Loss）：
- 常用于自编码器和变分自编码器（VAE），衡量输入数据和重构数据之间的差异，常使用MSE或交叉熵。

5. 其他常见损失函数

标签平滑损失（Label Smoothing Loss）：
$Lsmooth=−∑i=1N∑k=1K[(1−ϵ)yik+ϵK]log⁡(y^ik) L_{\text{smooth}} = - \sum_{i=1}^{N} \sum_{k=1}^{K} \left[(1 - \epsilon) y_{ik} + \frac{\epsilon}{K}\right] \log(\hat{y}_{ik})$
- 在交叉熵损失中引入平滑标签，避免过拟合或过度自信的预测。
对比损失（Contrastive Loss）：
$L_{\text{contrastive}} = (1 - y) \cdot \frac{1}{2} (D_w)^2 + y \cdot \frac{1}{2} \{ \max(0, m - D_w) \}^2$
- 常用于度量学习任务（如Siamese网络），衡量相似样本和不相似样本之间的距离。

总结

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

全家桶集齐！Qwen3.5四款小模型上线魔乐社区，附昇腾全套实践教程

魔乐社区

Pont - 搭建前后端之桥：高效、灵活的接口管理工具

Pont 是一款强大的数据服务层解决方案，它能够帮助开发者快速搭建前后端之间的桥梁，实现接口的高效管理和代码自动生成。无论是新手还是有经验的开发者，都能通过 Pont 轻松处理接口文档、生成类型安全的 API 代码，从而显著提升开发效率。[![Pont 工具标志](https://raw.gitcode.com/gh_mirrors/po/pont/raw/3f1b7d4bbba3fd2dda

魔乐社区

如何快速上手 hvac：HashiCorp Vault Python 客户端零基础入门指南

**hvac** 是 HashiCorp Vault 的 Python 3.X 客户端库，专为开发者提供简单高效的 Vault 交互方式。无论你是需要管理密钥、配置身份验证，还是实现安全的秘密数据存储，hvac 都能帮助你轻松搞定 Vault 的各项操作。本文将带你零基础快速入门，从安装到基础操作，让你在几分钟内即可上手使用这个强大的工具。[![hvac 客户端 Logo](https://r