【深度学习】语义分割损失函数之Lovasz Loss

LovaszLoss，由2017年的论文《》中被提出。它主要适用于语义分割的任务中。本文将详细介绍LovaszLoss的基本概念、思想原理，并提供PyTorch的实现代码，帮助大家去更好的理解和使用。

Yngz_Miao

664人浏览 · 2026-01-23 05:27:31

Yngz_Miao · 2026-01-23 05:27:31 发布

LovaszLoss，由2017年的论文《The Lovász-Softmax loss: A tractable surrogate for the optimization of the intersection-over-union measure in neural networks》中被提出。它主要适用于语义分割的任务中。

本文将详细介绍LovaszLoss的基本概念、思想原理，并提供PyTorch的实现代码，帮助大家去更好的理解和使用。

Lovasz的基本概念

语义分割的任务效果常常用IOU（Intersection Over Union）来评价，那么很自然的一个想法就是，能不能直接使用IOU来作为损失函数呢？

先看IOU的多种表达方式：

$\begin{aligned}IOU&=\frac{|X\bigcap Y|}{|X\bigcup Y|}\\&=\frac{TP}{TP+FP+FN}\end{aligned}$

对比DiceLoss

如果你了解过DiceLoss，那么你一定知道它的定义：

$\begin{aligned}Dice&=\frac{2\cdot |X\bigcap Y|}{|X|+|Y|}\\&=\frac{2\cdot TP}{2\cdot TP+FP+FN}\\ DiceLoss&=1-Dice\end{aligned}$

由于Dice是离散的，如果DiceLoss延续 $1 - D i ce$ ，并且使用Dice定义的那种计算方式，是不能作为神经网络的优化目标。

因此，我们对Dice以模型输出的概率值进行替代计算，从而使得Dice和DiceLoss都获得连续性。即：在连续值预测（如概率输出）中，通过点乘求和近似交集 $|X\bigcap Y|$ ，分母直接取预测值 $∣ X ∣$ 和真实值 $∣ Y ∣$ 的总和。这种操作天然可导，无需额外处理。

不太清楚DiceLoss的可以参考博文：【深度学习】语义分割损失函数之Dice Loss。

同理，如果对LovaszLoss同样的方式定义：

$L o v a sz L oss = 1 - I O U$

由于Iou是离散的，如果LovaszLoss延续 $1 - I O U$ ，并且使用IOU定义的那种计算方式，是不能作为神经网络的优化目标。

那么，能否也能仿照Dice、DiceLoss的方式获得连续性么？即：

分子 $|X\bigcap Y|$ 的连续化，就是Dice的分子，这没有问题
分母 $|X\bigcup Y|$ 的连续化，可以按照 $|X\bigcup Y| = |X|+|Y|-|X\bigcap Y|$ 的方式，其中前者 $∣ X ∣ + ∣ Y ∣$ 就是Dice的分母，后者 $|X\bigcap Y|$ 就是Dice的分子，这貌似也没有什么问题。

那这种方式可行么？

理论上是可以的，这种方式在2016年的论文Optimizing Intersection-Over-Union in Deep Neural Networks for Image Segmentation中已经被提出且使用到了。

显然，本文要讲述的LovaszLoss，并不是使用的这种方法。

虽然LovaszLoss的论文中没有与其进行比较，但作者在github中说本文的LovaszLoss光滑延拓得到的loss，要比DiceLoss那样简单的光滑化（连续画处理）效果好。

主要原因可能是：IOU分母的非线性复杂性较高。即：交集 $|X\bigcap Y|$ 将会同时出现在分子和分母中，这使得分母变得更加复杂，直接连续化会导致梯度计算变得困难，尤其是在优化过程中，梯度可能会变得不稳定。

那么，本文中所提出的更好效果的连续化是怎么获得的呢？

LovaszLoss的连续性

LovaszLoss的连续性表达，从理论上看是比较复杂的，也是比较难理解的。

为了和论文中的符号表示一致，我们重新表达下IOU、LovaszLoss：

$IOU=J_c=\frac{|\{y^*=c\}\bigcap \{\tilde y=c\}|}{|\{y^*=c\}\bigcup \{\tilde y=c\}|}$

其中：针对于类别 $c$ 来说， $y^*\in\{0,1\}$ 是对于类别 $c$ 的one hot形式表达的target标签结果， $\tilde y\in[0,1]$ 是模型预测结果。

当然，这是针对于多分类情况来说的，如果是二分类的情况， $c$ 默认就是正样本。

那么，LovaszLoss的表达形式则为：

$LovaszLoss=\Delta _{J_c}=1-J_c$

重新表达完LovaszLoss之后，接下去需要讨论其连续化的方式。

Submodular Function

上面的LovaszLoss公式没法直接连续化，我们对它进行一些调整，化简成以下的形式：

$\Delta _{J_c}=\frac{|M_c|}{|\{y^*=c\}\bigcup M_c|}$

其中，自变量 $M_c$ 表示类别c时，模型预测错误的集合，定义为：

$M_c=\{y^*=c,\tilde y\neq c\}\bigcup \{y^*\neq c,\tilde y= c\}$

解释一下， $M_c$ 的前者表示target类别是c的，模型预测negative；后者表示target类别不是c的，模型预测positive。即模型对第c类的预测结果和target类别不匹配的部分（模型预测错误的集合），前者 $FN$ ，后者 $FP$ 。

对于自变量 $M_c$ 的取值范围，一般记为 ${0,1\}^{p}$ ，特征向量表示法， $p$ 表示样本数量，0表示某个样本预测成功，1表示某个样本预测错误。

为什么， $\Delta _{J_c}$ 可以这样用 $M_c$ 来表示的呢？

对于 $M_c$ ，刚说到：

$M_c|=|FN+FP|$

而分母：

$\{y^*=c\}\bigcup M_c=(TP+FN)\bigcup (FN+FP)$

因此，可以化简为：

$|\{y^*=c\}\bigcup M_c|=|TP+FN+FP|$

用比较熟悉的方式来推导：

$\begin{aligned}\Delta _{J_c}&=1-J_c=1-IOU\\&=1-\frac{TP}{TP+FP+FN}\\&=\frac{FP+FN}{TP+FP+FN}\end{aligned}$

可以看出，两个的表达形式是完全一样的。

为什么要化简成，用 $M_c$ 作为自变量表达的这个样子呢？

因为，对任意的一个离散函数找到其光滑的延拓很难。但是如果一个离散函数是submodular的，那么就已经有成熟数学工具可以直接，将其做光滑延拓，而且延拓后的函数总是凸的，这样就大大方便了优化。

作者发现，原始的 $\Delta _{J_c}$ 并不是submodular的，而用 $M_c$ 做自变量表达的 $\Delta _{J_c}$ 却是submodular的。

什么是submodular？

记具有 $n$ 个元素的集合为 $n]=\{1,2,...,n\}$ ，集合 $[n]$ 的所有子集对应的集合为 $2^{[n]}$ 。如果一个集函数 $f:2^{[n]}\to \mathbb{R}$ 是子模的，则对于集合 $[n]$ 的所有真子集对 $T\subset S$ 、 $S\subset [n]$ 、 $T\subset [n]$ 和集合中的所有元素 $i\in [n]$ ，存在收益递减性质：

$f(T\bigcup \{i\})-f(T)\ge f(S\bigcup \{i\})-f(S)$

等价的，如果一个集函数 $f:2^{[n]}\to \mathbb{R}$ 是子模的，则对于所有集合 $S\subset [n]$ 、 $T\subset [n]$ ，满足：

$f(S)+f(T)\ge f(S\bigcup T)+f(S\bigcap T)$

一般地，集合 $S\subset [n]$ 可以通过它的特征向量 $X_S\in H_n=\{0,1\}^n$ 表示，其中 $X_S(i)=1$ 表示 $i\in S$ ，否则 $X_S(i)=0$ 。则集函数也可以定义在特征向量上 $f:H_n\to \mathbb {R}$ 。

子模性表示边际收益递减的性质：当集合变大时，新增元素对函数值的贡献会减少。

对比下，LovaszLoss公式：

$f:2^{[n]}\to \mathbb{R}$ ，对应 $\Delta_{J_c}$
子集 $S$ ，对应 $M_c$ ，使用特征向量 ${0,1\}^n$ 表示

Lovasz Extension

上文说到，submodular的函数已经有成熟数学工具可以将其做光滑延拓，该数学工具即为lovasz extension。

lovasz extension的作用包括：

将离散的子模函数扩展到连续空间，使其在连续值（如模型的概率输出）上定义，从而可以进行梯度计算和优化
如果原始的离散函数是子模的，那么其 Lovasz Extension 是凸的。这种凸性使得优化问题更容易求解，避免了局部最优的问题

给定一个子模函数 $f:H_n\to \mathbb R$ ，对应的Lovasz Extension， $\hat f:K_n\to \mathbb R$ 定义为：

$\hat f(x)=\sum_{i=1}^n x_{\pi_i}\cdot g_i(x)$

其中：

$\hat f(x)$ ：表示光滑延拓后的连续化函数
$\pi_i$ ：表示 $x_1,x_2,...x_n$ 的从大到小的排序索引，即 $1\geq x_{\pi_1} \geq x_{\pi_2} \geq \dots \geq x_{\pi_n}\geq 0$
$g_i(x)$ ：表示Lovasz延拓的梯度，它的定义：

$\begin{aligned}g_i(x)=f(X_i)-f(X_{i-1})\end{aligned}$

$X_i$ ：与 $e_{\pi_i}$ 相关的计算量， $X_0=0_n$ 、 $X_i=X_{i-1}+e_{\pi_i}$
$e_{\pi_i}$ ：与 $\pi_i$ 相关的计算量，位置 $\pi_i$ 为1，其他位置为0的向量

注意：这时候新函数 $\hat f$ 的定义域已经从离散的 ${0,1\}^p$ 变到了连续的 $0,1]^p$ ，此时已经是连续、piecewise linear的，能直接对 $x$ 求导，而且导数很简洁，就是 $g (x)$ 。

Lovasz Extension的定义看着就超级复杂且麻烦，并且很不容易理解。

幸好，下面论文里面对其将离散函数映射到连续空间的过程进行梳理。只需要按照这个步骤进行就可以完成了：

在这里插入图片描述

排序：计算模型预测和taerget的误差 $m$ ，对其按降序排列，并得到排序索引 $\pi_1,\pi_2,...,\pi_p$
梯度计算：延拓后的梯度仅与排序位置相关，这部分的计算过程是最麻烦的，但是论文里面介绍了详细算法：

$g_i(m) = \Delta({{\pi_1}, \dots, {\pi_i}}) - \Delta({{\pi_1}, \dots, {\pi_{i-1}}})$

线性插值：基于排序后的误差，构造拥有连续性的损失函数：

$\bar \Delta = \sum_{i=1}^p m_i\cdot g_i(m)$

代码实战

二分类问题

class BinaryLovaszLoss(nn.Module):
  """
  二分类BinaryLovaszLoss
  """
  def __init__(self):
    super(BinaryLovaszLoss, self).__init__()

  def forward(self, pred, target):
    """
    pred: 模型的输出, 经过sigmoid, 形状为 [B, H, W] (批次大小、图像高度、图像宽度)
    target: 标签, 形状为 [B, H, W], 取值范围为0或1
    """
    loss = lovasz_hinge_flat(*flatten_binary_scores(logits, labels))
    return loss

  def flatten_binary_scores(scores, labels):
    """展平"""
    scores = scores.view(-1)
    labels = labels.view(-1)
    return scores, labels

def lovasz_hinge_flat(logits, labels):
    """
    pred: 模型的输出, 经过 sigmoid, 展平为 [P, C]
    target: 标签, 展平为 [P], 取值范围为0或1
    """
    if len(labels) == 0:
        # only void pixels, the gradients should be 0
        return logits.sum() * 0.
    # 注意下此时的预测误差，当label为1时，signs为1，当label为0时，signs为-1
    signs = 2. * labels.float() - 1.
    # 此时label为1时，error=1-输出概率；当label为0时，error=1+输出概率
    # 这边的计算误差的方式比较奇怪
    errors = (1. - logits * Variable(signs))
    errors_sorted, perm = torch.sort(errors, dim=0, descending=True)
    perm = perm.data
    gt_sorted = labels[perm]
    grad = lovasz_grad(gt_sorted)
    loss = torch.dot(F.relu(errors_sorted), Variable(grad))
    return loss

  def lovasz_grad(gt_sorted):
    """计算梯度"""
    p = len(gt_sorted)
    gts = gt_sorted.sum()
    intersection = gts - gt_sorted.float().cumsum(0)
    union = gts + (1 - gt_sorted).float().cumsum(0)
    jaccard = 1.0 - intersection / union
    if p > 1:  # cover 1-pixel case
        jaccard[1:p] = jaccard[1:p] - jaccard[0:-1]
    return jaccard

多分类问题：采用one-hot编码

class LovaszLoss(nn.Module):
  """
  多分类LovaszLoss
  """
  def __init__(self):
    super(LovaszLoss, self).__init__()

  def forward(self, pred, target):
    """
    pred: 模型的输出, 未经过 Softmax, 形状为 [B, C, H, W] (批次大小、类别数、图像高度、图像宽度)
    target: 标签, 形状为 [B, H, W], 取值范围为0到C-1
    """
    prob = F.softmax(pred, dim=1)
    loss_lovasz = lovasz_softmax_flat(
      *flatten_probs(prob, target, self.ignore_index)
    )
    return loss_lovasz

def lovasz_softmax_flat(probs, labels):
    """
    pred: 模型的输出, 经过 Softmax, 展平为 [P, C]
    target: 标签, 展平为 [P], 取值范围为0到C-1
    """
    if probs.numel() == 0:
      # only void pixels, the gradients should be 0
      return probs.sum() * 0.0
    C = probs.size(1)
    losses = []
    for c in list(range(C)):
        fg = (labels == c).float()
        if fg.sum() == 0:
          continue
        class_pred = probs[:, c]
        errors = (fg - class_pred).abs()
        errors_sorted, perm = torch.sort(errors, 0, descending=True)
        fg_sorted = fg[perm]
        losses.append(torch.dot(errors_sorted, lovasz_grad(fg_sorted)))
    return mean(losses)


def flatten_probs(probs, labels):
  """展平"""
  B, C, H, W = probs.size()
  # permute：将通道维度 C 移到最后，形状变为 (B, H, W, C)
  # contiguous：确保张量在内存中是连续的，便于后续操作
  # view：将张量展平为二维 (P, C)，其中 P = B * H * W 是像素总数，C 是类别数
  probs = probs.permute(0, 2, 3, 1).contiguous().view(-1, C)
  # 将 labels 展平为一维 (P,)，与展平后的 probs 对应
  labels = labels.view(-1)
  return probs, labels


def lovasz_grad(gt_sorted):
    """计算梯度"""
    p = len(gt_sorted)
    gts = gt_sorted.sum()
    intersection = gts - gt_sorted.float().cumsum(0)
    union = gts + (1 - gt_sorted).float().cumsum(0)
    jaccard = 1.0 - intersection / union
    if p > 1:  # cover 1-pixel case
        jaccard[1:p] = jaccard[1:p] - jaccard[0:-1]
    return jaccard