论文名称:HVI: A New Color Space for Low-light Image Enhancement

论文原文 (Paper)https://arxiv.org/abs/2502.20272
官方代码 (Code)https://github.com/Fediory/HVI-CIDNet


哔哩哔哩视频讲解https://space.bilibili.com/57394501?spm_id_from=333.337.0.0

本论文的完整复现代码(即插即用版)已更新至专栏

即插即用系列(代码实践) | CVPR 2025 HVI-CIDNet 解析:基于“HVI颜色空间”与“双分支解耦”的低光照图像增强新标杆

1. 核心思想

本文针对低光照图像增强(LLIE)任务中,sRGB 空间颜色-亮度耦合导致的失真以及 HSV 空间引入的红黑噪声伪影问题,提出了一种全新的 HVI(Horizontal/Vertical-Intensity)颜色空间。HVI 通过对色相(Hue)进行极坐标化处理以消除红色不连续性,并引入可学习的强度塌缩函数(Intensity Collapse)来压缩暗部区域以消除黑色底噪。基于此空间,论文进一步设计了 CIDNet(Color and Intensity Decoupling Network),采用双分支架构分别处理亮度和色度信息,并通过轻量级交叉注意力机制实现两者的交互,从而在极低的计算成本下实现了 SOTA 的增强效果。

2. 背景与动机

  • 文本角度总结
    低光照图像增强的核心难点在于同时恢复亮度、去噪并保持色彩自然。

    1. sRGB 的局限性:大多数现有方法在 sRGB 空间操作,但 sRGB 的三个通道高度耦合了亮度和颜色信息(高颜色敏感性)。直接调整亮度往往会导致严重的颜色失真。
    2. HSV 的缺陷:虽然 HSV 空间能解耦亮度(Value)和色度(Hue/Saturation),但转换过程会放大噪声。具体表现为:红色不连续噪声(红色的 Hue 值分布在 0 和 1 两端,导致欧氏距离计算错误)和黑色平面噪声(在极低亮度下,Hue 和 Saturation 的数值极不稳定,导致严重的伪影)。
    3. 本文动机:设计一个既能像 HSV 一样解耦亮度与颜色,又能消除其固有噪声伪影的全新颜色空间,并配合专用网络挖掘该空间的潜力。
  • 动机图解分析
    请参考论文中的 Fig. 1,该图直观地展示了从 sRGB 到 HSV 再到 HVI 的演变逻辑:

    • 图 1(a) sRGB 问题:展示了 RGB 三通道数据的分布,说明了亮度和颜色是纠缠在一起的(High Color Sensitivity),直接处理容易导致颜色跑偏(Color Distortion)。
    • 图 1(b) HSV 问题:虽然解耦了亮度,但出现了两个致命噪声源。
      • ① Red Discontinuity Noise(红色不连续噪声):红色的 Hue 值在坐标轴上是断开的(0 和 1),导致相似的红色在数值上距离很远,增强后出现红色斑点伪影。
      • ② Black Plane Noise(黑色平面噪声):在底部黑色区域(亮度低),Hue 和 Saturation 的分布非常散乱(蓝圈所示),这导致增强暗部时会出现大量噪点。
    • 图 1© HVI 的极坐标化(Polarization):针对红色问题,HVI 将 Hue/Saturation 映射到极坐标系(Horizontal/Vertical 平面)。这样红色首尾相连,消除了不连续性,去除了红色伪影。
    • 图 1(d) HVI 的强度塌缩(Intensity Collapse):针对黑色噪声,引入了可学习函数 C k C_k Ck,将底部的暗部区域“塌缩”收紧为一个点(漏斗状底部)。这直接压制了暗部的色度噪声,从而消除了增强后的黑色伪影。

3. 主要贡献点

  • [贡献点 1]:提出了 HVI 颜色空间
    这是一种专为低光照增强设计的颜色空间。通过极坐标化 HS 平面解决了 HSV 中的红色不连续问题;通过可学习的强度塌缩函数解决了暗部噪声放大的问题。它保留了 HSV 亮度色度解耦的优势,同时在数学定义上规避了其劣势。

  • [贡献点 2]:设计了 CIDNet(颜色与强度解耦网络)
    提出了一个轻量级的双分支网络。利用 HVI 空间的特性,设计了 I-branch(强度分支) 专门负责亮度调整(基于 Retinex 理论),以及 HV-branch(色度分支) 专门负责去噪和颜色恢复。两者通过交叉注意力机制协同工作,避免了独立处理带来的颜色偏移。

  • [贡献点 3]:实现了极佳的性能与效率平衡
    CIDNet 仅有 1.88M 参数量7.57 GFLOPs,但在 LOLv1/v2 等 10 个数据集上均取得了 SOTA 性能。相比基于 Transformer 或 Diffusion 的大模型,该方法在速度和显存占用上具有巨大优势,且具备很强的跨数据集泛化能力。

4. 方法细节

  • 整体网络架构

结构图2

  • 请参考 Fig. 2,展示了完整的处理数据流:

    1. 输入与变换 (Input & HVIT):输入 sRGB 图像,通过 HVI 变换(HVIT)模块。
      • 利用 Max-RGB 计算 Intensity Map (I)。
      • 利用极坐标和 C k C_k Ck 函数计算 HV Color Map
    2. 双分支编码器-解码器 (Dual-branch Enhancement Network)
      • 上路(I-branch):输入 Intensity Map,专注于全局照度的恢复。
      • 下路(HV-branch):输入 HV Color Map 和 Intensity 的拼接(因为暗部噪声也与亮度有关),专注于去除色度噪声和恢复细节。
      • 交互(Skip Connection & LCA):在编码器、瓶颈层和解码器阶段,通过 LCA(Lighten Cross-Attention) 模块连接上下两个分支,允许亮度和颜色信息互相指导。
    3. 逆变换与输出 (PHVIT & Output)
      • 网络输出增强后的 I 特征和 HV 特征。
      • 通过 PHVIT(Perceptual-inverse HVI Transformation) 将其映射回 sRGB 空间得到最终增强图像。
    4. 损失函数:同时在 sRGB 空间和 HVI 空间计算损失,确保视觉感知和色彩分布的双重约束。
  • 核心创新模块详解

    • 模块 A:HVI 变换模块 (HVI Transformation)

      • 内部逻辑
        1. 极坐标化 (Polarization):将 HSV 中的 h h h (Hue) 和 s s s (Saturation) 转换为笛卡尔坐标 H n e w = s ⋅ cos ⁡ ( h ) H_{new} = s \cdot \cos(h) Hnew=scos(h), V n e w = s ⋅ sin ⁡ ( h ) V_{new} = s \cdot \sin(h) Vnew=ssin(h)。这保证了红色的连续性。
        2. 强度塌缩 (Intensity Collapse):引入函数 C k ( x ) = sin ⁡ ( π I 2 ) + ϵ k C_k(x) = \sqrt[k]{\sin(\frac{\pi I}{2}) + \epsilon} Ck(x)=ksin(2πI)+ϵ 。当亮度 I I I 很低时, C k C_k Ck 趋近于 0,强制将暗部的 H 和 V 值压缩到原点附近。
      • 设计目的 k k k 是一个可学习参数,网络可以根据数据集的噪声水平自动调整 k k k 值,决定“压黑”的力度,从而自适应地去除暗部底噪。
    • 模块 B:轻量级交叉注意力 LCA (Lighten Cross-Attention) (Fig. 13)

      • 内部结构:包含三个部分:交叉注意力块 (CAB)、强度增强层 (IEL)、颜色去噪层 (CDL)。
      • 数据流
        • CAB (Cross Attention Block):采用对称结构。I-branch 的特征作为 Query,去查询 HV-branch 的 Key/Value,反之亦然。这使得亮度信息可以指导去噪(例如:哪里是暗部,哪里噪声多),色度信息可以辅助亮度调整。
        • IEL (Intensity Enhance Layer):基于 Retinex 理论设计,通过深度卷积模拟光照和反射率的分解与增强。
        • CDL (Color Denoise Layer):基于光谱理论设计,处理 HV 特征的波长和饱和度,专注于去除 Δ W \Delta W ΔW Δ S \Delta S ΔS(即噪声偏差)。
      • 设计理念:相比于 Self-Attention,Cross-Attention 能更有效地利用两个分支的互补性,且通过 1 × 1 1\times1 1×1 和深度卷积的组合(Lighten 设计),大幅降低了计算量。
  • 理念与机制总结
    HVI-CIDNet 的核心机制是 “空间变换即去噪”“分而治之”

    • 空间变换:不同于传统网络依然在含噪空间硬解,HVI 通过数学变换,在输入网络前就从几何分布上规避了 HSV 的红/黑噪声问题。
    • 分而治之:CIDNet 不在 RGB 通道上混战,而是明确区分“调亮”和“调色”两个任务。I-branch 负责把灯打开,HV-branch 负责把颜色画对,LCA 负责让两者步调一致。
  • 图解总结
    Fig. 1 展示了 HVI 如何通过几何形变修复 HSV 的缺陷;Fig. 2 展示了双分支网络如何适配 HVI 的数据格式;Fig. 13 展示了 LCA 模块如何通过 Query-Key-Value 的交叉机制实现信息流的纠缠与互补。这一套设计环环相扣,专门解决“低光照下噪声与细节难以平衡”的核心痛点。

5. 即插即用模块的作用

论文提出的组件具有很高的通用性,可应用于其他视觉任务:

  1. HVI 变换 (HVI Transformation & PHVIT)

    • 适用场景:任何涉及色彩处理低光照增强水下图像增强图像去雾的任务。
    • 具体应用:可以作为一个预处理和后处理插件,直接加在现有的 sRGB 模型(如 U-Net, ResNet)前后。通过将输入转为 HVI,让模型在解耦的空间学习,通常能直接提升去噪效果和色彩还原度(如论文表 3 所示,插入其他模型即涨点)。
  2. 强度塌缩函数 ( C k C_k Ck)

    • 适用场景:需要处理暗部噪声信号依赖噪声的任务。
    • 具体应用:可以作为一个可学习的非线性激活层或归一化层,用于压制特征图中的低响应区域(通常是噪声主导区),提高信噪比。
  3. LCA 模块 (Lighten Cross-Attention)

    • 适用场景多模态融合(如 RGB-Depth,RGB-Thermal)或双流网络架构。
    • 具体应用:当有两个互补的特征流需要交互时,LCA 提供了一种比简单的 Concat 更高效、比标准 Transformer 更轻量的融合方案,特别适合对显存和速度敏感的实时应用。

到此,有关HVI-CIDNet的内容就基本讲完了。如果觉得这篇文章对你有用,记得点赞、收藏并分享给你的小伙伴们哦😄。

6.获取更多高质量论文及完整源码关注 【AI即插即用】

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐