51c视觉~合集18

自己的原文哦~https://blog.51cto.com/whaosoft/11784143使用深度学习进行疾病检测是加快植物病理学过程的好方法。在大多数情况下，在使用深度学习时，我们会使用图像分类或疾病（对象）检测。但我们也可以使用语义分割。在某些情况下，使用语义分割进行叶病识别更有帮助。这是因为深度学习模型可以输出受疾病影响的区域。本文我们将介绍 PyTorch 和 DeepLabV3 进行

whaosoft-143

1593人浏览 · 2025-08-18 20:14:29

whaosoft-143 · 2025-08-18 20:14:29 发布

自己的原文哦~ https://blog.51cto.com/whaosoft/11784143

#DeepLabV3~植叶病害检测

使用深度学习进行疾病检测是加快植物病理学过程的好方法。在大多数情况下，在使用深度学习时，我们会使用图像分类或疾病（对象）检测。但我们也可以使用语义分割。在某些情况下，使用语义分割进行叶病识别更有帮助。这是因为深度学习模型可以输出受疾病影响的区域。本文我们将介绍 PyTorch 和 DeepLabV3 进行叶片病害分割。

分割叶子或植物上的特定区域可能非常具有挑战性。特别是，当患病区域不是那么大时。可能有几种类型的疾病会影响植物的叶子。有些疾病覆盖的面积较大，有些疾病覆盖的面积非常小。在做叶病分割项目时，我们还将分析模型可能面临的所有这些困难。

叶片病害分割数据集

本文中我们将使用叶病分割数据集的变体。该数据集包含病叶的原始形式和增强形式的图像。但数据集不包含训练/验证集划分。

我们准备了另一个数据集，具有训练和验证划分。您可以在此处找到具有训练/验证拆分的数据集。这是我们将在此项目中使用的数据集。它还包含原始图像和aug_data目录。

但是，我们将使用原始图像并将增强添加到训练管道中。大约 15% 的图像保留用于验证，其余用于训练。这将带来大约 90 个验证图像和 498 个训练图像。

以下是一些图片以及他们在训练场景中的掩码（mask）。

下载数据集后，您应该会看到以下目录结构。

├── aug_data
│   ├── train_images
│   ├── train_masks
│   ├── valid_images
│   └── valid_masks
└── orig_data
    ├── train_images
    ├── train_masks
    ├── valid_images
    └── valid_masks

我们将使用来自orig_data目录。

叶子上的掩码代表了一种影响了它的疾病。请注意，我们不会对不同类型的疾病进行细分。取而代之的是，我们只是分割了受疾病影响的叶子区域。

此外，在真实的掩码(ground truth mask)中，叶子上的患病区域的像素值为（128， 0， 0），因此它显示为红色。在准备数据集时，我们需要像素值信息。

现在，请继续下载带有训练/有效分割的叶病分割数据集。

https://www.kaggle.com/datasets/sovitrath/leaf-disease-segmentation-with-trainvalid-split

项目目录结构

在进入编码部分之前，让我们看一下整个项目的目录结构。

.
├── input
│   └── leaf_disease_segmentation
│       ├── aug_data
│       └── orig_data
├── outputs
│   ├── valid_preds
│   │   ├── e0_b21.jpg
│   │   ...
│   │   └── e9_b21.jpg
│   ├── accuracy.png
│   ├── best_model_iou.pth
│   ├── best_model_loss.pth
│   ├── loss.png
│   ├── miou.png
│   └── model.pth
└── src
    ├── config.py
    ├── datasets.py
    ├── engine.py
    ├── inference_image.py
    ├── inference_video.py
    ├── metrics.py
    ├── model.py
    ├── train.py
    └── utils.py
8 directories, 71 files

leaf_disease_segmentation目录包含数据集，整个目录将位于input文件夹。

outputs文件夹将包含训练和验证实验的所有输出。

src文件夹包含源代码文件。总共有 9 个 Python 文件。我们将在终端内执行所有命令在src目录下。

如果你想直接使用训练后的模型推理，可以直接下载，然后放到output下：

https://www.kaggle.com/datasets/sovitrath/leaf-disease-segmentation-trained-weights

使用 PyTorch DeepLabV3 进行叶病分割

现在让我们深入了解这个项目的实际细节。尽管我们无法深入了解代码文件的所有详细信息，但我们仍将检查以下内容：

包含一些全局值的配置文件。
我们用于叶片病害语义分割的深度学习模型。
数据集准备策略以及增强。
IoU 和准确性指标。
关于实用程序和帮助程序脚本的简短讨论。
以及可用于训练的论点。

配置文件

我们有一个config.py的包含一些全局配置值的文件。我们可以通过导入它们来在不同的 Python 模块中使用它们。

ALL_CLASSES = ['background', 'disease']
LABEL_COLORS_LIST = [
    (0, 0, 0), # Background.
    (128, 0, 0),
]
VIS_LABEL_MAP = [
    (0, 0, 0), # Background.
    (255, 0, 0),
]

ALL_CLASSES list 包含数据集中类的名称。由于这是一个二进制分割数据集，除了叶子的疾病类，我们也有背景类。

了LABEL_COLORS_LIST是一个包含元组格式的 RGB 值的列表。这些是与ground truth分割掩码中的确切值一样的值。我们需要在datasets.py文件以正确准备数据集。

我们还有VIS_LABEL_MAP包含用于可视化的颜色的列表。正如您可能观察到的，我们正在使用纯红色进行推理可视化，这与绿叶形成了更好的对比。

DeepLabV3 模型

我们将使用 DeepLabV3 ResNet50 作为我们在数据集上进行训练的主要模型。这意味着我们将使用它来分析训练结果和运行推理。由于 PyTorch （Torchvision）已经包含了一个预训练模型，因此准备模型非常容易。

我们只需要一个简单的函数来做到这一点。

def prepare_model(num_classes=2):
    model = deeplabv3_resnet50(weights='DEFAULT')
    model.classifier[4] = nn.Conv2d(256, num_classes, 1)
    model.aux_classifier[4] = nn.Conv2d(256, num_classes, 1)
    return model

我们需要将输出通道更改为数据集中的classifier和aux_classifier。

model.py中取消注释。

叶片病害分割的数据集准备策略

准备数据集时最重要的部分是增强。从各种实验中，我发现我们需要大量的增强来防止 DeepLabV3 ResNet50 模型在此数据集上过拟合。

注意：即使增强较少，DeepLabV3 MobileNetV3 Large模型的过拟合也没有那么严重。但是我们需要对 ResNet50 培训进行大量增强。

由于其易于使用，因此在此项目中，我们将使用 Albumentation 库进行增强。

这些是最终的增强以及括号中的概率值：

HorizontalFlip (p=0.5)
RandomBrightnessContrast (p=0.2)
RandomSunFlare (p=0.2)
RandomFog (p=0.2)
Rotate (limit=50)
ImageCompression (p=0.2)

这些提供了大量的正则化。但正如我们稍后将看到的那样，我们还需要更多的东西来进一步规范训练过程。

下面是一些样本以及它们在随机增强后的图示效果。

只有 HorizontalFlip 和 Rotate 同时应用于图像和ground truth掩码。其余部分仅应用于图像。

我们不会对验证数据集应用增强。但是，我们根据 ImageNet 归一化值对训练图像和验证图像进行归一化。这是因为我们正在使用预训练模型并对其进行微调。

IoU 和准确性指标

我们将使用 IoU和accuracy 指标来评估模型。metrics.py包含IOUEval类。

我使用此存储库中的代码进行 IoU 和准确率计算，因为它包含一些不错的批处理和历史功能。

这里值得注意一些。为了在训练期间保存最佳模型，我们将使用两个标准。我们将根据当前时期的最小损失值以及模型达到最高 IoU 时保存模型。

有时，验证损失最小的模型可能不是 IoU 最高的模型。同样，有时，根据该特定时期的损失，具有最高 IoU 的模型可能是过拟合模型。

保存两个不同的模型将使我们能够做出明智的决定，以选择最佳模型进行推理。

实用程序和帮助程序脚本

在训练 DeepLabV3 模型进行叶病分割时，我们将需要几个辅助函数和类。

utils.py包含所有这些函数和类。这是一个相当长的文件。因此，这里是它包含的所有内容的列表：

set_class_values函数将特定整数转换为数据集中的特定类。
get_label_mask将图像中属于同一类的像素编码到同一标签中。
draw_translucent_seg_maps函数，用于在验证循环期间在其中一个图像上添加预测的分割图，并将其保存到磁盘。这有助于直观地分析训练过程。
SaveBestModel根据最小的损失保存模型。
SaveBestModelIOU 根据最高 IoU 保存最佳模型。
save_model函数最后一次使用优化器状态字典保存模型。您可以稍后使用它来恢复训练。
save_plots用于将损失、准确性和 IoU 图保存到磁盘的函数。
用于推理的转换。
这get_segment_labels在推理过程中将图像转发到模型中的函数。
draw_segmentation_map将预测的蒙版转换为 RGB 格式的函数。
image_overlay将RGB分割图叠加在图像上的功能。

训练 DeepLabV3 模型进行叶片病害分割

我们将使用train.py的脚本开始训练。在进入训练实验之前，让我们先看看训练脚本支持的所有参数解析器。

--epochs：我们想要训练模式的纪元数。

--lr：优化器的学习率。默认值为 0.0001。

--batch：数据加载器的批量大小。

--imgsz：在准备数据集时调整图像大小分辨率。默认值为 512，这会将图像大小调整为 512×512 分辨率。我们将仅使用默认值。

--scheduler：这是一个布尔参数，指示我们是否要应用任何学习率计划。如果我们将此参数传递给训练脚本，那么每 20 个 epoch 后，学习率将降低 10 倍。这是检查较大模型过拟合的好方法。

所有训练和推理实验均在配备 10 GB RTX 3080 GPU、第 10 代 i7 CPU 和 32 GB RAM 的系统上进行。

DeepLabV3 ResNet50 训练

要开始训练，我们可以在终端中执行以下命令，方法是保持来源：作为当前工作目录。

python train.py --epochs 50 --batch 4 --scheduler

我们使用的批处理大小为 4，图像分辨率为 512×512。如果您遇到内存不足（OOM）错误，请减小图像大小和/或批量大小，然后继续操作。

以下是终端的一些输出：

Namespace(epochs=50, lr=0.0001, batch=4, imgsz=512, scheduler=True)
41,994,308 total parameters.
41,994,308 training parameters.
Adjusting learning rate of group 0 to 1.0000e-04.
EPOCH: 1
Training
|                    | 125/? [01:29<00:00,  1.40it/s]                                                                                                                                         
Validating
|                    | 23/? [00:04<00:00,  5.15it/s]                                                                                                                                          
Best validation loss: 0.2707192062035851
Saving best model for epoch: 1
Best validation IoU: 0.6108606394368111
Saving best model for epoch: 1
Train Epoch Loss: 0.4412, Train Epoch PixAcc: 0.8103, Train Epoch mIOU: 0.536401
Valid Epoch Loss: 0.2707, Valid Epoch PixAcc: 0.8554 Valid Epoch mIOU: 0.610861
Adjusting learning rate of group 0 to 1.0000e-04.
--------------------------------------------------
.
.
.
EPOCH: 47
Training
|                    | 125/? [01:26<00:00,  1.45it/s]                                                                                                                                         
Validating
|                    | 23/? [00:04<00:00,  5.18it/s]                                                                                                                                          
Best validation loss: 0.1456461318809053
Saving best model for epoch: 47
Best validation IoU: 0.7550247198403427
Saving best model for epoch: 47
Train Epoch Loss: 0.1713, Train Epoch PixAcc: 0.9238, Train Epoch mIOU: 0.754309
Valid Epoch Loss: 0.1456, Valid Epoch PixAcc: 0.9028 Valid Epoch mIOU: 0.755025
Adjusting learning rate of group 0 to 1.0000e-06.
--------------------------------------------------
EPOCH: 48
Training
|                    | 125/? [01:26<00:00,  1.45it/s]                                                                                                                                         
Validating
|                    | 23/? [00:04<00:00,  5.16it/s]                                                                                                                                          
Best validation IoU: 0.7596472606104833
Saving best model for epoch: 48
Train Epoch Loss: 0.1744, Train Epoch PixAcc: 0.9207, Train Epoch mIOU: 0.746095
Valid Epoch Loss: 0.1499, Valid Epoch PixAcc: 0.9011 Valid Epoch mIOU: 0.759647
Adjusting learning rate of group 0 to 1.0000e-06.
--------------------------------------------------
EPOCH: 49
Training
|                    | 125/? [01:26<00:00,  1.44it/s]                                                                                                                                         
Validating
|                    | 23/? [00:04<00:00,  5.17it/s]                                                                                                                                          
Train Epoch Loss: 0.1708, Train Epoch PixAcc: 0.9229, Train Epoch mIOU: 0.752612
Valid Epoch Loss: 0.1483, Valid Epoch PixAcc: 0.9017 Valid Epoch mIOU: 0.753524
Adjusting learning rate of group 0 to 1.0000e-06.
--------------------------------------------------
EPOCH: 50
Training
|                    | 125/? [01:26<00:00,  1.44it/s]                                                                                                                                         
Validating
|                    | 23/? [00:04<00:00,  5.21it/s]                                                                                                                                          
Train Epoch Loss: 0.1848, Train Epoch PixAcc: 0.9169, Train Epoch mIOU: 0.736219
Valid Epoch Loss: 0.1501, Valid Epoch PixAcc: 0.9019 Valid Epoch mIOU: 0.754699
Adjusting learning rate of group 0 to 1.0000e-06.
--------------------------------------------------
TRAINING COMPLETE

我们在第 47 epoch上获得了最佳 IoU + 最佳验证损失。但在第 48 epoch，随着 IoU 的改进，我们得到了最好的模型。此模型被另存为best_model_iou.pth在输出目录。我们将进一步使用此模型进行推理实验。

以下是训练后的损失图、IoU 图和准确度图。

我们选择的学习率时间表似乎运作良好。正如我们所看到的，在学习率计划周期之后，所有三个图形中的波动似乎都会减少。

我们的最佳验证 mIoU（平均 IoU）为 75.5。

DeepLabV3 MobileNetV3 Large结果

如果您对此感到好奇，以下是 DeepLabV3 MobileNetV3 Large 训练的结果。

最佳验证损失：0.156

最高验证 mIoU：66.4

正如我们所看到的，与 ResNet50 结果相比，最佳验证平均 IoU 要低得多。

您可以访问这两个经过训练的权重。在转到推理部分之前，您可以从此 Kaggle 链接下载模型。

https://www.kaggle.com/datasets/sovitrath/leaf-disease-segmentation-trained-weights

使用经过训练的 DeepLabV3 模型进行叶病分割的推理

让我们使用最好的 DeepLabV3 ResNet50 权重并运行一些推理实验。

图像推理

我们将使用inference_images.py的用于对数据集中的验证图像运行推理的脚本。这样，我们可以很容易地比较结果，因为我们也有ground truth掩码。

python inference_image.py --model ../outputs/best_model_iou.pth --input ../input/leaf_disease_segmentation/orig_data/valid_images/

使用--model标志设置最佳模型的路径，使用--input指定数据目录的路径。

以下是一些很好的细分结果。

如您所见，结果可能并不完美，但它们非常好。该模型甚至能够分割叶子上的小面积疾病。

下图显示了模型未能正确分割叶子上的病变区域的一些结果。

在上述示例中，该模型无法预测叶子上病害的整个区域。

对新图像进行推理

在最后一个实验中，让我们对互联网上一些未见过的图像进行推理。数据位于input/inference_data目录。

python inference_image.py --model ../outputs/best_model_iou.pth --input ../input/inference_data/images/

下面是一些预测结果：

预测结果还是不错，有些小的病害也可以正确检测出。开发板商城天皓智联 TB上有视觉设备哦支持AI相关~ 大模型相关也可用whaosoft aiot

总结

在本文中，我们训练了一个 DeepLabV3 模型，用于叶病的语义分割。在经历了整个过程之后，我们开始了解模型在验证图像上的表现。为了进一步提高性能，我们可以收集更多此类图像进行训练。另一种选择是使用 ResNet101 主干网训练更大的模型，例如 DeepLabV3。但这也需要更多的 GPU 内存，并且训练速度较慢。

源码下载：

链接: https://pan.baidu.com/s/1uALH08v6DemqNqBUwOCVpQ 提取码: 28fb

#顶会rebuttal技术浅谈

作为拯救工作、争取被捞的最后一次绝佳机会，丁霄汉大佬为大家总结了他在多次rebuttal经历后的经验总结，争取最大机会上岸！

上次VALSE学生论坛的时候有同学问到了rebuttal的技巧，当时我谈到了一些浅见，有同学表示还挺有用。在我上学这几年里主导投稿全过程的文章中，有六七篇都在第一轮审稿中有borderline reject及以下的意见，最后还是通过rebuttal而最终中稿。所以说rebuttal真的有用，没必要看到两个负面意见就放弃。现在正好到了CVPR rebuttal的时候，我把这些经验总结了一下，希望对大家有所帮助。

谈到如何rebuttal，我们不妨列出如下几条公设。

公设一：rebuttal的最终目的是说服AC，而说服审稿人只是说服AC的途径之一。
公设二：审稿人的水平参差不齐，有些根本不具备评判你文章质量的水平。
公设三：尽管确实存在“what is softmax”类的审稿人，我们还是相信审稿人的平均责任感和正义感在社会平均水平之上。

基于这几条公设，我总结了以下四条经验。

实事求是，拒绝假装卑微

有的同学认为rebuttal的关键在于承认自己的错误，让审稿人高兴。但我认为这不是最优的策略。由于研究方向的不匹配、审稿时间的紧张或者干脆就是当天心情较差等原因，审稿人可能会做出各种错误的判断。当你的审稿人说错了，我们应该指出他说错了，而不是“啊对对对”。

当面对不恰当的负面评价时，有的同学采用的策略是部分承认，然后找各种理由来削弱这一负面评判对文章质量的影响程度。例如，审稿人说“没有XXX数据集上的实验结果”，但这个数据集实际上是可有可无的，有的同学会说“we apologize …, but … is still acceptable”，然后补上这些结果，再说句感谢您的建议完善了这篇论文。

但我认为更好的策略是列出几篇代表性文章标题：你看看这几篇也有一定影响力，他们也没做这个实验嘛。当然了，既然你要了，我们也就做了，虽然意义不大，还是谢谢你了。（内心：你作为一个审稿人，说出这样外行的话，是不是应该反思一下？AC你看看，他这么业余，我还是尊重他，我是不是比他靠谱多了？）

从一个审稿人的视角，我相信一篇值得被接收的论文的rebuttal里面应该有“we beg to differ”，而非满篇的“we apologize”。我看到作者坚定维护自己时，不管我是否认同他的观点，我至少会觉得他值得尊重，然后去认认真真读他反驳我的话。

停止辩经，指出谁在划水

有时候我们会遇到比较离谱的审稿人，他可能在审稿那几天中特别不在状态，或者干脆是个不知从哪得到审稿邀请的乐子人。当我们看到非常滑稽的意见时，我们应该干脆停止辩经，不要去解释“what is softmax”，而是直接通过对审稿人不可见的“AC message”向AC指出谁才是小丑，最终使得AC排除他的意见。当然了，如果你的rebuttal还有多余的空间的话，应付他几句也不是不行，毕竟这种乐子人的行为有时是完全无法预测的，没准直接给你连升三级改成accept呢（亲身经历）。

我们要相信，AC的平均水平是在审稿人的平均水平之上的，你的AC也未必看得上他分到的审稿人。如果你能实事求是地给出审稿人不称职的证据，AC可能也懒得看他的意见——到了后续的讨论阶段，跟乐子人打交道浪费的可是他的时间啊。

例如，下面这段来自我某一次给AC打的小报告。作为审稿过程的一部分，具体的内容是不能公开的，我只能概括了一下。

We feel it necessary to bring to your attention that some of the comments from Reviewer X confuse us a lot. It seems that the reviews lack some common knowledge of the deep learning literature.

他提出了一个奇怪的名词XX，让我们解释我们所说的YY跟XX有什么关系。XX这个词把我们整懵了，任何人都知道YY是什么意思，我们不知道这有什么可解释的。
我们说了很多遍是AAA这样做的，他在summary里说我们是BBB这样做的。
他说我们语言错误很多，但是一个具体的错误都没列举出来。这违反了审稿准则中的X条Y款。

打小报告时要注意的问题：

对事不对人，我们反对的只是他的言论，不要直接表达对审稿人的不满，不然会显得很不专业。
所有对他的言论的指控都必须基于坚实的依据和简单的逻辑。他的言论必须是显而易见地荒诞，才值得你打小报告。AC也很忙，我们不能期望AC在对文章还不是很熟的情况下花几分钟来思考明白为什么某一句comment有事实性的严重错误。
不要让AC有“你在教我做事”的感觉。我们可以说希望AC做决定时将这些review的质量问题纳入考虑，不要说希望AC排除这个审稿人的评分。

花式引战，勾起内部讨论

由于审稿人的领域和偏好各不相同，我们可能收到完全相反的评论：审稿人A说写作好，novelty一般；审稿人B却说写作不行，novelty不错。在这种情况下，我们可以“断章取义”（当然，也是在实事求是的前提下），用一个审稿人的观点去反驳另一个审稿人的负面判断，以谋求他们对自己观点的重新审视。

例如，我们可以在rebuttal的开始时说：We are glad that the Reviewers appreciate the novelty (Reviewer X), writing (Reviewer Y), impressive experimental results (Reviewer Z) …

分别回应每个审稿人时，要注意语言的技巧，不要说得太直接（“人家Reviewer Y都能看出来我的创新所在，你怎么就不懂？”），不然会给人一种“你在教我做事”的感觉。要把别人的正面评价作为暗示融入到你的回应中。例如：

We would like to note that XXX distinguishes our method from YYY and ZZZ, which is appreciated by Reviewer Y and Z.

除了让审稿人更容易重新审视自己的判断以外，这样做还可能起到的一个正面效果是激发rebuttal后AC带领审稿人进行的讨论（“各位审稿人，我看了rebuttal，注意到了你们的评价各不相同，你们说说这是怎么回事？”）。如果AC觉得讨论是热烈而有益的，自己没白忙活，也收获了一些知识，那么作为引发讨论的素材，你的文章可能会得到一些印象分。

要改就改，不画虚空大饼

如果审稿人说得对，你也想改，那就要在rebuttal中让他们知道你真的会改。由于会议论文只有一次审稿，审稿人和AC会担忧你的修改是不可控的（超出篇幅限制、删除了他们没想让你删的东西、引入了新的错误等）。所以要尽量避免虚空画饼：

我们会做你说的实验
我们会改Figure 2
我们会重写第二章

要非常具体：

我们做了XX和YY的实验，我们会将以下结果加入Table 1
我们会把XX的图例加到Figure 2里并修改字号和颜色

在我曾经的一篇文章中，审稿人指出整个第三章（讲方法的部分）逻辑混乱，他“got completely lost”，要求重写。我用了相当的篇幅向他描述我会如何重组这个部分：

原来第三章第一节是讲述背景的，所以我们会放进Related Work中；
我们会在第三章开头加一个总括性的段落以概括整个方法，简述其主要组成部分并清晰地指向后续各个详述细节的小节。这个段落如下……
后续各个小节分别描述的是……

#ControlNet

视频生成game-changer来了！贾佳亚团队提出下一代 ControlNet

在人工智能领域，生成模型尤其是扩散模型，已经在图像、视频生成方面展现出了卓越的能力。近日，更强大的game-changer来了！

贾佳亚团队提出ControlNeXt，一种强大而高效的图像和视频生成控制方法，被众网友评为下一代的ControlNet。

项目主页：https://pbihao.github.io/projects/controlnext/index.html
论文地址：https://arxiv.org/abs/2408.06070
GitHub：https://github.com/dvlab-research/ControlNeXt

相比ControlNet，它仅用不到10%的训练参数，可实现一样的生成效果，而且生成、收敛的速度更快，并完美适配SDXL、SD1.5、svd等模型，让即插即用成为现实。

轻量级，即插即用

作为一个轻量级、即插即用模块，ControlNeXt可与其他LoRA权重集成，无需额外培训即可改变生成风格。

研究团队为了证明ControlNeXt的鲁棒性和通用性，在各种Stable Diffusion模型实现该方法，SD1.5、SDXL、SD3（支持Super Resolution）以及视频生成模型SVD等。任务从图像生成、高分辨率生成、延展到视频生成，结果表明ControlNeXt十分强大，各种任务手到擒来。

从研究团队给出的不同案例可看到，在SDXL中加入边缘（Canny）引导后，轻松便可绘制出和控制线条几乎完美贴合的二次元少女。

无论控制轮廓多且细碎，模型依然可以绘制出符合要求的图片。

此外，我们可以把姿势（Pose）控制条件与各种LoRA搭配使用，无论风格如何迥异他们仍然可以做出一模一样的动作。

ControlNeXt也支持遮罩（mask）和景深（depth）的控制模式，在SD3当中还支持Super Resolution（超级分辨率），可生成超高清晰度的图像。

在视频生成当中，ControlNeXt对人物动作的控制也相当精准。

并且相比ControlNet，ControlNeXt需要的训练参数更少，收敛、生成的速度更快。

比如在SD1.5、SDXL中，ControlNet需要的训练参数分别是3.61亿和12.51亿、6.82亿，但ControlNeXt分别只需0.3亿、1.08亿，比其他方法减少了多达90%的参数。

可控基因生成的一个典型问题是难以训练的收敛，往往需要数千或超十万个步骤的训练来学习条件控制。但我们看到在训练过程中，ControlNeXt在几百步已接近收敛，但ControlNet却需要几千个步数。

生成的速度也比ControlNet更快，平均下来ControlNet相当于基础模型会带来41.9%的延时，但ControlNeXt只有10.4%，速度提升30%！

贾佳亚团队是如何让ControlNeXt实现这一切的呢？

化繁为简，交叉归一化的神奇作用

这张图为我们解释了整个ControlNeXt的工作流程。

贾佳亚团队坚持认为，预训练的大型生成模型是足够强大的，没必要引入这么多的附加参数来实现控制生成的能力。

因为我们看到，研究团队删除了ControlNet庞大的控制分支。这也是ControlNeXt轻量化的关键。

与此同时，ControlNeXt改为引多个ResNet块组成的轻量级卷积模块来替换，这些模块显著小于预训练模型，并且从中提取指导信息，将其与去噪特征对齐。

在训练过程中，研究团队也冻结了大多数预训练模块，并从预训练生成模型中选择性地优化一小部分可训练参数。

在设计ControlNeXt时，研发团队巧妙地保留了与原始模型相似的结构，让它能够轻松地融入现有的系统。

ControlNeXt和它的前身ControlNet一样，都需要在生成过程中加入特定的控制信息，就像给机器下达指令一样，不需要在每个步骤都加入这些指令。研发团队通过观察发现，其实在生成过程中，我们只需要在中间阶段加入一次控制信息，就能达到很好的效果。

ControlNeXt研究团队主要针对两个关键问题进行了深入研究——注入位置的选择和注入方式的设计。

研究团队观察发现，在大多数可控生成任务中，指导生成的条件信息形式相对简单，且与去噪过程中的特征高度相关。

团队尽量让聚合的方式变得简单——用交叉归一化对齐两组特征的分布后，直接将其相加。

这样既能确保控制信号影响去噪过程，又避免了注意力机制等复杂操作引入额外的学习参数和不稳定性。

这之中的交叉归一化，也是ControlNeXt的核心技术，替代了此前常用的zero-convolution等渐进式初始化策略。

传统方法通过从零开始逐步释放新模块的影响力来缓解崩塌问题，但往往导致的结果就是收敛速度慢。

交叉归一化则直接利用主干网络去噪特征的均值μ和方差σ对控制模块输出的特征做归一化，使二者的数据分布尽量对齐。

（注：ϵ是为数值稳定性而添加的小常数，γ为缩放参数。）

归一化后的控制特征再通过尺度和偏移参数调整幅度和基线，再与去噪特征相加，既避免了参数初始化的敏感性，又能在训练初期就让控制条件发挥作用，加快收敛进程。ControlNeXt还借助控制模块学习条件信息到隐空间特征的映射，使其更加抽象和语义化，更有利于泛化到未见过的控制条件。

整体而言，ControlNeXt采用精简的结构，消除了沉重的辅助组件，以最小化延迟开销并减少可训练的参数。这种轻量级的设计使其能够作为具有强大鲁棒性和兼容性的即插即用模块，进一步允许与其他LoRA权重集成以更改生成风格而无需进行额外的训练。

#U-KAN 网络与 U-Net 谁更胜一筹

作者首次探讨将U-KAN应用于农田像素分割，从性能和可解释性角度分析U-KAN和U-Net

段落分割对于提升农业生产力、监控作物的健康状况以及推广可持续的农业实践是至关重要的。为这项任务采用的深度学习模型必须确保准确和可靠的预测，以避免经济损失和环境影响。

新提出的Kolmogorov-Arnold网络（KANs）在神经网络的性能方面提供了有前景的进展。本文分析了将KAN层整合到U-Net架构（U-KAN）中，使用Sentinel-2和Sentinel-1卫星图像对农田进行分割，并提供这些网络的性能和可解释性的分析。

作者的研究发现，与传统的全卷积U-Net模型相比，在更少的GFLOPs下，IoU提高了2%。此外，基于梯度的解释性技术表明，U-KAN预测具有很高的合理性，并且该网络具有非常高的聚集在耕作区域边界而不是区域本身的能力。关于每个通道的相关性分析揭示，有些通道对这个任务来说是无关的。

1 Introduction

近年来，远程感应和深度神经网络已经彻底改变了作者如何应对农业管理、环境监测以及许多与地球观测相关的工作。它们的结合证明在各种任务上都是有效的，例如紧急管理[19]和土地覆盖[31]等。与土地覆盖相关的一个任务是划分农田，这对优化农业生产力、评估农作物健康和规划可持续的耕作方法至关重要[7]。

在这个过程中使用的神经网络的准确性和可解释性是确保可靠和可操作性洞察力的基础。精确划分农田可以使计算面积覆盖准确，评估农作物类型，并监测农业因子如植物健康和土壤条件[6]。这些信息对于作出关于灌溉、施肥和作物轮换的有知情的决策至关重要，这对于提高产量和可持续性[10]。此外，语义分割任务的准确性直接影响政府及机构各种 Level 的经济计划和政策制定。提供准确的决策是必要的，但是模型可理解性和可用性也是关键，以允许实践者验证它们并遵守机构规定[45]。这些因素至关重要，因为它们极大地影响经济和环境。[15].深度学习模型可以实现高精度，但它们通常被认为是“黑 Box ”，因为它们的复杂结构由许多层和难以解释的参数组成。这种复杂性在理解这些模型的决策过程方面 pose 了巨大的挑战。在遥感背景下，这种模型的可解释性进一步复杂化，因为数据的性质包括各种光谱带、时间序列和空间分辨率。此外，噪声、遮挡和大气效应可能会 Mask 模型的决策过程。

因此，深度学习在遥感解释的可行性至关重要，因为它确保人类可以理解这些模型的决策和输出。开发解释模型输出背后的逻辑是验证其结果并建立其实际应用信心的必要条件。一种普遍采用的方法是，以模型预测的个别效果进行事后解释，从而提高其可解释性，但不会影响其准确性。这一解决方案在地球观测领域得到应用，其中解释作为显著图（或热力图）呈现，突出显示卫星图像中哪些部分影响了模型预测[15; 18]（图1（c）和（d）为例）。

最近Kolgomorov-Arnold网络(KANs)[23]的引入为神经网络提供了一种新型范式，作为多层感知模型(MLPs)的替代品。受到Kolomorov-Arnold表示定理[2; 20]的启发，KANs允许学习网络边缘的定制激活值。这样，作者可以分析输入数据中单个组成部分的贡献，从而提供网络决策过程更透明的视图。由于其在改善视觉任务方面的潜力，KANs最近被集成[22]到U-Net架构[36]中，该架构是一种知名的分割架构。所得网络，称为U-KAN，用于医学影像分割，并展现了卓越的准确性和效率。

在本文中，作者首次探讨将U-KAN应用于农田像素分割，从性能和可解释性角度分析U-KAN和U-Net。

作者的研究问题如下：

RQ1: U-KAN与U-Net在农田像素分割任务上的表现有何差异？RQ2: 卫星图像的哪些部分对模型的预测影响最大？U-Net和U-KAN是否优先考虑图像的不同方面？

为回答第一个研究问题，作者在Sentinel-2[14]和Sentinel-1[44]卫星图像上的南半球农田类型数据集[46]上评估U-KAN和U-Net，该数据集用于农田像素分割。作者的发现表明，与U-Nets相比，U-KAN在交并比(IoU)和每秒千亿浮点运算(GFLOPs)方面更准确和高效。

对于第二个研究问题，作者分析了两者的可解释性。作者利用事后可解释性技术确定图像中哪些部分影响了模型识别。作者对U-Net和U-KAN的这些重要性评分，称为显著性图，分析了识别行为的差异。作者的结果表明，U-Net和U-KAN确实考虑图像的不同方面进行预测。U-KANs通常侧重于农作物的边缘，而U-Nets更专注于内部，如图1(c)和(d)所示。此外，作者还定量评估了显著性图的质量，发现U-KANs更为忠实和可靠。

作者的贡献可以总结如下：

作者首次探索了将U-KAN应用于农田图像分割的应用。
作者对U-KAN和U-Net在卫星图像上的农田图像分割进行了比较分析。
作者利用事后可解释性技术分析了两者的可解释性，并用于生成和评估显著性图。
作者发现与U-Net相比，U-KAN提供了更高的精确度和效率，以及更忠实且更合理的显著性图。

实验代码可在https://github.com/DarthReca/crop-field-segmentation-ukan。

2 Related Work

在本节中，作者将概述农业遥感技术的最新进展，解释神经网络的可解释性，并探讨二者之间的交集。

Remote Sensing

遥感的应用已经被广泛应用于农业领域，旨在加强农作物的监测、管理和产量提升。早期的研究主要集中在利用卫星影像评估农作物健康和估算产量 [5]。传感器技术和数据处理技术的进步使得遥感数据的分辨率和准确性大幅提高，使得对农业景观的详细分析成为可能 [33]。在农业中应用遥感的其中一个例子是农作物田块分割，它涉及到识别耕作区域。

卷积神经网络（CNNs）和U-Net架构的引入进一步提升了农作物田块分割的效果 [4, 48]。虽然近年来提出了其他架构，但由于其设计，它仍然是最有效的遥感 Baseline 之一。将多光谱和超光谱影像整合也为更准确农作物田块分割作出了贡献。这些影像记录了不同波长下的数据，提供了关于农作物特性更丰富的信息 [43]。

Explainable AI

可解释的人工智能（XAI）是AI研究中一个致力于使机器学习模型对人类可解释和理解的分支 [32, 1, 3]。近年来，由于需要在远程感知中应用复杂的AI模型，使解释的需求越来越大，这项技术在地球观测任务中的应用变得非常热门。该领域的解决方案遵循着XAI方法的分类标准：设计得易于解释和事后可解释的方法 [32]。其中，设计得易于解释的方法，如将可解释性内在地集成到模型算法或其架构的设计中。然而，这些方法往往不能解释个体模型预测，人们对它们是否能真正帮助人类理解过程持怀疑态度 [15]。此外，它们往往比黑盒模型更不精确。为了克服这些限制，许多工作专注于事后解释，它们旨在解释训练黑盒模型，同时保留其准确性和增强透明度。

显著性图(Saliency maps)是用于可视化输入图像哪些部分影响模型预测的最为广泛使用的后置解释方法。显著性图(或 Heatmap )是像素基的重要性分数，突出每个像素对预测的贡献。这些图广泛应用于医学诊断等语义分割任务 [16, 17, 18, 26]。由于遥感模型决策过程的理解急需，已有研究开始将其应用于卫星图像和农田分割等领域。

在这些研究中，Kakogeorgiou和Karantzalos [18]对在遥感多标签深度学习分类任务中解释显著性图的十种可解释AI方法进行了系统评估，并从定性和定量角度进行了系统性分析。然而，作者的方法并非与多个XAI方法对比，解释同一个模型，而是用与同一可解释性技术从两个模型中推导显著性图，进行系统性评价。他们的研究将Grad-CAM [38]认定为可靠且可解释的方法，且计算成本较低 [18]。作者利用这项分析的结果，并选择Grad-CAM作为可解释性方法。

为了解释的需求，最近提出的KANs [23]通过允许通过剪枝与网络互动以及可视化可学习激活函数，提供自身的一定程度的解释性。工作进行将其集成到U-NET架构 [36]，提高了在医学诊断任务上的性能和效率 [22]。作者的研究是首次将U-KANs应用于农田分割领域。此外，作者从解释的角度比较了U-NET和U-KAN架构，并提出了它们解释性的系统评价。就作者所知，作者也是首次以事后解释的角度评估U-KAN，并分析了Grad-CAM提供的个体解释。

3 Methodology

在本节中，作者首先详细阐述了农田分割任务，接着是可解释性部分，最后是模型部分。

Problem statement

本研究针对基于辐射度或光谱图像的作物田间分割问题。该问题的表述如下：

设为任意大小为的卫星图像, 其中和分别表示图像在像素中的宽度和高度, 而表示图像的深度 (即每个像素的特征数量)。目标是自动创建与相关联的二进制 Mask ，它是由一个大小为的矩阵表示，其中单元格的值为 1 表示该像素包含耕作区域, 值为 0 表示该区域为非耕作区域。

Explainability Statement

作者旨在通过为用户提供模型预测的可视化解释来帮助用户充分理解模型如何实现有效分割。从XAI（交互式人工智能）的角度来看，这个问题可以表述为以下形式：

给定图像和其二值 Mask , 作者希望生成一个大小为的显著性图（或 Heatmap ） , 以突出表示模型预测重要区域的中的区域。中的每个元素都是与图像中的像素相关的显著性得分。每个值表示对成熟区域预测的影响。通过可视化显著性图,有助于解释模型如何做出其决策。

Models

在这项研究中，作者比较了著名的U-Net [36]与一种修改版[22]，该版本将KAN[23]层集成到架构中。接下来，作者首先概述U-Net架构。然后，作者概述KAN神经网络，并最后将其集成到U-KAN架构中。

3.2.1 U-Net

卷积神经网络（CNN）是一种在医学图像分割领域的常用架构。它的结构特征是一种U型，如图2所示，收缩路径用于捕捉上下文，而对称扩展路径用于实现精确的局部定位。收缩路径由重复的卷积和池化操作组成，而扩展路径涉及上采样和卷积层以恢复图像分辨率。这种设计使U-Net能够有效地从相对较少的训练图像中学习，并产生高质量的分割，使其成为医学图像分割之外的广泛选择。

KAN

[23] 科尔莫戈罗夫-阿诺德网络（KANs）是一种新颖的神经网络类型，灵感来自于科尔莫戈罗夫-阿诺德表示定理[2, 20]，该定理表明：每个多变量连续函数可以表示为两个参数函数的求和：

其中。与传统的多层感知机（MLPs）固定在节点上的激活函数不同，KANs采用可学习的激活函数在边上。这通过用带样条的单变量函数参数替代每个线性权重参数来实现。训练过程中，激活值逐步变化以更好地区分目标，KANs还提供了一种可视化可学习激活函数的可能途径。这样，KANs可以比MLPs更透明和高效地学习复杂关系，提供了一种有前途的替代深度学习模型。在不需要复杂非线性时，学习的激活可以表示为价格低廉的函数（如常数或线性）。这也授予了理解输入的关键部分的可能性。

U-Kan

U-KAN [22] 提出了一种方法，使用KANs来实现U-Net深处。这些层包括一个分词层，一个KAN层，一个下采样层和一个最后的归一化层。如图3所示，深度表示的处理器网络是区别的关键。U-Net的主要特征（如下采样和跳跃连接）保持不变，共享相同的好处。编码器最后层和译码器第一层的修改使得网络可以学习自定义激活函数而不是固定函数，这有可能提高嵌入的表示性，并在需要时通过学习简单的激活减少所需的计算资源。

4 实验设置

本节描述所采用的数据集、实验设置和用于评估生成的图像分割性能和解释质量的采用的评价指标。

Dataset

作者使用了南非作物类型数据集[46]，该数据集包含来自Sentinel-2和Sentinel-1的图像，覆盖南非广阔的地区。数据集中包括形状不规则的小型农作物区域，使得区分耕作和非耕作区域更具挑战性，同时该数据集提供了比其他覆盖该区域的图像更高的分辨率（大小为256×256）。标注包含覆盖了特定作物的区域的 Mask 。在作者的分析中，作者仅限于通过分析从Sentinel-2和Sentinel-1获得的两种类型的图像来区分耕作和非耕作区域。

Sentinel-1[44]是Copernicus计划下的一颗卫星，配备了C波段合成孔径雷达成像仪（SAR），可以进行全天候、昼夜的雷达成像。卫星能够在单极化和双极化模式下运行。在陆地，它主要收集VV和VH极化。

Sentinel-2[14]是Copernicus计划的一部分，由两颗卫星组成。这些卫星配备了能在红外光谱中工作的多光谱成像仪器，具有13个光谱波段，从Ultra-Blue、Visible、近红外（NIR）到短波红外（SWIR）。由于Sentinel-2具有仪器，因此对植被特别敏感。

虽然Sentinel-1图像可以因为其辐射特性覆盖不同的气象情况，但Sentinel-2受到云中和类似的气象干扰的影响。由于提供的云 Mask 往往不准确，作者使用s2cloudless算法[39]计算了 Mask 。作者排除了与作物区域重叠严重的Sentinel-2低质量图像（云 Mask 和包含作物的区域交集超过0.7）。

由于没有给出划分，作者将数据集随机分为包含2019个训练样本、267个验证样本和364个测试样本的训练集。这三个划分根据卡方检验（衡量类频率）测量相似度。这样，由于Sentinel-1和Sentinel-2的日期不完全匹配，因为不同的重访时间，作者创建了包含三个划分的两个数据集。图4显示了Sentinel-1 VV和Sentinel-2 RGB的测试集样本。

Experimental Setting

实验设置部分详细描述了实验所需的技术和硬件环境。在此部分，研究者们会阐述实验中的算法、数据预处理方法以及实验所需的硬件要求。此外，实验设置部分还应包含有关实验设计、实验参数调整和实验结果收集的详细描述。这将有助于读者充分理解实验流程，并为实施类似研究提供指导。

本实验主要研究[研究目标]，并采用[实验方法]。为保证实验结果的有效性和可重复性，作者使用了[数据集]。在本部分，作者将详细说明实验过程，包括数据集的预处理方法、模型训练和验证的设置，以及实验结果的分析和讨论。

首先，作者将对数据集进行预处理。预处理的目标是消除噪声，提高数据质量并为后续的模型的训练和验证做好准备。作者采用了[预处理方法]，包括数据清洗、数据标准化和平滑等步骤。这一步骤将有助于提高实验的准确性和稳定性。

接下来，作者将采用[模型结构]进行模型的训练和验证。作者首先使用[训练集]进行模型的训练，并利用[验证集]对模型性能进行评估。在此过程中，作者将设置多个训练参数，如学习率、批次大小和迭代次数等，以获得最佳的模型性能。在模型训练过程中，作者将采用[监控指标]评估模型训练的稳定性，以确保模型能够准确地学习到数据中的隐藏规律。

最后，作者将对实验结果进行分析和讨论。

作者将在以下几个方面展开讨论：模型性能、实验误差和实验结果的可靠性。通过这些讨论，作者将努力为读者提供有价值的信息，并希望为未来相关研究表明提供一个参考。

4.2.1 Crop Field Segmentation

图像尺寸：对于Sentinel-1数据，大小为256x256x2；对于Sentinel-2数据，尺寸为256x256x12。作者训练所有网络使用AdamW优化器，并使用学习率调度器，当达到平台时降低因子0.2并耐心5次。初始学习率设定为1e-4，批次大小为16。作者训练模型60个周期。作者应用随机水平翻转和垂直翻转作为增强。损失函数是广义 dice 损失 [41]，它考虑图像中的类别不平衡。作者将两种具有相同编码器（因此解码器）嵌入大小的网络进行比较，以更好地理解决如何利用相同的表示空间。

作者在 Intersection-Over-Union (IoU)，F1-Score（F1），Precision（Prec）和 Recall（Rec）指标上评估网络在正类的性能。作者还可以使用 GFLOPs 指标来衡量网络的效率。

4.2.2 Explainability

作者使用Grad-CAM[38]作为一个视觉后的解释方法，因为其在远程感知[18]之前的XAI研究中已被证明是有效的。由于其独特的优势，它能帮助作者解答一个关键问题：“模型在划分作物时关注哪些像素？”

对于每一张图像，作者生成单个显著图来量化每个像素对模型（例如，U-NET或U-KAN）的预测（即，耕作区域）的影响。在Grad-CAM中，生成过程首先涉及计算与所选卷积层特征图相关的正类分数的梯度。这些梯度被全局平均以获取每个特征图的重要性权重。然后，使用计算出的权重对这些特征图进行加权求和，这会产生一个粗糙的位置图，突出显示输入图像中最 influential 的区域。接着，作者对加权求和施加ReLU激活，以确保只考虑正的影响因素，产生最终的Grad-CAM Heatmap 。在作者的实验中，作者使用Sentinel-2数据，提供了12个通道的多光谱图像，并为测试集图像生成解释。

作者评估了生成的Grad-CAM Heatmap 的可信度[39]、充分性[40]和每个通道的相关性[40]。接下来，作者提供一个详细描述每个度量指标的说明。

可信度指显著图与人类理解和领域专业知识[39, 18, 37]的符合程度。这对于确保模型不仅表现出色，而且与人类的期望和知识相契合至关重要。在本研究中，作者希望评估每个生成的显著图与相对真实值之间的契合程度。作者通过计算生成显著图与相应真实值 Mask 之间的每个指标（IoU，F1，Prec，Rec）来评估显著图的可信度。

由于作者的显著图提供了连续的的解释，其中每个像素都有重要性值，作者建立了一个重要性阈值，以定义哪些像素被认为是奥特斯方法[34]中分割显著图的重要因素。奥特斯方法将显著图分割成不同的区域，创建一个可以直接与二进制真实值 Mask 相比较的二进制 Mask 。

4.2.3 Sufficiency

[24, 35]。充分性是忠实度的一个方面，评估解释是否确实捕获了导致分段的重要因素，因此是充分的。

为了评估解释的充分性，作者只保留解释确定的重要像素，并 Mask 其他像素。然后，作者在改变后的图像上评估正类的性能指标（IoU，F1分数，精确率和召回率）。充分性计算为原始图像和改变后的图像之间的指标变化。性能下降得更小表示解释更充分。在此次实验中，作者还使用了Otsu方法对二值显著图进行阈值分割。

4.2.4 Per-channel Relevance

标准XAI评估的另一个重要方面是当输入图像被扰动时性能指标的变化。覆盖敏感性（Occlusion sensitivity）是一种方法，它通过使用滑动窗口系统地遮挡输入图像的一部分来测量模型输出的变化。这种技术识别出模型预测的关键图像区域，为作者解释模型的推理过程和解释的忠实度提供了洞察。

在作者的具体情况下，作者将遮挡的想法应用到了输入图像的所有通道，而不是图像的一部分。这种方法与作者的数据性质更为契合，每个像素都具有自身的权力和分类。通过遮挡整个通道，作者可以系统地评估特定通道的缺失如何影响模型的解释，从而明确每个通道在分类过程中的作用。

在作者的测试中，作者一次遮挡一个通道，并计算出的重要性地图。然后，作者计算出通过遮挡一个通道得到的重要性地图与使用所有通道得到的重要性地图之间的IoU。

5 Experimental Results

在本节中，作者展示了分析数据集得到的成果。首先，作者概述了裁剪分割性能，以回答研究问题RQ1。

接着，作者从定性和定量的角度分析了U-Net和U-KAN预测的解释，以回答RQ2。

Task Performances

在表1中，作者报告了在Sentinel-1和Sentinel-2数据上使用U-Net和U-KAN的结果。U-KAN在Sentinel-2数据上的IoU性能上表现最佳，证明了其在处理复杂关系方面的适应性。在Sentinel-1上，U-KAN在IoU方面的表现与U-Net相当。在精度方面，KAN变体表现更好，得分比U-Net高约3%。尽管Sentinel-1影像受大气事件影响较小，但Sentinel-2波段通过对两种网络区域的理解提供更好的信息。U-KAN在GFLOPS方面的计算效率高于标准的U-Net，其耗电量为U-Net的一半。

在两种情况下，KAN变体都被证明是一种更好的解决方案，提供更佳或可比较的性能，且在更少的GFLOPS下运行。此外，它在任何情况下都表现出更高的精度。

Analysis of explanations

作者通过定性及定量评估分析了U-KAN和U-Net网络在Sentinel-2数据集上的可解释性结果。

5.2.1 Qualitative Evaluation

作者研究了两种网络产生的显著图。这种分析揭示了每个模型关注的重点领域，提供了对其分割行为更深入的理解。

图1展示了由U-Net和U-KAN模型生成的显著图实例。红色像素表示网络最关注的点，突显了两种模型行为的差异。图1（c）表明，U-Net模型关注的区域比U-KAN模型大得多。这一观察结果表明，无论分割任务的效率如何，U-Net模型倾向于将关注点分散在更大的区域中。相比之下，U-KAN模型在处理分割任务方面有一个有趣的特点。网络主要关注的是耕作区域的边界，而不是这些区域内部。对边界的关注表明，U-KAN模型优先考虑定义感兴趣区域的边缘。这一最后特性开放了U-KAN网络在边界划分和映射任务中的潜在使用，这些任务需要精确的边缘检测和划分。这些考虑适用于数据集中的图像。作者在作者的存储库中包含了多个显著图示例。

图5说明了当U-KAN特定的通道B01，B06和B11被遮挡时，显著图的变化。从图5（c）作者可以推理，通过遮挡与波段B01相关的通道，得到的显著图与原始图非常相似，表明这个通道对模型关注几乎没有影响。当与波段B06相关的通道被遮挡时，作者观察到显著图的变化，表明这个通道对网络关注有影响。当与B11（1610 nm - 短波红外1）相关的通道被遮挡时，得到显著图模型不关注任何特定区域，意味着网络在没有这个通道的情况下无法检测到分割特性。这一结果凸显了模型在执行分割任务时，通道B11的重要性。对于U-Net的类似观察。作者进一步在后面的定量分析中探讨了通道对显著图的影响。

表2呈现了_Plausibility_的评估结果。关于解释的可信度，U-KAN比其竞争对手U-Net具有更高的IoU和Precision。这表明U-KAN提供了更准确、可靠的解释，更接近人类的理解。另一方面，U-Net具有更高的Recall和F1得分，这意味着它更能捕获明显图中的特征，尽管它包括更多的假阳性。

在表3中，作者呈现了评估解释充分性的结果。充分性可以用被遮挡图像和原始图像之间指标差异量化。有趣的观察是Precision指标的变化。其他指标的下降与移除不那么关键的像素相符，但U-KAN和U-Net的Precision都增加了。这个增加的Precision值得注意，因为在排除不那么重要的像素的同时，两种网络都展示了增强的能力，在像素划分任务上定义属于作物的像素。

表4报告了_每通道相关性_的结果。对于每个模型，作者报告了所有通道显著图与遮挡特定波段相关通道显著图之间的IoU分数。在这个背景下，较低的IoU表示该通道的重要性较高。具体来说，如果移除一个通道导致较低或零的IoU，那么该通道在最终的分割任务中起着重要作用。对于U-KAN和U-Net模型，作者得到以下结论：对应的波段B05（705 nm - 红色边缘）、B8A（865 nm - 窄近红外）和B11（1610 nm - 短波红外1）对于作物分割任务是最重要的，因为它们具有特定的敏感性。具体来说，B05和B8A对叶绿素含量和植被生物量敏感，而B11对土壤和植被中的湿度敏感。所有测试样本的定量评估与图5中显示的定性结果一致，证实了以下观察到的见解。分析每个通道在Sentinel-2图像中的相关性开辟了优化所使用通道的可能性，即仅关注重要通道，以减少使用通道的数量。这种优化可以提高效率，降低计算成本，同时保持分析质量。

Analysis of the trained models

如图6所示，作者报告了一个解码层中嵌入元素的学习激活值。作者可以看到基函数（SiLU，由U-Net常见使用）和ReLU之间的巨大差异。U-KAN在深层嵌入中有效地表示了更复杂的关系。第二个激活与SiLU相反，沿着y轴进行反转。第一和第三个激活相似，但斜率不同（第一个函数更陡峭）。

此外，每个嵌入元素都学习到不同的激活，具有不同的复杂性。一些元素可能是嵌入中某个部分的常数激活。具有方差小于1的学习函数占约26%，而方差小于0.1的学习函数占约8%。这表明这些是嵌入中的不相关部分，因为每次输入都被映射到相同的价值。

6 Conclusions

在这项工作中，作者展示了新的 KANs 如何在农业领域改进著名架构，尤其是在效率方面，只使用了全 CNN 架构的一半资源。

作者的研究表明，U-KAN 通过实现比 U-Net 更高的精确度和 IoU 分数，提供优越的性能。

可解释性分析还揭示了两个重要的洞察。首先，U-KAN 网络强调边界细节，使其在边界划分和映射等任务上特别有效。其次，对分割任务并不是所有通道都有用。

因此，用户可以决定只依赖最重要的，以降低模型的计算成本。在未来的工作中，作者将实施从作者的网络可解释性分析中得到的洞察，以提高性能和降低计算成本。

#MobileViCLIP

快55倍！南大等提出首个高效“视频-文本模型，让多模态AI在手机可运行！

视频-文本预训练模型（如Video-CLIP）在视频搜索、分类和理解等任务上取得了巨大成功，但这些强大的模型几乎无一例外地基于庞大而高延迟的Vision Transformer（ViT）架构，使其难以在手机等移动设备上部署和运行。当我们在手机上享受流畅的短视频体验时，背后复杂的AI理解和检索任务却始终被“云端”高昂的计算成本所限制。

为了打破这一瓶颈，让强大的视频-文本理解能力真正走向终端，来自南京大学、蚂蚁集团和上海人工智能实验室的研究者们，共同开发了一款名为 MobileViCLIP 的高效视频-文本模型。该模型巧妙地在速度和性能之间取得了前所未有的平衡，在移动设备上的推理速度比现有SOTA模型快数十倍，同时保持了极具竞争力的零样本检索和分类能力，为在移动端部署强大的多模态AI应用探索出了可行的道路。

论文基本信息

论文标题： MobileViCLIP: An Efficient Video-Text Model for Mobile Devices

作者： Min Yang, Zihan Jia, Zhilin Dai, 等

机构： 南京大学，蚂蚁集团，上海人工智能实验室

论文地址： https://arxiv.org/abs/2508.07312

代码仓库： https://github.com/MCG-NJU/MobileViCLIP

录用会议： ICCV 2025

核心思想：从高效图像模型到高效视频模型

从头开始设计一个高效的视频-文本模型是极其困难的。研究者们另辟蹊径，提出了一条更聪明的路径：从一个已经非常高效的图像-文本模型（MobileCLIP）出发，通过最小化、最高效的改造，将其“升级”为视频模型。

时空RepMixer (Spatiotemporal RepMixer)

MobileCLIP中的RepMixer模块原本只在空间维度上混合信息。研究者通过在其中加入一个1D深度可分离卷积来沿时间维度对特征进行建模。最关键的是，这个新增的1D卷积层采用了结构重参数化（structural reparameterization）技术，这意味着在推理时，它可以被数学上等效地融合进前面的卷积层中，从而在不增加任何推理耗时和参数量的情况下，为模型赋予了宝贵的时序信息捕捉能力。

2. 时空注意力 (Spatiotemporal Attention)

对于模型中的注意力模块，改造同样轻巧。研究者仅仅通过添加可学习的时序位置编码（Temporal Positional Embeddings, TPE），就使得原本只处理空间信息的注意力机制能够理解帧的顺序和长距离时间关系，从而升级为时空注意力。

通过这两个“微创手术”，MobileViCLIP成功地将一个高效的图像编码器转化为了一个高效的视频编码器，并随后在千万级的大规模视频-文本数据集InternVid上进行微调，使其具备了强大的视频理解能力。

实验结果：速度与精度的极致平衡

MobileViCLIP的性能表现堪称惊艳，完美地诠释了什么叫“又快又好”。

速度与性能对比

下图直观地展示了MobileViCLIP在速度-性能权衡上的巨大优势。在移动设备（iPad Air 2020）上，MobileViCLIP-Small的推理速度是强大的InternVideo2-L14的55.4倍，是InternVideo2-S14的6.7倍。在速度大幅领先的同时，其在MSR-VTT视频检索任务上的R@1分数与InternVideo2-L14相当，并显著优于InternVideo2-S14。

零样本与微调任务表现

在多个视频-文本检索和零样本动作识别任务上，MobileViCLIP均表现出色，以极低的延迟实现了与重量级模型相媲美甚至更优的性能。

零样本视频检索结果：

零样本动作识别结果：

此外，该模型作为特征提取器，在视频高光检测、时序动作定位等更复杂的下游任务中，同样展现了强大的能力。

消融研究

消融实验证明，论文提出的时空RepMixer和时空注意力两个模块对于模型的性能提升都至关重要。

总结与贡献

MobileViCLIP的出现，成功地填补了高效端侧视频-文本预训练模型的空白。其核心贡献在于：

提出高效的视频-文本架构： 通过对高效图像-文本模型进行巧妙的、可重参数化的时序改造，首次实现了一款专为移动设备设计的高性能视频-文本模型。
实现极致的速能均衡： 在移动设备上实现了数十倍于现有SOTA模型的推理速度，同时保持了极具竞争力的零样本理解和检索能力。
推动端侧多模态AI发展： 该工作为在手机、AR/VR眼镜等移动设备上部署更强大的视频理解、视频搜索、人机交互等多模态AI应用扫清了关键的性能障碍。

CV君认为，MobileViCLIP是模型效率优化领域的一个杰出范例。它所展示的“从高效图像模型出发，通过可重参数化进行时序升级”的设计哲学，对于未来开发更多轻量化、多模态的端侧AI模型具有重要的指导意义。

#DeCLIP

解耦CLIP注意力，哈工大（深圳）、港大提出通用开放词汇密集感知新框架

当前，目标检测、实例分割等密集视觉感知任务，大多仍受限于一个“预定义”的封闭类别集，这极大地限制了它们在视觉概念无界的真实世界中的应用。尽管像CLIP这样的视觉语言模型（VLM）在开放词汇（Open-Vocabulary, OV）任务上展现了巨大潜力，但将其直接用于需要像素级理解的密集感知任务时，其性能往往不尽人意。

来自哈尔滨工业大学（深圳）和香港大学的研究团队，敏锐地观察到CLIP的这一核心短板：其图像token在深层网络中难以有效聚合空间或语义相关区域的信息，导致最终的特征既缺乏局部判别性，又缺乏空间一致性。简单来说，CLIP“看得懂”整张图的大意，却“看不清”图中每个物体的细节和边界。

为了解决这一难题，研究者们提出了一个名为 DeCLIP 的全新框架。DeCLIP意为“解耦后的CLIP”（Decoupled CLIP），其核心思想是通过一种新颖的解耦学习策略，显著增强CLIP在像素级别的开放词汇表示能力，使其成为一个强大的、可用于多种下游密集感知任务的通用基础模型。

DeCLIP的强大之处在于其通用性，它作为一个基础模型，能够无缝对接到各种开放词汇密集感知任务中，包括2D的目标检测与分割、3D实例分割、视频实例分割乃至6D物体姿态估计，并在这些任务上都取得了SOTA或接近SOTA的性能。

论文标题: Generalized Decoupled Learning for Enhancing Open-Vocabulary Dense Perception
作者团队: Junjie Wang, Keyu Chen, Yulin Li, Bin Chen, Hengshuang Zhao, Xiaojuan Qi, Zhuotao Tian
机构: 哈尔滨工业大学（深圳），香港大学
论文地址: https://arxiv.org/pdf/2508.11256v1
代码地址: https://github.com/xiaomoguhz/DeCLIP

研究背景：CLIP在密集感知任务中的困境

CLIP的成功源于其在海量图文对数据上的对比学习，使其能够学习到强大的图像级-文本对齐的语义表示。然而，这种图像级的预训练范式也带来了其在密集感知任务上的“先天不足”。

研究者通过可视化CLIP和视觉基础模型（Vision Foundation Models, VFM，如DINOv2）的自注意力图谱发现：

如上图所示，VFM（右）的注意力能够从浅层到深层始终聚焦于语义相关的区域。而CLIP（左）的注意力在网络深层会突然“跑偏”，图像的各个token不再关注语义本身，而是高度关注少数几个特定的“代理token”（proxy tokens），导致了局部语义信息的丢失和空间一致性的破坏。这正是CLIP直接用于密集感知任务时性能不佳的根本原因。

虽然已有工作尝试通过微调或与其他模型（如SAM）结合来适配CLIP，但它们或需要昂贵的密集标注，或局限于区域级对齐而无法用于分割，或只是简单组合而未能从根本上增强CLIP自身。DeCLIP则另辟蹊径，旨在从内部增强CLIP的密集特征表示能力。

DeCLIP：解耦内容与上下文，双管齐下

DeCLIP的核心创新在于，它将CLIP最后一个自注意力模块的功能进行“解耦”，分别学习两种关键特征：

内容特征 (Content Features)：负责提升局部判别性，即区分不同物体的能力。
上下文特征 (Context Features)：负责提升空间一致性，即理解同一物体内部区域的连贯性。

上图详细展示了DeCLIP的框架。通过这种解耦设计，DeCLIP可以为这两种特征施加不同的、更具针对性的监督信号，从而避免了直接微调时产生的优化冲突。

上下文特征增强：融合VFM与扩散模型

为了增强上下文特征的空间一致性，DeCLIP引入了强大的“教师”模型进行知识蒸馏。有趣的是，它不止一位老师：

VFM (如DINOv2) 作为主教师：VFM拥有强大的语义相关性知识，能够告诉DeCLIP哪些像素在语义上是相似的。但研究者发现VFM提供的语义关联图存在边界模糊、内部有空洞的问题。
扩散模型 (Stable Diffusion) 作为助教：为了弥补VFM的不足，DeCLIP巧妙地利用了SD模型的自注意力图。SD的注意力图对物体轮廓等高频信息高度敏感，具有很好的物体完整性。通过将SD的注意力图作为“引导”，对VFM的语义关联图进行补全和增强（SD-Guided Semantic Completion），DeCLIP获得了近乎完美的、兼具语义准确性和边界完整性的上下文监督信号。

上图清晰地展示了经过SD引导的语义补全后，VFM的语义亲和力图（Semantic Affinity Map）在物体完整性上得到了显著提升。

内容特征增强：对齐区域表示

为了增强内容特征的局部判别性，DeCLIP采用了自蒸馏的策略。它将输入图像切块，然后将DeCLIP自身编码器输出的区域特征与“教师CLIP”对相应图像块编码得到的[CLS]特征进行对齐。这种方法继承了CLIP强大的图文对齐能力，并将其迁移到了区域级别。

同时，为了防止在对齐过程中破坏原有的空间相关性，DeCLIP还引入了区域相关性约束 (Region Correlation Constraint, RCC) ，利用VFM的区域相关性作为额外的约束，保证了模型在学习局部细节的同时，不会丢失整体结构信息。

全面领先的实验结果

DeCLIP作为一个通用的开放词汇密集感知基础模型，在六大类任务上进行了全面评估，并取得了SOTA性能。

2D检测与分割：在OV-COCO和OV-LVIS等数据集上，无论是结合F-ViT还是OV-DQUO，DeCLIP都带来了显著的性能提升。

3D实例分割：在ScanNet200数据集上，DeCLIP同样大幅提升了Open3DIS等基线方法的性能，尤其是在长尾类别（APtail）上，提升高达 5.9% AP。

视频实例分割：在LV-VIS、OVIS等多个视频数据集上，DeCLIP与CLIP-VIS结合后，刷新了该任务的SOTA记录。

6D物体姿态估计：在REAL275和TOYL数据集上，DeCLIP替换Oryon中的CLIP骨干后，在关键指标AR上分别提升了 5.4% 和 2.3%。

免训练分割：在多个数据集的免训练（Training-Free）语义分割任务上，DeCLIP也全面超越了ClearCLIP、SCLIP等现有方法。

消融实验也充分证明了DeCLIP中每个模块的有效性，特别是内容-上下文解耦蒸馏以及SD引导的语义补全，都对最终性能有巨大贡献。

总结与价值

DeCLIP通过对CLIP内部注意力机制的深刻洞察，提出了一种新颖的解耦学习框架，成功地解决了CLIP在密集感知任务中局部判别性和空间一致性不足的核心痛点。它巧妙地融合了VFM和扩散模型的优点，为CLIP的密集特征学习提供了高质量的监督信号。

论文的贡献可以总结为：

揭示了CLIP在密集感知任务中的核心局限：即深层注意力模式的退化。
提出了DeCLIP框架：通过解耦内容和上下文特征，实现了对CLIP密集表示能力的根本性增强。
首创SD引导的语义补全：创新地利用扩散模型来提升VFM的语义图质量，为知识蒸馏提供了更优的教师信号。
建立了强大的OV密集感知基础模型：在2D、3D、视频、6D姿态等广泛任务上验证了其作为通用骨干网络的卓越性能和巨大潜力。

CV君认为，DeCLIP为如何将大规模预训练的VLM适配到下游密集任务提供了一个极具启发性的范例。它不仅仅是简单的模型拼接或微调，而是深入模型内部，通过“解耦-增强”的策略，精准地弥补了模型的短板，最终打造出一个性能强大且应用广泛的基础模型。这项工作无疑将推动开放词汇感知技术向更广阔、更复杂的真实世界应用迈出坚实的一步。

#英伟达ViPE

任意视频一键转为3D几何数据，开源引擎与亿级帧数据集重磅发布！

精确的三维几何感知是机器人、VR/AR、自动驾驶等众多空间AI系统的基石。然而，当前最先进的方法大多依赖于大规模、高质量的标注数据，但从真实世界的视频中获取一致且精确的3D标注（如相机位姿、深度图）却异常困难且成本高昂。

为了解决这一关键挑战，来自英伟达的研究团队推出了 ViPE（Video Pose Engine），一个强大、便捷且通用的视频处理引擎。ViPE能够直接从未经处理的普通视频中，高效地估计出相机的内外参数、相机运动轨迹以及密集的、接近真实尺度的深度图。它的强大之处在于能够稳健地处理各种极具挑战性的场景，无论是动态的自拍视频、电影镜头，还是车载记录仪画面，并支持针孔、广角、360°全景等多种相机模型。

ViPE的全称是Video Pose Engine，意为“视频位姿引擎”，精准地概括了其核心功能——从视频中提取相机位姿等几何信息。

值得一提的是，ViPE在性能上也取得了惊人的突破。在TUM和KITTI这两个权威的公开数据集上，其位姿估计的准确性相较于现有的未标定方法基线分别提升了约 18% 和 50%。更重要的是，它在单个GPU上能以3-5 FPS的速度运行，展现了极高的效率。

借助ViPE的强大能力，研究团队标注了一个超大规模的视频数据集，涵盖约10万个真实互联网视频、100万个高质量的AI生成视频以及2000个全景视频，总计约 9600万帧数据。目前，ViPE引擎和这个海量标注数据集均已开源，旨在加速空间AI生态的发展。

论文标题: ViPE: Video Pose Engine for 3D Geometric Perception
作者团队: Jiahui Huang, Qunjie Zhou, Hesam Rabeti, Aleksandr Korovko, Huan Ling, Xuanchi Ren, Tianchang Shen, Jun Gao, Dmitry Slepichev, Chen-Hsuan Lin, Jiawei Ren, Kevin Xie, Joydeep Biswas, Laura Leal-Taixe, Sanja Fidler
机构: 英伟达（NVIDIA）
论文地址: https://arxiv.org/abs/2508.10934
项目地址: https://research.nvidia.com/labs/toronto-ai/vipe/

研究背景与意义

3D环境理解是空间智能的核心。无论是让机器人精准地在物理世界中导航，还是在VR/AR中创造沉浸式体验，第一步都是要准确地感知环境的几何结构，即恢复相机的参数和场景的三维形态。

传统的解决方案主要分为两类：

经典SLAM/SfM方法：如ORB-SLAM、COLMAP等，这类方法在处理长视频序列、保证时序一致性方面表现出色，但它们通常假设场景是静态的，且相机内参已知，在面对充满动态物体或剧烈运动的真实世界视频时，往往会“束手无策”。
端到端深度学习模型：近年来，通过大规模数据驱动的深度学习模型可以直接从图像中回归相机位姿和深度。这类方法鲁棒性更强，但可扩展性是一个瓶颈，处理长视频时巨大的计算和内存开销使其难以胜任。

最近，一些工作尝试将两者结合，用学习到的前端（如特征匹配）来增强经典SLAM的后端优化，但这种“松耦合”的方式往往不足以应对真实世界视频的多样性和复杂性。

因此，社区迫切需要一个既能利用深度学习的鲁棒性，又能兼具传统方法精度和效率的统一框架，来处理不受约束的“野生”视频。ViPE正是在这一背景下应运而生，它旨在填补这一空白，为空间AI应用提供大规模、高质量的3D几何标注。

ViPE：一个强大的视频几何感知引擎

ViPE的核心思想是融合经典SLAM的高效率、可扩展性与现代学习模型的鲁棒性。它构建在一个基于关键帧的SLAM框架之上，通过一个精巧的联合优化（Bundle Adjustment, BA）过程，同时求解相机位姿、内参和场景深度。

ViPE的整体流程如上图所示，主要包括以下几个步骤：

动态物体分割：输入一个视频后，系统首先利用先进的分割模型（如SAM-Track）识别并屏蔽掉视频中的移动物体（如行人、车辆），确保后续的相机运动估计只基于静态背景，从而提高准确性。
相机位姿、内参和深度联合优化：这是ViPE的核心。系统通过求解一个包含多种约束的稠密BA问题来估计相机参数。该优化问题整合了以下几种信息：

稠密光流约束：利用深度学习光流网络（继承自DROID-SLAM）在相邻帧之间建立稠密的像素对应关系。
稀疏特征点约束：利用GPU加速的传统特征点（Shi-Tomasi角点）进行跟踪，为优化提供高精度的稀疏约束。
深度先验正则化：引入一个预训练的单目度量深度估计网络（如Metric3dv2）的预测结果作为先验，这不仅有助于解决尺度模糊问题，还能保证输出的深度图具有真实的物理尺度。

平滑深度对齐：最后，为了生成时序上更平滑、细节更丰富的深度图，ViPE设计了一个后处理步骤。它将BA优化得到的稀疏但一致的深度图与一个先进的视频深度估计网络生成的稠密但可能存在尺度漂移的深度图进行对齐，实现了两全其美。

灵活支持多种相机模型

ViPE的一个显著优势是其对多种相机模型的广泛支持。无论是标准的针孔相机，还是具有严重畸变的广角/鱼眼相机，甚至是360°全景相机，ViPE都能准确地估计其内参和运动。

如上图所示，对于广角视频，传统方法如果错误地假设其为针孔模型（a），会导致重建的轨迹严重变形。而ViPE利用统一相机模型（b），则能得到准确的相机轨迹，并能校正原始图像的畸变（d）。

实验与结果分析

研究团队在多个标准数据集和真实世界视频上对ViPE进行了全面的评估。

在标准数据集上的定量评估

在室内动态场景的TUM-RGBD数据集和室外驾驶场景的KITTI、RDS数据集上，ViPE的性能全面超越了包括DROID-SLAM、MASt3R-SLAM、VGGT和MegaSAM在内的多种当前主流方法。

上表展示了在TUM-RGBD数据集上的结果。无论是在静态还是动态序列中，ViPE在绝对轨迹误差（ATE）、相对位姿误差（RTE）和焦距误差（Focal）等多项指标上均取得了最低的错误率，即最佳性能。

在更具挑战性的户外驾驶数据集上（上表），ViPE同样表现出色，尤其是在绝对轨迹误差（ATE）上，相较于之前的方法取得了 50% 以上的显著提升。

上表展示了在合成和真实室内数据集上测量的深度估计精度。

上图直观地展示了ViPE在KITTI数据集上的轨迹估计结果。可以看到，ViPE（绿色/蓝色轨迹）的输出不仅与地面真值（红色轨迹）高度吻合，而且其尺度是接近真实物理世界的（metric scale），而基线方法MegaSAM的输出则存在明显的尺度偏差。

在真实世界视频上的定性评估

为了评估在没有真值标注的真实视频上的性能，研究者提出了两个新的自监督评估指标：Shuttle Pose Error和Sampson Error。结果表明，ViPE在这两项指标上同样优于其他方法，证明了其在真实世界场景中的可靠性和广泛适用性。

深度估计与消融实验

在深度估计方面，ViPE在SINTEL和ETH3D数据集上的精度也超越了基线方法。

消融研究（上表）进一步证实了ViPE中各个组件的有效性。实验表明，同时使用稀疏和稠密约束，并结合动态物体屏蔽和深度先验，对于提升系统整体的鲁棒性和准确性至关重要。

开源贡献：海量标注数据集

利用ViPE的强大功能，研究团队构建并开源了三个大规模、多样化的标注数据集，总数据量达到惊人的 9600万帧。

DynPose-100K++: 对约10万个极具挑战性的真实世界互联网视频进行了重新标注，提供了高质量的位姿和稠密几何信息。
Wild-SDG-1M: 包含100万个由最先进的视频扩散模型生成的AI视频。这些视频质量高、内容多样，经过ViPE标注后，为训练和评估提供了宝贵的资源。
Web360: 一个包含约2000个360°全景视频的专门数据集。

上图展示了使用ViPE标注的Wild-SDG-1M数据集中的样本。

上图展示了使用ViPE标注的DynPose-100K++数据集中的样本。

上图展示了使用ViPE标注的Web360数据集中的样本。

这些数据集的发布，极大地缓解了当前空间AI领域高质量、大规模、多样化训练数据稀缺的问题，将有力地推动下游应用的开发和研究。

总结与价值

ViPE的提出是3D几何感知领域的一项重要进展。它巧妙地融合了传统几何方法和现代深度学习的优势，创建了一个高效、准确且极为通用的视频几何参数估计引擎。

论文的主要贡献可以总结为：

提出了ViPE框架：一个能够处理各类“野生”视频的强大工具，在精度和效率上均达到了业界领先水平。
发布了海量数据集：利用ViPE标注了近1亿帧的视频数据，涵盖真实、AI生成和全景等多种类型，为社区提供了前所未有的宝贵资源。
推动实际应用：ViPE已经在英伟达内部的多个下游项目（如Gen3C, Cosmos）中得到广泛应用，证明了其在实际场景中的巨大价值。

CV君认为，ViPE的开源将极大地降低3D视觉研究和应用开发的门槛。无论是从事自动驾驶、机器人技术，还是AR/VR内容创作的开发者和研究者，都将从这个强大的工具和海量的数据集中获益。这无疑将催生出更多富有创意的空间AI应用，加速整个领域的创新步伐。

#Compact Attention

为长视频生成减负！浙大与华为提出，挖掘结构化稀疏加速2.5倍

随着Sora、可灵等模型的涌现，AI视频生成技术正以前所未有的速度发展。然而，在通往更高清、更长时视频的道路上，一个巨大的计算瓶颈始终存在——自注意力机制（Self-Attention）。对于基于Transformer的视频生成模型（如Video DiT）而言，生成长视频意味着处理海量的时空Token，而自注意力机制的二次方计算复杂度使其成为难以承受之重。例如，生成一段128帧的720p视频，注意力计算就占据了总生成时间的68-72%。

为了解决这一难题，来自浙江大学和华为技术有限公司的研究团队另辟蹊径，提出了一个名为 Compact Attention 的硬件感知加速框架。该方法深入分析并利用了视频注意力矩阵中固有的“结构化稀疏性”，在几乎不损失视频质量的前提下，实现了注意力计算 1.6至2.5倍 的显著加速，为高效生成长视频提供了一条极具潜力的技术路径。

论文标题： Compact Attention: Exploiting Structured Spatio-Temporal Sparsity for Fast Video Generation
作者团队： Qirui Li, Guangcong Zheng, Qi Zhao, Jie Li, Xi Li (浙江大学计算机科学与技术学院)；Bin Dong, Yiwu Yao (华为技术有限公司)
论文地址： https://arxiv.org/abs/2508.12969
项目主页： https://yo-ava.github.io/Compact-Attention.github.io/

背景：视频注意力中被忽视的“结构化稀疏”

要为注意力计算减负，最直接的想法就是“稀疏化”——只计算那些最重要的注意力得分，忽略不重要的部分。然而，之前的稀疏注意力方法（如固定稀疏模式、分解式注意力）在视频生成上效果不佳，主要是因为它们没有抓住视频数据的本质特性。

本文的核心洞察在于，通过对视频扩散模型（Video DiT）的注意力图进行系统性分析，研究者发现视频中的注意力矩阵并非随机稀疏，而是呈现出一种 结构化但又异构的稀疏模式。具体来说，不同的注意力头（Head）会自动“分工”，各自专注于不同的时空区域，形成了三种典型的注意力模式：

局部模式 (Local Pattern): 关注查询Token周围的紧密邻域，对生成精细的局部细节至关重要。
十字形模式 (Cross-shaped Pattern): 沿着水平和垂直轴形成连续的注意力走廊，擅长捕捉物体的轮廓和方向信息。
全局模式 (Global Pattern): 保持对整个空间的连接性，负责理解场景的整体布局和上下文。

此外，这些模式在时间维度上也表现出“时间变化”和“时间不变”两种特性。现有方法要么强加过于刚性的稀疏模式，无法适应这种多样性；要么为了动态预测稀疏位置而引入巨大开销，得不偿失。正是这一发现，为Compact Attention的设计奠定了理论基础。

Compact Attention：智能且高效的稀疏注意力框架

基于上述洞察，Compact Attention被设计为一个训练无关、硬件感知的加速框架。它不依赖于模型训练，而是通过离线搜索和高效计算引擎，为现有的视频生成模型“即插即用”地提速。其核心包含三项关键创新。

创新一：自适应分块 (Adaptive Tiling)

为了高效地近似上述多样化的空间注意力模式，Compact Attention提出了一种自适应分块策略。它不再使用固定的、死板的稀疏窗口，而是通过 动态地组合两个互补的窗口形状（如十字形和局部块） 来灵活地构建注意力掩码（Mask）。这种设计无需在推理时进行显式的模式分类，就能通过简单的窗口组合模拟出复杂的注意力行为，兼顾了灵活性与硬件效率。

创新二：时变窗口 (Temporally Varying Windows)

该方法认识到，视频中相邻帧之间的关联性远高于相隔较远的帧。因此，Compact Attention引入了时变窗口机制。它将视频帧根据与当前处理帧的距离进行分组，对不同距离的帧组应用不同级别的稀疏策略。距离越近的帧，注意力计算越密集；距离越远的帧，则计算得越稀疏。这种设计符合视频数据的时序特性，能将计算力更合理地分配到最重要的时序关系上。

创新三：自动化配置搜索算法

如何为模型中成百上千个注意力头找到最佳的稀疏配置（如分块大小、稀疏阈值等）？手动调节显然不现实。为此，研究者设计了一套自动化的配置搜索算法。该算法以“在保持高召回率（保留关键注意力信息）的前提下，最大化稀疏度（最小化计算成本）”为目标，通过迭代式地收缩注意力窗口边界，为每个注意力头自动地、离线地找到最优的稀疏掩码。由于注意力模式在不同输入下具有高度的稳定性，这种离线预计算的策略是完全可行的。

实验结果：速度与质量的双赢

研究团队在先进的文生视频模型（Wan2.1, Hunyuan）上对Compact Attention进行了严格的测试。实验结果令人振奋：

显著的加速效果： 在单张H800 GPU上，Compact Attention为注意力计算带来了 1.6倍至2.5倍 的端到端速度提升。在Hunyuan模型上，它以高达62.36%的稀疏度，实现了2.51倍的加速，远超其他稀疏注意力方法。

高质量的生成效果： 加速的同时，Compact Attention几乎没有牺牲视频的生成质量。无论是在SSIM、PSNR等客观指标上，还是在VBench等更侧重视觉效果和语义对齐的评测基准上，其表现均与原始的全注意力模型相当，甚至在某些指标上有所超越。

下面的定性对比图也直观地展示了Compact Attention在保持高质量视觉效果的同时，实现了比其他方法更高的稀疏度。

论文贡献与价值

CV君认为，这项工作为解决大模型时代的视频生成计算瓶颈问题提供了一个极具启发性的范例。其主要贡献在于：

深刻的现象洞察： 首次系统性地揭示了视频扩散模型中注意力矩阵的结构化、异构化稀疏特性，为后续的优化工作提供了坚实的理论依据。
创新的加速框架： 提出了Compact Attention这一兼具灵活性和高效性的稀疏注意力框架，其自适应分块、时变窗口和自动搜索的设计，为近似复杂注意力模式提供了优雅的解决方案。
显著的实用价值： 实现了高达2.5倍的无损质量加速，这对于降低长视频生成的部署成本、 democratizing a broader access to high-quality video synthesis 具有直接且重大的实际意义。

总而言之，Compact Attention通过对视频注意力行为的深刻理解，设计出一种“聪明的”稀疏化方法，在速度与质量之间取得了出色的平衡，为通往高效、高质的长视频生成未来迈出了坚实的一步。

#Omni Survey for Multimodality Analysis in Visual Object Tracking

全方位、多视角：迄今最全面的多模态视觉目标跟踪综述

随着智慧城市和自动驾驶等应用的快速发展，单一的视觉传感器（如RGB摄像头）在复杂多变的环境中逐渐显得力不从心。为了追求更鲁棒、更精准的全天候感知能力，融合多种传感器信息的多模态视觉目标跟踪（MMVOT）已成为计算机视觉领域的研究热点。

近日，一篇来自江南大学、中国矿业大学、南京理工大学以及萨里大学学者的综述论文 《Omni Survey for Multimodality Analysis in Visual Object Tracking》 对该领域进行了全面梳理。这篇综述堪称“全方位”（Omni），不仅因为它覆盖了迄今为止最广泛的多模态跟踪任务，还因为它从数据、模型、评估等多个维度，深入剖析了该领域的现状、挑战与未来。论文共引用了 338篇 参考文献，为研究者提供了一个极其宝贵的知识库和路线图。

论文标题： Omni Survey for Multimodality Analysis in Visual Object Tracking
作者： Zhangyong Tang, Tianyang Xu, Xuefeng Zhu, Hui Li, Shaochuan Zhao, Tao Zhou, Chunyang Cheng, Xiao-Jun Wu, Josef Kittler
机构： 江南大学、中国矿业大学、南京理工大学、萨里大学
论文地址： https://arxiv.org/abs/2508.13000
项目地址： https://github.com/Zhangyong-Tang/Awesome-MultiModal-Visual-Object-Tracking

研究背景与意义

视觉目标跟踪（VOT）是计算机视觉的核心任务之一，旨在给定目标在视频第一帧的位置后，预测其在后续所有帧中的位置和大小。传统的VOT主要依赖RGB数据，但在光照不足、恶劣天气、目标被遮挡等挑战性场景下，其性能会急剧下降。

多模态感知的出现为解决这些问题提供了新的途径。通过融合来自不同传感器的互补信息，如热红外（Thermal Infrared, T）、深度（Depth, D）、事件（Event, E）、近红外（Near Infrared, NIR）、语言（Language, L）和声纳（Sonar, S），MMVOT系统能够构建对环境更全面的理解，从而在单模态方法失效的场景中保持鲁棒跟踪。

如下图所示，MMVOT的发展历史见证了从最初的RGB+T、RGB+D跟踪，到近年来RGB+E、RGB+L等更多模态组合的涌现，反映了该领域日益增长的活力和重要性。

然而，MMVOT的发展也带来了新的挑战，主要体现在四个方面：数据采集、模态对齐与标注、模型设计以及评估。这篇综述正是在这一背景下，对MMVOT进行了系统性的梳理和分析，其意义在于：

首次对涵盖 六大MMVOT任务 （RGB+T, RGB+D, RGB+E, RGB+L, RGB+NIR, RGB+S）的领域进行了全面综述。
提出了一个清晰的MMVOT方法分类法，有助于研究者理解不同技术路线的内在联系。
深入探讨了两个被忽视但至关重要的问题：多模态融合的适用边界，以及现有数据集中的偏差问题。
为未来的研究指明了方向，并提供了一个持续更新的开源代码库，极大地促进了社区的发展。

论文核心内容：一个全景式框架

本综述的核心贡献在于其系统性的组织结构，从数据到模型，再到评估和未来展望，为读者呈现了MMVOT的全景图。

多模态数据：基础与挑战

论文首先介绍了用于跟踪的各种数据模态的物理原理及其与RGB数据的互补特性，这在以往的综述中常被忽略。

RGB、热红外(T)和近红外(NIR)： 依赖不同波长的电磁波成像。RGB对环境光照敏感，而T则能捕捉物体自身的热辐射，在夜间或伪装场景中优势明显。
语言(L)： 提供高层语义信息，以自然、直观的方式描述目标。
深度(D)： 提供场景的三维结构信息，对处理遮挡、尺度变化问题至关重要。
声纳(S)： 利用声波进行探测，是水下目标跟踪的独特模态。
事件(E)： 生物启发式传感器，异步地记录像素强度的变化，具有极低延迟和高动态范围，擅长捕捉快速运动。

在介绍了数据模态后，论文进一步探讨了多模态数据采集、对齐和标注中的挑战。由于不同传感器在物理位置、数据格式和时间戳上存在差异，如何实现精确的时空对齐是构建高质量数据集的关键。

MMVOT方法论：一个清晰的分类法

论文提出了一个简洁而深刻的MMVOT方法分类框架，该框架以RGB分支为参照，根据辅助模态（X模态）分支的设计方式，将现有方法分为两大类。

复制配置 (Replicated Configuration): X模态分支的架构与RGB分支相同。这类方法通常更关注于如何有效地融合两个分支提取的特征，研究焦点在于信息融合策略，如早期融合、晚期融合或多层次融合。
非复制配置 (Non-Replicated Configuration): X模态分支采用与RGB分支不同的架构。这又分为两种：

非定制化 (Non-Customised): X分支的架构虽然不同，但并非为该模态的物理特性专门设计。
定制化 (Customised): X分支的架构是根据该模态的独特物理属性量身定制的。例如，为稀疏的事件数据设计专用的稀疏处理网络，或为语言模态设计文本编码器。

下图更详细地展示了这一分类法下的代表性跟踪器，为研究者提供了一个清晰的技术演进图谱。

此外，论文还特别讨论了 统一多模态跟踪器 (Unified Multi-Modal Trackers) 这一新兴趋势。与为每种MMVOT任务训练一个专用模型不同，统一跟踪器旨在用一个模型同时处理多种MMVOT任务，展现了更强的通用性和灵活性。

评估与基准：现状与反思

论文详细梳理了现有的MMVOT数据集和评估指标。下表汇总了各大主流MMVOT任务的数据集统计信息，清晰地展示了该领域的资源现状。

下图展示了在四个代表性基准测试上，性能排名前15的跟踪器的结果，直观地反映了当前技术所能达到的水平。

更重要的是，论文超越了简单的性能罗列，提出了两个根本性的问题进行深入探讨：

1. 多模态融合是否总是更优？

当前的研究范式倾向于设计越来越复杂的融合模块，并默认在所有情况下都进行密集融合。然而，论文尖锐地指出，这种做法可能是有害的。当某个模态的数据质量极低时（例如，在夜晚，RGB图像几乎全黑），强制融合不仅无益，反而会引入噪声，降低跟踪性能。

论文倡导一种 判别式融合范式 (Discriminative Fusion Paradigm)，即模型应具备根据输入数据质量自主决定何时融合、如何融合的能力。这无疑为未来的模型设计提出了一个更智能、更高效的方向。

2. 现有数据集能否支持良好的泛化？

论文首次对MMVOT数据集中目标类别的分布进行了可视化分析，并揭示了两个严峻问题：

显著的长尾分布: 大多数数据集中，目标类别高度集中于少数几类（如“人”和“车”），而大量其他类别的数据则非常稀少。
动物类别的缺失: 与大规模RGB跟踪数据集（如LaSOT）相比，MMVOT数据集中几乎没有动物类别。

这种数据偏差限制了当前模型在真实世界多样化场景下的泛化能力，也揭示了未来数据集构建的迫切需求，特别是需要采集更多任务特定场景（如野外动物追踪）的数据。

论文贡献与价值

这篇综述的贡献是多方面的，对学术界和工业界都具有重要价值：

全面的知识体系： 提供了迄今为止最全面的MMVOT领域文献回顾，覆盖六大任务和338篇参考文献，为新入行的研究者节省了大量调研时间。
清晰的分类框架： 提出的基于“复制/非复制配置”的分类法，有助于研究者系统地理解现有方法的设计哲学和技术演进。
深刻的洞见与反思： 对“融合的必要性”和“数据集偏差”这两个根本性问题的探讨，挑战了当前研究中的一些默认假设，为领域发展提供了更理性的思考。
明确的未来方向： 论文在数据采集、数据标注、模型设计和评估方法等多个方面都提出了具体的未来研究建议，如构建任务特定的数据集、探索物理启发的网络架构、将多模态大语言模型（M-LLMs）引入MMVOT等。
宝贵的社区资源： 作者创建并承诺持续维护一个GitHub项目，汇总了相关的论文、代码和数据集链接，极大地便利了社区的研究和开发。

CV君认为，这篇综述不仅仅是对过去工作的总结，更是一份面向未来的行动指南。它所提出的问题和方向，很可能会在未来几年内引领MMVOT领域的研究潮流。对于从事目标跟踪、多模态学习、传感器融合等相关领域的研究人员和工程师来说，这无疑是一篇必读的佳作。

#S5

武大提出框架：首个遥感领域可扩展的半监督语义分割框架

今天，聚焦一篇来自武汉大学的重磅研究 《S5: Scalable Semi-Supervised Semantic Segmentation in Remote Sensing》 。这项工作直击遥感（Remote Sensing, RS）领域的一大痛点：海量的地球观测数据因像素级标注成本过高而难以被充分利用。为此，研究团队提出了 S5 ，这是首个为遥感领域量身打造的、可扩展的半监督语义分割（Semi-Supervised Semantic Segmentation, S4）框架。

简单来说，S5框架的核心思想是“借力打力”，通过一套智能的数据筛选和模型训练方法，用少量有标注的数据“撬动”海量无标注数据，从而训练出强大的遥感基础模型（RS Foundation Models, RSFMs）。这个框架不仅解决了传统半监督方法在小数据集和模型上的局限性，更在土地覆盖分割和目标检测等多个下游任务中取得了SOTA性能，充分证明了大规模半监督学习在遥感领域的巨大潜力。

论文标题：S5: Scalable Semi-Supervised Semantic Segmentation in Remote Sensing
作者团队：Liang Lv, Di Wang, Jing Zhang, Lefei Zhang
所属机构：武汉大学
论文地址：https://arxiv.org/abs/2508.12409
项目地址：https://github.com/MiliLab/S5

研究背景与意义

遥感图像的语义分割是理解地球表面的关键技术，但其最大的瓶颈在于数据标注。给遥感图像做精细的像素级标注，既昂贵又耗时，这导致了“有图无标”的普遍现象。半监督学习（S4）正是为了解决这一问题而生，它旨在利用大量未标注数据来辅助模型训练。

然而，如下图所示，传统的遥感S4研究通常局限于在单个小规模数据集内部划分训练集和测试集，模型和数据规模都较小，难以挖掘海量无标注数据的真正价值。与此同时，遥感基础模型（RSFMs）正蓬勃发展，但它们大多依赖于有监督或自监督的预训练，未能有效结合半监督学习的优势。

因此，一个核心问题摆在面前：能否将半监督学习（S4）的范式进行“升维”，将其扩展到大规模遥感影像上，用于预训练强大的遥感基础模型？这正是S5框架试图回答的问题。

主要研究内容与方法

S5框架的实现可以分为三大核心步骤：构建大规模预训练数据集、进行半监督预训练（S4P）、以及基于混合专家（MoE）的多任务微调。

1. 数据集构建：RS4P-1M

“兵马未动，粮草先行”。为了进行大规模半监督预训练，S5首先从现有的MillionAID、SAMRS和STAR等大型遥感数据集中，构建了一个包含 一百万张 图像的预训练数据集 RS4P-1M 。

构建过程并非简单的堆砌，而是采用了一种巧妙的数据选择策略：

基于熵的过滤：首先用一个在少量有标签数据（iSAID数据集）上训练好的初始模型，为所有无标签图像生成伪标签。然后，计算每个图像伪标签的“熵”，熵越低代表模型对这张图的预测越自信、质量越高。优先选择低熵的图像。
多样性扩展：为了避免选出的图像类别单一（例如，大量都是水体或森林），S5对有标签数据进行聚类，然后根据无标签图像与这些聚类中心的相似度，按比例、有配额地从各个类别中进行采样，确保了数据的多样性。

通过这种方式，RS4P-1M数据集兼顾了伪标签的“质量”与数据的“多样性”，为后续的预训练打下了坚实的基础。

2. 半监督预训练 (S4 Pre-training, S4P)

在拥有了RS4P-1M数据集后，S5采用了一种高效且广泛使用的半监督学习方法——FixMatch——来进行预训练。FixMatch的核心思想是一致性正则化：对同一张无标签图片进行弱增强和强增强，模型应该给出一致的预测。S5利用这个过程，在“有标签的iSAID数据”和“无标签但有高质量伪标签的RS4P-1M数据”上，对不同规模的遥感基础模型（从ViT-B到ViT-H）进行预训练。

这个过程相当于让模型在一个巨大的遥感“题库”中学习，不仅提升了从MAE预训练权重继承来的通用表征能力，也为下游任务提供了更好的起点。

3. 基于混合专家的多数据集微调 (MoE-MDF)

预训练完成后，如何让一个通用的大模型高效地适应多个不同的下游任务（比如不同的分割或检测数据集）？传统的“一个任务，一个模型”的微调方式会产生大量冗余参数。

为此，S5引入了 混合专家（Mixture-of-Experts, MoE） 机制。如下图所示，在微调阶段，S5将模型中的前馈神经网络（FFN）层拆分为两部分：

共享专家（Shared Expert）：负责学习所有数据集通用的、可迁移的知识。
特定专家（Specific Expert）：每个数据集拥有自己独立的专家，负责学习该数据集特有的知识。

这种设计使得S5可以用一个统一的模型主体，通过激活不同的“特定专家”来高效处理多个下游任务，极大地减少了参数量，提升了模型的泛化能力和部署效率。

实验设计与结果分析

S5框架的效果在多个遥感基准数据集上得到了验证，涵盖了语义分割和目标检测两大主流任务。

上表清晰地展示了S5与现有SOTA遥感基础模型的性能对比。无论是在哪个模型规模（ViT-B, L, H）上，S5都取得了全面的领先。特别值得注意的是，在多数据集处理上，S5凭借其MoE-MDF策略，以远少于对手的参数量（例如，ViT-L backbone下，分割任务参数量为 435.0M vs. 对手的1309.6M），取得了更优的性能。

消融实验也充分证明了S5框架中各个设计的有效性。例如，精心构建的RS4P-1M数据集（在表中为MillionAID*）比随机采样的数据集带来了更显著的性能提升。

此外，实验还证明了S4P的良好可扩展性。如下图所示，无论是增大模型尺寸（从B到H），还是扩大无标签预训练数据集的规模（从100K到1M），下游任务的性能都得到了持续稳定的提升。

论文贡献价值

CV君认为，S5框架的提出，为遥感AI领域带来了三大核心贡献：

提出了首个可扩展的遥感半监督学习框架：S5成功地将半监督学习从“小作坊”模式推广到了“工业化”规模，为预训练强大的遥感基础模型开辟了一条全新的、高效的路径。
构建了高质量的百万级预训练数据集：RS4P-1M的构建方法兼顾了伪标签的质量和多样性，为社区提供了一个宝贵的大规模半监督学习资源。
设计了高效的多任务适应方法：MoE-MDF策略优雅地解决了大模型在多任务场景下的参数冗余和部署难题，显著提升了模型的通用性和实用性。

总而言之，S5的工作不仅在技术上取得了SOTA的性能，更重要的是，它为如何有效利用地球上每日剧增的海量、无标注的遥感数据，指明了一个清晰且可行的方向。

#Vivid-VR

阿里提出：概念蒸馏，教T2V大模型学会视频修复

近年来，以Sora、Latte为代表的文生视频（T2V）大模型，凭借其惊人的生成能力，展示了AI在理解和创造动态世界方面的巨大潜力。一个自然而然的想法是：能否利用这些强大的预训练模型来“修复”那些画质不佳的旧视频或有瑕疵的AIGC视频？

一个直接的思路是使用ControlNet等技术，将低质量视频作为“条件”，引导T2V模型生成一个内容一致但画质更好的新视频。然而，来自阿里巴巴集团的研究者们发现，这条路并不平坦。直接在这种可控生成管线上对T2V模型进行微调，常常会导致“分布漂移”——模型为了适应修复任务，反而丢失了它从海量数据中学来的、宝贵的生成高质量、逼真纹理和时序连贯视频的能力，最终输出的视频质量不升反降。

为了解决这一核心矛盾，研究团队提出了 Vivid-VR，一种基于DiT（Diffusion Transformer）架构的生成式视频修复方法。其核心是一种全新的 概念蒸馏（Concept Distillation） 训练策略，它能巧妙地将T2V大模型本身对“高质量视频”的概念理解蒸馏出来，用于指导微调过程，从而在学会修复的同时，不忘记如何生成“大片”。

标题： Vivid-VR: Distilling Concepts from Text-to-Video Diffusion Transformer for Photorealistic Video Restoration
作者： Haoran Bai, Xiaoxu Chen, Canqian Yang, Zongyao He, Sibin Deng, Ying Chen
机构： 阿里巴巴集团
论文地址： https://arxiv.org/abs/2508.14483
项目地址： https://github.com/csbhr/Vivid-VR

背景：大模型微调的“诅咒”

将一个在海量数据上预训练好的基础模型（Foundation Model）适配到下游任务，通常需要进行微调（Fine-tuning）。然而，当基础模型非常强大，而下游任务的数据集相对较小时，微调就可能带来一个严重的问题——灾难性遗忘（Catastrophic Forgetting）或分布漂移（Distribution Drift）。

在视频修复任务中，这意味着模型在学习“如何让生成内容与低质量输入保持一致”的过程中，可能会逐渐忘记它原本拥有的“如何生成丰富、逼真、多样的纹理”和“如何保持视频在时间维度上的连贯性”的知识。最终，模型虽然学会了“控制”，但其生成质量却出现了退化。如何让模型在学习新技能（修复）的同时，不丢掉老本领（高质量生成），是Vivid-VR试图解决的核心问题。

Vivid-VR：概念蒸馏与重塑控制

为了解决上述挑战，Vivid-VR从“训练策略”和“模型架构”两方面进行了创新。其整体框架如下图所示：

概念蒸馏：让大模型自己“出题”和“教学”

这是Vivid-VR最核心的创新。传统的视频修复训练，使用的是（低质量视频，高质量视频）的数据对。而Vivid-VR认为，直接使用真实的高质量视频作为目标，可能会与T2V大模型自身对世界的“理解”存在偏差，从而导致分布漂移。

因此，他们提出了一种全新的训练样本合成方法：

获取文本概念： 对于一个源视频（source video），首先用一个视频-语言模型（VLM）为其生成一段文字描述。
合成概念视频： 接着，利用 原始的、未经微调的T2V大模型，根据上一步生成的文字描述，从零开始生成一个全新的视频。这个新生成的视频，完美地蕴含了T2V大模型对于这段文字所描述概念的“理解”，其画质、纹理和动态都处于模型能力的最优分布上。
构建训练对： 最后，将原始的低质量视频作为输入，将这个由T2V模型自己生成的“概念视频”作为监督目标（Ground Truth），来训练修复网络。

通过这种方式，训练过程的目标不再是盲目地拟合真实数据，而是在保持内容一致性的前提下，学习如何将低质量视频恢复到T2V大模型自身所理解的“高质量”状态。这相当于大模型自己出题、自己教学，从而极大地缓解了分布漂移问题，保留了宝贵的生成先验。

重塑控制架构：更精准的内容引导

除了训练策略，Vivid-VR还对ControlNet的控制架构进行了两点关键改进，以实现更强的可控性：

控制特征投影器： 在低质量视频的特征进入ControlNet之前，增加一个“过滤器”（Control Feature Projector），专门用于滤除原始视频中的噪点、模糊等退化伪影。这能防止这些瑕疵“污染”生成过程，让ControlNet更专注于引导内容结构。
双分支连接器： 设计了一个新的ControlNet连接器，它包含一个MLP分支和一个交叉注意力（Cross-Attention）分支。这种设计让模型可以动态地、自适应地检索和调节控制信号，在“保留内容”和“提升画质”之间取得更好的平衡。

实验与结果

Vivid-VR在合成数据、真实世界视频以及AIGC视频等多个基准上都进行了广泛的实验，并取得了SOTA（State-of-the-Art）性能。

定量分析

在涵盖合成、真实、AIGC视频的多个数据集上，Vivid-VR在多项关键指标上均优于现有方法，尤其是在衡量生成质量和真实感的非参考指标（如CLIPIQA, DOVER）上优势明显。

定性分析

视觉效果的对比更加直观。如下图所示，无论是对于真实世界的低质量视频，还是本身就有瑕疵的AIGC视频，Vivid-VR都能生成结构更合理、纹理更逼真生动的修复结果。

消融实验也充分证明了“概念蒸馏”策略的有效性。下图对比了使用（CD）和不使用该策略的修复结果，可以清晰地看到，概念蒸馏显著提升了视频的纹理细节和时序一致性。

论文贡献与价值

CV君认为，Vivid-VR的探索为如何将强大的生成式基础模型应用于下游视频处理任务提供了一份极具价值的“操作指南”。其核心贡献在于：

提出了概念蒸馏策略： 巧妙地解决了在微调可控生成管线时普遍存在的“分布漂移”问题。这种“让大模型自己教自己”的思路，为保留基础模型的生成先验提供了一种全新的、行之有效的范式。
改进了可控生成架构： 通过引入特征投影器和双分支连接器，提升了内容控制的精准度和自适应能力，更好地平衡了内容保真度与生成质量。
实现了SOTA的视频修复效果： 在多个基准上验证了方法的有效性，尤其是在提升视频的纹理真实感、视觉生动性和时间一致性方面，效果显著。

总而言之，Vivid-VR不仅是一个高性能的视频修复工具，更重要的是，它为整个AIGC领域如何“驾驭”和“适配”日益强大的基础模型，提供了一个富有启发性的成功案例。随着代码和模型的开源，有理由期待这一思想将在更多视频生成与处理任务中开花结果。

#FLAIR

韩国中央大学&英特尔提出FLAIR：用频率感知激活函数与小波能量引导，精准捕捉图像高频细节

隐式神经表示（INRs）作为一种强大的信号表示范式，在三维重建、图像恢复等多个视觉任务中取得了显著成功。然而，大多数现有的INR方法都存在一个固有的“谱偏向”（spectral bias）问题——它们倾向于优先学习信号的低频部分，而难以捕捉精细的高频细节，如图像中的纹理和边缘。

为了解决这一挑战，来自韩国中央大学和英特尔实验室的研究者们提出了一种名为 FLAIR（Frequency- and Locality-Aware Implicit Neural Representations）的新框架。FLAIR通过引入两项关键创新，显著提升了模型对信号频率和空间局部性的感知能力，从而在2D图像表示、图像恢复以及3D重建任务中均取得了超越现有方法的卓越表现。

论文标题：FLAIR: Frequency- and Locality-Aware Implicit Neural Representations
作者：Sukhun Ko, Dahyeon Kye, Kyle Min, Chanho Eom, Jihyong Oh
机构：韩国中央大学；英特尔实验室
论文地址：https://arxiv.org/abs/2508.13544
项目主页：https://cmlab-korea.github.io/FLAIR/
代码仓库：https://github.com/cmlab-korea/flair-frequency-and-locality-aware-implicit-neural-representations-

研究背景与意义

隐式神经表示（INRs）通过一个神经网络（通常是多层感知机 MLP）将空间坐标（如像素位置）映射到相应的信号值（如RGB颜色）。这种连续、紧凑的表示方式相比于传统的离散网格（如像素点阵）具有巨大优势。然而，标准MLP使用的激活函数（如ReLU）导致网络在训练初期会迅速拟合低频信息，而高频细节的学习则非常缓慢，这就是“谱偏向”。

为了缓解这一问题，先前的工作进行过多方面的探索。例如，SIREN引入了周期性的正弦激活函数来更好地表达高频信号，但其性能对超参数和初始化非常敏感。其他方法，如WIRE，则利用小波基来增强空间局部性，但未能实现显式的频率选择。这些方法虽然有所改进，但仍未从根本上解决在频率选择和空间定位之间的权衡问题。一个理想的INR应该能够：

精确选择所需频率：根据信号内容，自适应地选择并表达相应的频率成分。
精确定位空间位置：确保信号在空间上是稳定的，不会因频率选择而产生不必要的振荡和伪影。

正是为了同时实现这两个目标，FLAIR被提了出来。

FLAIR的核心方法

FLAIR框架的核心是两个相互补充的创新设计：RC-GAUSS激活函数和小波能量引导编码（WEGE）。

RC-GAUSS：兼顾频率选择与空间定位的新型激活函数

根据信号处理中的时频不确定性原理（Time-Frequency Uncertainty Principle, TFUP），一个信号无法同时在时域（空间域）和频域中都达到完美的局部化。为了在该原理的约束下找到最佳平衡，研究者设计了RC-GAUSS激活函数。

该函数巧妙地结合了两种函数的优点：

升余弦函数（Raised Cosine, RC）：RC函数在频域中具有接近理想矩形脉冲的“陡峭”边缘，能够实现非常精确的频带选择。但其在时域中会产生无限的振荡，导致训练不稳定。
高斯函数（Gaussian）：高斯函数在时域和频域都具有良好的局部性。

RC-GAUSS通过将RC函数与一个高斯包络相乘，既保留了RC函数强大的频率选择能力，又利用高斯包络抑制了其在时域的无限振荡，从而实现了在频率选择和空间定位之间的自适应权衡。

上图直观展示了RC-GAUSS与高斯、RC函数的对比。RC-GAUSS（c）在频域选择性上接近RC（b），同时在时域局部性上通过高斯包络（a）得到了有效约束，抑制了伪影。

WEGE：感知局部频率特性的小波能量引导编码

为了让网络知道在图像的不同区域应该关注哪些频率，FLAIR引入了 WEGE（Wavelet-Energy-Guided Encoding）。WEGE是一个轻量级的即插即用模块，它利用离散小波变换（DWT）来分析输入信号。

具体来说，WEGE首先通过DWT将图像分解为不同频率的子带，然后计算出一个逐像素的“能量分数图”。这个能量图可以显式地指示出图像中哪些区域是高频区域（如边缘和纹理），哪些是低频区域（如平滑背景）。最后，这个能量图会与原始的坐标信息拼接在一起，共同作为INR网络的输入。通过这种方式，WEGE为网络提供了关于局部频率组成的先验知识，引导RC-GAUSS激活函数在不同区域做出更精准的频率选择。

实验设计与结果分析

研究者在多项任务上对FLAIR的性能进行了全面评估，包括2D图像表示、任意尺度的超分辨率、图像去噪以及3D形状重建。

图像表示与重建

在标准的2D图像拟合任务中，FLAIR在各项指标上均表现出色。如下表所示，在Kodak数据集上，FLAIR的PSNR和SSIM与最佳方法相当，但在衡量感知质量的LPIPS指标上取得了 最优性能，这表明其重建的图像在视觉上更自然、更接近原图。

下图的视觉对比结果更直观地展示了FLAIR的优势。在4倍超分辨率任务中，其他方法或多或少都存在频率泄漏导致的模糊或伪影，而FLAIR能够精准地重建出蝴蝶翅膀上的精细纹理，效果清晰锐利。

3D形状表示

在3D占用场（occupancy field）表示任务中，FLAIR同样表现出色。如下图所示，与其他方法相比，FLAIR重建的3D模型不仅在IoU和PSNR指标上达到最高，而且能够保留更多精细的几何细节，模型表面更平滑、更准确。

任意尺度超分辨率

得益于INR的连续表示特性，FLAIR能够轻松实现任意尺度的超分辨率。实验结果表明，在×6和×8等更大、更具挑战性的放大倍率下，FLAIR的性能始终优于其他SOTA方法，尤其是在感知指标LPIPS上优势更为明显，证明了其强大的高频细节恢复能力。

论文贡献与价值

本文提出的FLAIR框架为解决INR中的谱偏向问题提供了一个统一且高效的解决方案。其主要贡献可以总结为：

提出了RC-GAUSS：一种新颖的激活函数，它在时频不确定性原理的约束下，实现了对频率选择和空间定位的联合优化与自适应平衡。
提出了WEGE：一个轻量级的编码模块，它利用小波变换为网络提供显式的局部频率先验，引导模型进行区域自适应的频率选择。
卓越的性能：FLAIR在图像表示、图像恢复和3D重建等多个基准测试中取得了SOTA或具有竞争力的结果，尤其是在恢复高频细节和提升感知质量方面表现突出。

总而言之，FLAIR通过对INR的激活函数和输入编码进行协同设计，有效地克服了谱偏向，为高保真度的视觉信号表示与重建提供了新的思路和强大的工具。研究代码将开源，为社区的后续研究提供有力的支持。

#FastTracker

从“识人”到“识万物”，一个更通用的多目标跟踪框架

多目标跟踪（Multi-Object Tracking, MOT）是计算机视觉领域的一项核心技术，它旨在实时地追踪视频中所有感兴趣的目标。然而，一个长期存在的问题是，现有的MOT系统大多是“偏科生”，它们在行人跟踪任务上表现优异，这得益于MOT17、MOT20等主流基准测试集都以行人为主。但当把这些模型直接应用到其他场景，如复杂的交通监控中，去跟踪汽车、卡车、公交车时，它们的性能往往会“水土不服”，泛化能力有限。

为了解决这一问题，来自Pintel Co. Ltd.的研究者们提出了一个名为 FastTracker 的通用多目标跟踪框架。它不仅能处理多种类型的目标，更在车辆跟踪这一重要场景上进行了特别优化。通过引入“遮挡感知”和“道路结构感知”两大策略，FastTracker在不依赖复杂外观特征（Re-ID）的情况下，实现了对多类别目标，尤其是车辆的鲁棒、实时、准确的跟踪。

标题： FastTracker: Real-Time and Accurate Visual Tracking
作者： Hamidreza Hashempoor, Yu Dong Hwang
机构： Pintel Co. Ltd.
论文地址： https://arxiv.org/abs/2508.14370
项目地址：

代码: github.com/Hamidreza-Hashempoor/FastTracker
数据集: huggingface.co/datasets/Hamidreza-Hashemp/FastTracker-Benchmark

背景：超越行人，走向通用目标跟踪

自动驾驶、智能交通、城市安防等现实世界应用，要求MOT系统不能仅仅是一个“行人跟踪器”。系统必须能够同时、准确地跟踪场景中所有重要的动态目标，包括各种形态、速度、运动模式各不相同的车辆。然而，车辆跟踪相比行人跟踪，面临着更独特的挑战：

更严重的遮挡： 车辆体积大，相互遮挡频繁且持续时间长。
更快的速度与更复杂的运动： 车辆速度快，运动模式受道路结构强约束。
缺乏专用基准： 缺乏一个能够全面评估多类别、尤其以车辆为中心的跟踪算法的公开基准。

FastTracker正是为了应对这些挑战而设计的，它不仅提出了新的跟踪策略，还贡献了一个全新的车辆跟踪基准数据集。

FastTracker框架：两大策略提升跟踪鲁棒性

FastTracker遵循主流的“检测后跟踪”（Tracking-by-Detection）范式，其核心创新在于关联和更新阶段，引入了两个轻量级但极其有效的策略。

遮挡感知的Re-ID机制

在拥挤的交通场景中，一个目标（如一辆小轿车）被大卡车完全遮挡后再次出现，如何确认它还是原来的那辆车（即Re-ID），是MOT的一大难题。传统方法通常依赖计算成本高昂的深度学习外观特征（Re-ID网络）来解决。FastTracker则巧妙地采用了一系列基于运动和几何的启发式策略来处理遮挡，无需额外的Re-ID网络。

速度抑制（Dampen Velocity）： 当一个目标被判断为遮挡状态时，系统会抑制其卡尔曼滤波器中的速度更新，防止其因错误的预测而“飘”得太远。
检测框放大（Enlarge Box）： 同时，被遮挡目标的预测框会被适度放大。这增加了当它重新出现时，与新的检测框产生交并比（IoU）重叠的概率，从而更容易被重新关联上。

这些简单的策略组合在一起，极大地提升了在严重遮挡情况下保持ID的稳定性，有效减少了ID切换（ID Switch）的错误。

道路结构感知的轨迹细化

与行人的相对自由移动不同，车辆的运动轨迹受到道路结构的强力约束。FastTracker创新地将这种 语义场景先验 融入到跟踪过程中，以修正不切实际的轨迹。

区域限制（ClampToROI）： 利用预先定义的道路区域（ROI），防止目标轨迹漂移到路外等不可能出现的区域。
方向约束（ProjectToCone）： 根据车道线方向定义一个合理的“运动锥”，如果目标的预测运动方向超出了这个锥形范围，就将其投影回合理的方向内。

通过利用这些免费的场景上下文信息，FastTracker能够有效过滤掉由检测噪声或短暂遮挡引起的错误轨迹预测，使跟踪结果更平滑、更合理。

FastTracker基准数据集

为了促进车辆跟踪的研究，作者还发布了一个全新的 FastTracker Benchmark。该数据集包含12个视频，超过80万个标注框，涵盖了9个交通相关类别。其场景多样，包括了十字路口、隧道、高速公路等，具有高目标密度和频繁遮挡的特点，为评估通用MOT算法提供了更真实、更具挑战性的平台。

实验与结果

FastTracker不仅在其自建的数据集上表现出色，在主流的行人跟踪基准上也取得了极具竞争力的结果，证明了其通用性。

在经典的MOT17和MOT20测试集上，FastTracker的HOTA分数分别达到了 66.4 和 65.7，超越了包括ByteTrack、StrongSORT在内的许多知名跟踪器。

消融实验也充分验证了其提出的遮挡处理和道路结构约束策略的有效性。

论文贡献与价值

CV君认为，FastTracker这项工作为多目标跟踪领域带来了重要的贡献：

推动MOT的通用化： 它将研究重点从饱和的行人跟踪领域，拓展到了更具挑战性、也更具应用价值的多类别（尤其是车辆）跟踪，并取得了SOTA性能。
提供了轻量高效的策略： 其提出的遮挡感知和道路结构感知策略，不依赖于沉重的深度网络，计算开销小，易于实现，为在资源受限设备上部署高性能跟踪器提供了范本。
贡献了新的基准数据集： FastTracker Benchmark填补了现有数据集中车辆跟踪场景复杂度和多样性不足的空白，将推动社区开发更鲁棒的通用跟踪算法。

总而言之，FastTracker通过一系列精巧而实用的设计，成功打造了一个更通用、更鲁棒的多目标跟踪框架，为MOT技术的实际落地应用铺平了道路。

#CineScale

南洋理工&Netflix提出：解锁8K图像和4K视频的电影级高清生成

本文介绍一篇由南洋理工大学S-Lab和Netflix Eyeline Studios的研究者们共同完成的重磅新作，论文标题为《CineScale: Free Lunch in High-Resolution Cinematic Visual Generation》。

该研究提出了一个名为 CineScale 的全新推理范式，旨在解决当前视觉扩散模型在生成高分辨率图像和视频时面临的核心挑战。CineScale一词巧妙结合了“Cinematic”（电影般的）与“Scale”（规模、分辨率），寓意其能够将普通扩散模型的能力“扩展”到电影级别的高分辨率。

由于训练数据和计算资源的限制，大多数开源的扩散模型都在较低分辨率（如512x512或1024x1024）下训练。当直接让它们生成更高分辨率的内容时，往往会出现重复纹理、结构错乱等问题。CineScale通过一系列无需或仅需极少量微调的推理技巧，成功释放了这些预训练模型的潜力，实现了惊人的 无需微调生成8K图像 和 仅需极少量LoRA微调生成4K视频 的效果。更重要的是，它将高分辨率生成的能力从常见的文生图（T2I）和文生视频（T2V）扩展到了更具挑战性的图生视频（I2V）和视频生视频（V2V）任务，极大地拓宽了其应用场景。

论文标题： CineScale: Free Lunch in High-Resolution Cinematic Visual Generation
作者团队： Haonan Qiu, Ning Yu, Ziqi Huang, Paul Debevec, Ziwei Liu
机构： 南洋理工大学、Netflix Eyeline Studios
论文地址： https://arxiv.org/abs/2508.15774
项目地址： https://eyeline-labs.github.io/CineScale/
代码仓库： https://github.com/Eyeline-Labs/CineScale

，时长00:43

研究背景与挑战

扩散模型在视觉内容生成领域取得了革命性进展，但“分辨率”始终是其迈向更专业应用（如电影制作、高清广告）的一大障碍。其根本原因在于：

数据稀缺：高质量、高分辨率的图文/视频对数据难以获取。
计算昂贵：训练高分辨率模型需要巨大的计算资源和时间成本。

因此，研究社区开始探索“免费午餐”式的解决方案：即不重新训练或仅做少量微调，直接在推理阶段提升现有低分辨率模型的高分辨率生成能力。然而，现有方法（如ScaleCrafter, DemoFusion, FouriScale等）虽然取得了一定进展，但仍普遍存在生成内容质量不高、出现重复性伪影（repetitive patterns）等问题。

本文作者指出，问题的核心在于，当模型生成的分辨率超过其训练分辨率时，图像或视频中的高频信息会不可避免地增加，而模型并未学会如何处理这种高频信息的剧增，导致累积误差，最终表现为不自然的重复模式。

此外，不同的模型架构也带来了不同的挑战。如下图所示，基于UNet的扩散模型在超分生成时容易出现重复（Repetition）问题，而基于DiT (Diffusion Transformer)的模型则更容易出现模糊（Blur）问题。

CineScale正是为了同时应对这两大类架构的挑战而设计的统一范式。

CineScale：一个巧妙的推理范式

CineScale并非一个全新的模型，而是一套在推理时应用的“技巧”集合。它继承并扩展了其前身工作FreeScale的思想，其总体框架如下图所示。

其核心可以分为三个部分：通用的上采样策略，以及分别针对UNet和DiT架构的专门优化。

1. 定制的自级联上采样 (Tailored Self-Cascade Upscaling)

这是CineScale的基础。它不直接一次性生成高分辨率图像，而是采用一种渐进式的“上采样-加噪-去噪”策略。首先，模型在训练分辨率下生成一个低分辨率的清晰图像/视频；然后，将其上采样到更高分辨率（此时图像会变模糊）；接着，对模糊的高分辨率潜在表示（latent）添加适量的噪声；最后，让模型对这个加噪后的高分辨率latent进行去噪。在这个过程中，还会将一部分原始的清晰latent重新引入，以稳定生成过程并控制细节。这个级联的过程可以逐步提升分辨率，同时保持内容的整体结构。

2. 针对UNet架构的优化：Scale Fusion

为解决UNet架构的重复问题，CineScale设计了尺度融合（Scale Fusion）机制。

融合全局与局部注意力：在自注意力层，模型同时计算全局注意力（关注整体结构）和局部注意力（关注局部细节）。
融合高频与低频信息：通过高斯模糊等操作分离出全局注意力中的低频语义信息和局部注意力中的高频细节信息，然后将它们融合，确保最终输出既有合理的全局结构，又有丰富的局部细节。
受限的扩张卷积（Restrained Dilated Convolution）：借鉴ScaleCrafter，使用扩张卷积来扩大感受野，但将其应用限制在模型的下采样和中间模块，避免了在生成最终细节的上采样阶段引入不必要的纹理噪声。

3. 针对DiT架构的扩展：DiT Extension

为解决DiT架构的模糊和位置编码失效问题，CineScale引入了来自大语言模型（LLM）领域的成熟技术。

NTK-RoPE：当输入序列（token数量）远超训练长度时，传统的旋转位置编码（RoPE）会失效。CineScale采用NTK-RoPE技术来动态调整位置编码的基底，使其能适应更高分辨率带来的超长序列输入。
注意力缩放（Attentional Scaling）：同样是为了应对超长序列，通过对注意力分数进行一个温度系数缩放，防止注意力权重被过度稀释，保持模型的专注度。
最简LoRA微调：尽管上述方法无需微调，但为了追求极致的4K视频生成质量，研究者们发现，仅需在一个很小（约2000个）的高清视频数据集上，对应用了NTK-RoPE的模型进行极轻量的LoRA微调，就能让模型更好地适应新的位置编码范围，从而生成质量极高的4K视频。

实验结果与视觉效果

CineScale在各种任务上都展现了卓越的性能，远超现有基线方法。

图像生成：

在图像生成任务上，CineScale能够生成细节丰富、内容连贯的2K和4K图像，而其他方法则有明显的重复或伪影。

与超分方法（如Real-ESRGAN）相比，CineScale不仅视觉质量不落下风，还能根据模型的先验知识“脑补”出低分辨率输入中缺失的细节，实现内容上的再创作。

视频生成：

在视频生成任务上，CineScale的优势更加明显。对于UNet架构，其他方法几乎完全失效，而CineScale能生成高保真的高分辨率视频。

对于DiT架构，在提升到数倍于训练分辨率时，其他方法会彻底失效或产生严重模糊，而CineScale依然能生成清晰、细节丰富的视频。

最令人惊艳的是，通过极少量的LoRA微调，CineScale成功实现了 4K分辨率的文生视频（T2V）和图生视频（I2V）。在如此高的分辨率下，即使是画面中占比较小的人脸也能被清晰地生成，且时间一致性保持得很好。

4K文生视频效果

4K图生视频效果

论文贡献价值

CineScale的贡献是多方面的，它为高分辨率视觉生成领域提供了宝贵的“免费午餐”：

提出CineScale范式：一个新颖且强大的推理范式，能够有效提升预训练扩散模型的高分辨率生成能力，且无需或仅需极少量微调。
架构通用性：首次系统性地为UNet和DiT两种主流架构提供了针对性的高分辨率解决方案，解决了各自的痛点（重复与模糊）。
任务扩展性：将高分辨率生成能力从T2I/T2V成功扩展到更复杂的I2V和V2V任务，大大增强了扩散模型的实用性。
SOTA性能：实现了无需微调生成8K图像和微量微调生成4K视频的里程碑式成果，在视觉质量和量化指标上均超越了现有方法。
开源贡献：项目代码和网页均已开放，为社区提供了强大的工具和进一步研究的基础。

CV君认为，CineScale的出现，标志着AI视频生成技术向专业化、实用化迈出了坚实的一步。它巧妙地“站在巨人的肩膀上”，通过一系列精妙的推理时调整，榨干了现有模型的潜力，为影视制作、创意设计等行业带来了触手可及的高质量、高效率内容生产力。

#YOPO

一次定位姿态，极简Transformer实现单目RGB下的9D物体姿态估计新SOTA

在机器人抓取、自动驾驶和增强现实等领域，让机器准确感知物体的三维姿态至关重要。然而，仅从一张普通的RGB图片中，要同时检测出多个物体的类别、位置，并估计其完整的9自由度（9-DoF）姿态（3D位置、3D旋转、3D尺寸），是一项极具挑战性的任务，特别是对于前所未见的物体实例。

来自韩国 PIT IN Co. 的研究者们正面解决了这一难题，提出了一个名为 YOPO (You Only Pose Once) 的全新框架。这个名字致敬了经典的目标检测算法YOLO，其核心思想也一脉相承：将原先需要多个复杂步骤（先检测后估计姿态）的任务，统一到一个单一、端到端的网络中，一次性完成所有任务。

YOPO是一个极简主义的Transformer检测器，它完全抛弃了现有方法对3D CAD模型、伪深度图或实例分割掩码等额外信息的依赖，仅使用纯粹的RGB图像作为输入。尽管设计简洁，YOPO却在三大主流基准测试中全面刷新了SOTA记录，尤其是在REAL275数据集上，其精度大幅超越了以往所有的RGB-only方法，并显著缩小了与需要深度信息的RGB-D方法的性能差距。

论文标题：You Only Pose Once: A Minimalist's Detection Transformer for Monocular RGB Category-level 9D Multi-Object Pose Estimation
论文作者：Hakjin Lee, Junghoon Seo, Jaehoon Sim
作者机构：PIT IN Co., Republic of Korea
论文地址：https://arxiv.org/abs/2508.14965
项目主页：https://mikigom.github.io/YOPO-project-page/
代码地址：即将推出 (Coming Soon)

，时长02:58

研究背景：告别繁琐，拥抱极简

类别级的9D姿态估计任务，其难度在于模型需要具备泛化能力，能够处理同一类别下、形态各异的未知新实例。传统方法为了解决这个问题，往往采用复杂的策略：

多阶段流程：先用一个模型进行2D目标检测，再用另一个模型估计3D姿态，这种级联方式容易导致误差累积。
依赖额外几何先验：大量方法需要借助物体的3D CAD模型库、通过其他网络生成的伪深度图，或是精细的像素级分割掩码来辅助姿态估计。这无疑增加了系统的复杂性和部署难度。

上图直观地展示了YOPO的颠覆性。上方的传统方法流程繁琐，依赖各种外部数据；而下方的YOPO则实现了真正的端到端，仅需一张RGB图，一步到位。

上表更清晰地对比了不同方法对额外数据的依赖情况，YOPO是为数不多的“全不选”选手，展现了其设计的简洁与纯粹。

方法：YOPO是如何炼成的？

YOPO的核心是将9D姿态估计视为2D目标检测任务的一个自然扩展。它基于一个标准的Transformer检测器（如DETR），并在此之上引入了三个关键的、轻量化的设计：

轻量级姿态头（Lightweight Pose Head）：

在Transformer解码器的基础上，YOPO为每个对象查询（object query）增加了一个简单的多层感知机（MLP）头，专门用于直接回归物体的3D旋转（表示为6D连续向量）和3D尺寸。

边界框条件下的平移模块（Bounding Box-Conditioned Translation Module）：

如何从2D图像中恢复3D深度（即平移）是老大难问题。YOPO巧妙地绕开了直接预测三维坐标的难题。它认为，物体在图像中的2D边界框本身就蕴含了关于其距离和位置的强烈先验。因此，它设计了一个模块，将预测出的2D边界框信息作为条件输入，来辅助模型预测3D平移。这种方式让学习过程更加稳定和高效。

6D感知的匈牙利匹配代价（6D-Aware Hungarian Matching Cost）：

在训练基于Transformer的检测器时，需要使用匈牙利算法将模型的预测结果与真实标签（ground-truth）进行一对一匹配。YOPO对这个匹配过程中的“代价函数”进行了创新，在传统的类别和2D边界框损失之外，还加入了对3D旋转和3D尺寸的考量。这意味着，在训练的最初阶段，模型就被引导着去同时关注检测和姿态估计，确保两者能够协同优化，而不是相互掣肘。

通过这三大组件，YOPO成功地将2D检测和9D姿态估计无缝地融合在一个统一的框架下，实现了端到端的训练和推理。

实验结果：全面领先

YOPO在三个极具挑战性的基准数据集（REAL275, CAMERA25, HouseCat6D）上进行了评估，并取得了卓越的成绩。

上表展示了在REAL275和CAMERA25数据集上的详细对比。无论是在检测指标（IoU50）还是姿态估计综合指标（10°/10cm）上，YOPO均以显著优势超过了所有同类（RGB-only）方法，甚至在某些指标上逼近或超越了使用深度信息的RGB-D方法。

特别是在最受关注的REAL275数据集上，YOPO达到了 54.1% 的10°/10cm精度，这是一个新的SOTA记录。

上图的定性比较结果也十分直观，相比之前的方法（红色为预测，绿色为真值），YOPO的预测结果与真实姿态的贴合度更高，展现了其卓越的精度。

消融实验也充分验证了YOPO中每一个创新点（如6D感知匹配代价、边界框条件平移模块等）的有效性。

论文价值与总结

YOPO的提出，为机器人感知领域带来了一股化繁为简的清流，其主要贡献和价值在于：

范式革新：成功地证明了在无需任何额外几何先验信息的情况下，将多目标2D检测与9D姿态估计进行单阶段、端到端统一的可行性与优越性。
性能标杆：在多个权威基准上设立了新的SOTA，显著推动了纯RGB方案的性能边界，使其成为在实际应用中替代更复杂系统的有力竞争者。
实践意义：其极简的设计大大降低了姿态估计系统的部署和维护成本，使得在各种机器人和自动化设备上实现高精度、鲁棒的物体感知变得更加容易。

CV君认为，YOPO的成功不仅在于其卓越的性能，更在于它所倡导的“极简主义”哲学。它提醒我们，在追求更高性能的同时，也应重视方法的简洁性、通用性和实用性。YOPO无疑为未来的姿态估计研究，乃至更广泛的计算机视觉领域，提供了一个优雅而强大的范例。

#ATLAS

Meta&CMU提出：解耦骨骼与外形，高保真参数化人体模型

近日，来自Meta和卡内基梅隆大学的研究团队联手，在参数化人体建模领域取得了重大突破，发布了名为 ATLAS 的全新高保真人体模型。该研究成果已被计算机视觉顶级会议ICCV 2025接收。

ATLAS的名字源于希腊神话中肩负天穹的泰坦神，巧妙地比喻了其模型的核心思想——以骨架（Skeleton）为基石，支撑起人体的外部形态。与以往的模型（如SMPL、SMPL-X）不同，ATLAS最核心的创新在于显式地解耦了内部骨架和外部软组织（皮肤、肌肉、脂肪）的参数。这一设计从根本上解决了现有模型中“牵一发而动全身”的耦合问题，使得对身高、骨长、胖瘦等属性的独立、精细化控制成为可能。

该模型基于一个前所未有的庞大数据集——使用 240台同步摄像头 采集的 60万张高分辨率人体扫描 进行训练，从而获得了极高的保真度和表达能力。实验证明，ATLAS在对新用户的三维姿态和外形拟合方面，其准确性远超现有方法。

论文标题： ATLAS: Decoupling Skeletal and Shape Parameters for Expressive Parametric Human Modeling
作者团队： Jinhyung Park, Javier Romero, Shunsuke Saito, Fabian Prada, Takaaki Shiratori, Yichen Xu, Federica Bogo, Shoou-I Yu, Kris Kitani, Rawal Khirodkar
机构： Meta、卡内基梅隆大学
论文地址： https://arxiv.org/abs/2508.15767
项目地址： https://jindapark.github.io/projects/atlas/
录用信息： ICCV 2025

研究背景：参数化人体的“耦合”之困

参数化人体模型（如SMPL系列）是数字人领域的基石，它们用一组低维度的参数（姿态、体型等）来表示复杂的人体三维网格。然而，这些经典模型存在一个长期未解的难题：骨架与外形的耦合。

现有范式通常是“表面优先”：先用一个线性模型基底去拟合人体的外部表面，然后再从表面顶点的位置去反推内部骨骼关节点的位置。这种做法导致了几个严重问题：

控制不直观：想调整身高或臂长（骨架属性），却会意外地改变身体的胖瘦（外形属性）；反之，想让模型变胖，其骨架位置也可能发生不希望的偏移。如下图所示，在传统模型中调整肩宽会影响全身，增加体重又会抵消肩宽的调整。
骨架不对称：由于骨架是从表面回归的，表面网格的微小不对称或噪声会被放大，导致生成的人体平均骨架出现明显的偏移和不对称（如手肘、脊柱位置不居中）。
表达能力受限：训练数据的多样性不足和建模假设的限制，使得模型难以捕捉真实世界中人体姿态和形状的丰富细节。

ATLAS的提出，正是为了从根本上解决这个“耦合”问题。

ATLAS模型：以骨架为核心的解耦设计

ATLAS的成功主要归功于两大支柱：海量的训练数据和创新的模型设计。

1. 前所未有的训练数据

ATLAS的训练数据规模和质量都达到了新的高度。研究团队使用一个配备了240台同步相机的高精度扫描系统，采集了涵盖不同体型和姿态的60万张扫描数据。这为模型学习到高保真和多样化的人体特征提供了坚实基础。

与其他模型训练数据的对比

数据采集可视化

2. 骨架与外形的显式解耦

这是ATLAS最核心的创新。它不再遵循“表面优先”的范式，而是“骨架优先”。模型被设计为两个独立的参数化基底（latent bases）：

骨架基底（Skeleton Basis）：专门负责定义人体的骨架结构，如骨骼长度、关节比例、身高、肩宽等。
外形基底（Shape Basis）：在给定的骨架之上，负责定义软组织的变化，如体重、肌肉量、体脂分布等。

通过这种方式，人体网格被构建在骨架之上，实现了两者之间的解耦。如下图所示，骨架基底的成分主要控制身体各部分的长度和比例，而外形基底的成分则主要控制软组织的变化，两者互不干扰。

前四个内部骨架主成分的可视化

前四个外部表面主成分的可视化

这种解耦设计带来了巨大的优势：可控性。用户可以像玩“模拟人生”一样，精确、独立地调整身体的各项属性，而不会产生意外的副作用。

对脊柱长度、肩宽、手掌大小的独立控制

3. 稀疏非线性姿态修正

除了骨架和外形的解耦，ATLAS还对姿态引起的身体表面变形（Pose-dependent Correctives）进行了优化。与SMPL-X等模型使用的线性修正不同，ATLAS采用了非线性的姿态修正项，能够更有效地捕捉肌肉在复杂姿态下的拉伸和挤压，使模型在各种姿态下都更加逼真。同时，这些修正项被设计为稀疏激活，进一步提升了模型的效率和鲁棒性。

ATLAS的姿态修正（底行）比SMPL-X（顶行）更稀疏、更合理

实验结果：全面超越现有方法

研究团队在多个公开数据集上对ATLAS进行了严格的评估，并与SMPL-X等当前最先进的模型进行了比较。

拟合精度：

在对未见过的人体扫描数据进行拟合时，ATLAS的误差显著低于其他模型。如下图所示，无论是在定量指标（顶点到顶点的误差）还是定性效果上，ATLAS的拟合都更紧密、更精确，尤其是在膝盖、手肘等关节区域，细节更清晰，伪影更少。

在3DBodyTex数据集上的定量评估，误差越低越好

在3DBodyTex上的定性比较，ATLAS的拟合热力图误差更小

自然图像拟合：

ATLAS同样能从单张日常照片中稳健地估计出人体的三维姿态、骨架和外形，即使在有衣物遮挡的情况下也能取得很好的效果。

论文贡献与价值

ATLAS的发布是参数化人体建模领域的一个里程碑事件，其主要贡献在于：

提出了以骨架为中心的解耦范式：从根本上解决了困扰领域多年的骨架-外形耦合问题，极大地提升了模型的可控性和物理真实性。
构建了超大规模高保真数据集：利用60万张高质量扫描数据进行训练，将参数化模型的细节表现力提升到了新的高度。
模型性能全面领先：无论是在实验室控制的扫描数据还是在野外图像上，ATLAS的拟合精度和鲁棒性都显著优于现有SOTA方法。
推动下游应用发展：凭借其前所未有的高保真度和可控性，ATLAS有望在影视特效、游戏开发、虚拟现实、时尚设计、医疗健康等众多领域催生新的应用。

CV君认为，ATLAS不仅是一个更精确的模型，更是一种更先进的设计哲学。它将参数化人体的构建方式从“捏泥人”（从外到内）转变为“造骨架”（从内到外），这无疑是更符合生物学原理、更具发展潜力的方向。可以期待，ATLAS将成为下一代数字人技术的坚实“骨架”。

#MUSE

既要“放对位置”，又要“画得逼真”，多主体可控生成迎来统一框架

文生图（Text-to-Image）模型已经能够根据一句话生成惊艳的图像，但要让它像一个专业设计师一样，精确地“把A物体放在左边，把B物体放在右边”，同时还要保证A和B都画得和我们给定的参考图一模一样，这至今仍是一个巨大的挑战。这个任务，我们称之为“布局可控的多主体合成”（Layout-controllable Multi-subject Synthesis, LMS）。

现有方法往往陷入一个两难的困境：要么能精确地控制布局，但生成的主体却“货不对板”，失去了身份特征；要么能忠实地还原主体，但它们在画面中的位置却一塌糊涂，不听指挥。这种“鱼和熊掌不可兼得”的现象，源于布局控制信号和身份控制信号在模型内部的“打架”。为了解决这一核心矛盾，来自北京邮电大学和快手科技的研究者们提出了一个名为 MUSE 的统一合成框架，旨在让模型既能“放对位置”，又能“画得逼真”。

标题： MUSE: Multi-Subject Unified Synthesis via Explicit Layout Semantic Expansion
作者： Fei Peng, Junqiang Wu, Yan Li, Tingting Gao, Di Zhang, Huiyuan Fu
机构： 北京邮电大学，快手科技
录用信息： ICCV 2025
论文地址： https://arxiv.org/abs/2508.14440
项目地址： https://github.com/pf0607/MUSE

背景：控制的“冲突”与“碰撞”

在扩散模型中，各种控制信号（如文本提示、布局框、参考图）通常是通过交叉注意力（Cross-Attention）机制注入的。当多种控制信号同时存在时，问题就来了。例如，文本提示可能要求“一只猫在草地上”，而布局控制则要求“把猫放在图片的左上角”。这两个控制信号会在注意力层面上产生冲突，模型不知道该“听谁的”，最终可能导致生成的图像既不符合文本描述，也不符合布局要求。研究者将此问题称为 “控制碰撞”（Control Collision）。

如何优雅地化解这种冲突，让布局、身份、文本三大控制信号“和谐共处”，是MUSE框架要解决的核心难题。

MUSE框架：两大创新化解控制冲突

MUSE通过在“模型架构”和“训练策略”两个层面的创新，巧妙地解决了上述问题。

拼接式跨注意力（CCA）：从源头统一控制信号

这是MUSE在模型架构上的核心创新。传统方法（如解耦式跨注意力DCA）通常是分别为文本和布局计算注意力图，然后简单相加，这容易导致冲突。而MUSE提出的 拼接式跨注意力（Concatenated Cross-Attention, CCA） 另辟蹊径。

如上图所示，CCA在计算注意力之前，就将文本和布局的特征在token层面进行“拼接”（Concatenate）。这样一来，模型在一步之内就能计算出一个统一的、同时考虑了两种控制信息的注意力图。这相当于在语义层面将“把猫放在左上角”这个局部、隐式的布局信息，显式地扩展到了“一只在草地上的、位于左上角的猫”这个全局的文本描述中，从根本上避免了模态间的干扰和冲突。

渐进式两阶段训练：分而治之，逐个击破

同时学习布局控制和主体身份保持，对模型来说太难了。MUSE采用了一种“分而治之”的渐进式训练策略，将复杂的LMS任务分解为两个更容易学习的子目标：

第一阶段：精通布局。 在这个阶段，只训练模型（使用CCA）学习精确的布局控制。目标是让模型成为一个“布局大师”，能够根据给定的边界框，准确地生成符合文本描述的物体，暂时不考虑身份保持。
第二阶段：注入身份。 在第一阶段训练好的“布局大师”模型的基础上，冻结其大部分参数，再专门训练用于主体合成的模块。由于模型已经具备了强大的布局能力，这个阶段可以更专注于学习如何保持参考主体的身份特征。

这种“先学走，再学跑”的策略，有效地分解了优化难度，让模型能够更高效地同时掌握两项关键技能。

实验与结果

MUSE在多个基准测试中都展现了其卓越的性能，无论是在布局的准确性上，还是在主体身份的保真度上，都显著优于现有方法。

定量分析

在专门测试布局控制能力的MIG Bench上，MUSE取得了SOTA的布局成功率（88.4%），且推理速度更快。