DINOv3:Meta开源新一代通用视觉基础模型,自监督学习再创里程碑

Meta近日正式推出并开源了DINOv3,这款基于自监督学习的通用视觉基础模型在多个计算机视觉任务中实现了突破性表现。

模型演进与核心突破

DINOv3是DINO系列的最新版本,其前身包括2021年发布的DINO和2023年的DINOv2。这一代模型实现了两大关键突破:

  1. ​首次证明自监督学习模型在广泛任务上能够超越弱监督模型​

  2. ​首次实现单一冻结视觉骨干网络在多个密集预测任务中超越专业解决方案​

技术亮点

DINOv3的核心优势在于其创新的自监督学习技术:

  • ​训练规模​​:数据扩展至17亿张图像,模型参数规模扩展至70亿

  • ​Gram Anchoring策略​​:有效缓解密集特征坍缩问题

  • ​旋转位置编码RoPE​​:适应不同分辨率输入

  • ​无需微调​​:在"冻结权重"条件下仍能取得SOTA性能

性能表现

DINOv3在15个不同视觉任务和60多个基准测试中表现出色:

  • ​高分辨率处理​​:显著改善了DINOv2在高分辨率图像处理上的痛点

  • ​密集特征提取​​:能生成清晰锐利且语义一致的特征图

  • ​多任务支持​​:单次前向传播可同时服务多个任务

实际应用

Meta已以商业许可方式开源DINOv3的一整套骨干网络,包括:

  • 基于MAXAR卫星图像训练的卫星图像骨干网络

  • 多种规模模型变体(ViT-B、ViT-L等)

  • 完整的蒸馏流程管线

DINOv3已在多个领域产生实际影响:

  • ​医学影像​​:支持组织病理学、内窥镜检查等诊断

  • ​卫星影像​​:用于环境监测、城市规划等

  • ​气候金融​​:WRI使用其分析森林损失和土地利用变化

DINOv3的开源标志着自监督学习在计算机视觉领域的新里程碑,为开发者和研究人员提供了强大的视觉基础模型工具。

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐