github视觉项目合集

本文介绍了目标检测和实例分割领域的代表性算法与框架。目标检测方面包括两阶段方法Faster R-CNN、单阶段方法SSD/YOLO系列，以及基于Transformer的DETR和高效的EfficientDet。实例分割领域重点介绍了Detectron2框架、MetaAI的Mask2Former/SAM-2、百度的PaddleDetection等工具，以及OneFormer、SOLOv2、FastI

Ai1403864674

1177人浏览 · 2025-10-24 16:30:58

Ai1403864674 · 2025-10-24 16:30:58 发布

目标检测

1. Faster R-CNN

地址：https://github.com/rbgirshick/py-faster-rcnn

描述：Faster R-CNN 是一种经典的两阶段目标检测算法，由 Ross Girshick 等人于 2015 年在论文《Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks》中提出。它通过区域建议网络（RPN）生成候选区域，然后对这些区域进行分类和边界框回归，显著提高了检测精度和效率。后续改进版本包括 Mask R-CNN（增加了实例分割功能）等，由 Facebook AI Research (FAIR) 团队持续维护。

2. SSD (Single Shot MultiBox Detector)

地址：https://github.com/weiliu89/caffe/tree/ssd

描述：SSD 是一种单阶段目标检测算法，由 Wei Liu 等人于 2016 年在论文《SSD: Single Shot MultiBox Detector》中提出。它通过在不同尺度和宽高比的特征图上直接预测边界框和类别得分，兼顾了速度和精度。SSD 在实时检测场景中表现优异，广泛应用于资源受限的设备。后续改进包括 DSSD 和 RSSD 等变种。

3. YOLO (You Only Look Once)

地址：https://github.com/ultralytics/ultralytics

描述：YOLO 是一种高效的实时目标检测算法，由 Joseph Redmon 等人于 2016 年在论文《You Only Look Once: Unified Real-Time Object Detection》中提出。它通过将输入图像划分为网格，直接预测边界框和类别，从而实现快速且准确的物体识别。YOLOv2 和 YOLOv3 由 Redmon 团队改进，YOLOv4 由 Alexey Bochkovskiy 提出，而 YOLOv5 及后续版本由 Ultralytics 团队开发维护。

4. DETR (DEtection TRansformer)

地址：https://github.com/facebookresearch/detr

描述：DETR 是一种基于 Transformer 的目标检测模型，由 Facebook AI Research 在 2020 年论文《End-to-End Object Detection with Transformers》中提出。它将目标检测任务转化为序列预测问题，使用 Transformer 架构直接预测边界框和类别，消除了传统方法中复杂的手工设计组件（如锚框或 NMS）。DETR 在精度上表现优异，后续版本如 Deformable DETR 进一步优化了性能。

5. EfficientDet

地址：https://github.com/google/automl/tree/master/efficientdet

描述：EfficientDet 是一种高效的目标检测模型，由 Google Research 在 2020 年论文《EfficientDet: Scalable and Efficient Object Detection》中提出。它基于 EfficientNet 骨干网络，通过 BiFPN（双向特征金字塔网络）和复合缩放策略，实现了高精度与低计算量的平衡。EfficientDet 在 COCO 数据集上表现出色，广泛应用于移动设备和边缘计算场景。

6.RF-DETR

地址：https://github.com/roboflow/rf-detr

描述：RF-DETR是由Roboflow团队于2025年3月开发的实时Transformer-based目标检测模型架构，在COCO基准上首次实现60+ mAP的实时性能，并以Apache 2.0许可开源。

7.LLMDet

地址：https://github.com/iSEE-Laboratory/LLMDet

描述：LLMDet是一种先进的开放词汇目标检测方法，由中山大学（Sun Yat-sen University）、阿里巴巴集团（Alibaba Group）、鹏城实验室（Peng Cheng Laboratory）、广东省信息安全技术重点实验室（Guangdong Province Key Laboratory of Information Security Technology）以及琶洲实验室（Pazhou Laboratory）的联合研究团队于2025年1月31日提出，并在2025年CVPR会议上作为亮点论文发表。该方法利用大型语言模型（LLM）生成图像级长描述和区域级短描述，提供丰富的语义监督，从而训练出高效的检测器，在LVIS数据集上显著超越基线模型，实现更强的零样本泛化能力，同时在推理时无需额外计算开销。

8.Mask R-CNN

地址：https://github.com/matterport/Mask_RCNN

描述：Mask R-CNN是一种概念简单、灵活且通用的对象实例分割框架，由Facebook AI Research (FAIR) 团队于2017年3月20日在arXiv上首次提出（arXiv:1703.06870），并于2017年10月在ICCV会议上正式发表，主要作者包括Kaiming He、Georgia Gkioxari、Piotr Dollár和Ross Girshick。该方法在Faster R-CNN基础上扩展了一个并行分支，用于同时预测对象边界框和高质量像素级分割掩码，仅增加少量计算开销即可实现高效实例分割，在COCO数据集上显著超越现有方法，并在对象检测、实例分割及关键点检测任务中取得领先性能。其官方GitHub实现仓库基于Keras和TensorFlow，提供易扩展的代码，支持COCO数据集训练和自定义数据集应用，已成为计算机视觉社区广泛使用的基准工具。

9.DETR

地址：https://github.com/facebookresearch/detr

描述：DETR（DEtection TRansformer）是一种开创性的端到端目标检测框架，由Facebook AI Research (FAIR) 团队于2020年5月27日在 arXiv 上首次提出（arXiv:2005.12872），并于2021年在ECCV 2020会议上正式发表，主要作者包括 Nicolas Carion、Francisco Massa、Gabriel Synnaeve、Nicolas Usunier、Alexander Kirillov 和 Sergey Zagoruyko。该方法首次将 Transformer 架构直接应用于目标检测任务，摒弃传统的手工设计组件（如锚框生成、非极大值抑制），通过双向编码器和 Transformer 解码器结合集合预测损失（bipartite matching loss），实现完全端到端的检测流程，在 COCO 数据集上取得与 Faster R-CNN 相当的性能，同时显著简化了检测流水线。

10.CenterNet

地址：https://github.com/xingyizhou/CenterNet

描述：CenterNet是一种简洁、高效的基于中心点检测的目标检测、3D检测和姿态估计框架，由Xingyi Zhou、Dequan Wang和Philipp Krähenbühl三位研究者（分别来自加州大学伯克利分校和Meta AI）于2019年4月16日在arXiv上首次提出（arXiv:1904.07850），作为技术报告发布。该方法将对象建模为单个中心点，通过端到端的可微分关键点估计网络直接预测边界框中心、尺寸、3D位置、方向和姿态等属性，摒弃了传统检测器的复杂组件如锚框、非极大值抑制和后处理，仅需单次前向传播即可实现实时检测，在COCO数据集上以DLA-34骨干网络达到37.4 AP（52 FPS）和41.7 AP（多尺度测试），在KITTI 3D检测上也表现出色。

11.SimpleDet

地址：https://github.com/tusen-ai/simpledet

描述：SimpleDet是一个简单且多功能的开源对象检测和实例识别框架，由TuSimple公司（一家专注于自动驾驶技术的AI企业）的研究团队开发，主要贡献者包括Yuntao Chen、Chenxia Han和Yanghao Li等人，于2019年中期（初始更新于2019年5月28日）在GitHub上首次发布，并于2019年在《机器学习研究杂志》（JMLR）上以技术报告形式正式提出（论文链接：http://jmlr.org/papers/v20/19-205.html）。该框架基于MXNet后端，支持多种先进模型如Faster R-CNN、Mask R-CNN、Cascade R-CNN、RetinaNet、DCNv1/v2、TridentNet和NAS-FPN等，集成EfficientNet骨干网络、知识蒸馏、多尺度训练、FP16训练、分布式训练以及软NMS等高效特性，在COCO数据集上提供丰富的模型库和基准性能（如ResNet-50骨干的Faster R-CNN达到约40 AP），适用于学术研究和工业部署。

12.ObjectDetection-OneStageDet

地址：https://github.com/Tencent/ObjectDetection-OneStageDet

描述：ObjectDetection-OneStageDet（简称OneStageDet，OSD）是一个高效的单阶段通用目标检测框架，由腾讯公司（Tencent）AI Lab的研究团队开发，于2019年5月16日在GitHub上首次发布（初始提交日期），旨在统一集成YOLO系列和SSD等单阶段检测器，目前已实现YOLOv2和YOLOv3，支持多种轻量级骨干网络如MobileNet、ShuffleNet和SqueezeNext等，提供从ImageNet预训练权重或从头训练的模型选项，在VOC2007数据集上YOLOv3模型达到79.6% mAP（23.1ms前向传播时间），Tiny YOLOv3达到61.3% mAP（2.3ms），适用于移动设备和实时应用场景。

实例分割

1. Detectron2

地址：https://github.com/facebookresearch/detectron2

描述：Detectron2 是由 Facebook AI 团队于 2019 年提出的基于 PyTorch 的目标检测和分割开源框架，是初代 Detectron 的升级版。它以模块化设计和高性能著称，支持多种任务，包括目标检测、实例分割、语义分割和全景分割。Detectron2 集成了 Faster R-CNN、Mask R-CNN 等经典算法，广泛应用于计算机视觉研究与开发，提供丰富的预训练模型和灵活的配置。

2. Mask2Former

地址：https://github.com/facebookresearch/Mask2Former

示例地址：https://colab.research.google.com/drive/1uIWE5KbGFSjrxey2aRd5pWkKNY1_SaNq#scrollTo=vM54r6jlKTII

描述：Mask2Former 是 Meta AI 于 2021 年 12 月提出的通用图像分割模型，通过引入掩码注意力机制（Masked-attention），统一处理全景分割、实例分割和语义分割任务。它在 COCO、ADE20K 等数据集上达到 SOTA 性能，显著提升了分割任务的效率和精度，适用于多任务视觉场景。

3. SAM-2 (Segment Anything Model 2)

地址：https://github.com/facebookresearch/sam2

描述：SAM-2 是 Meta AI 于 2024 年 7 月 30 日发布的新一代视觉分割模型，扩展了初代 SAM 的功能，整合了图像和视频的实时、可提示对象分割能力。它通过强大的基础模型支持交互式分割任务，广泛应用于图像编辑、视频分析和自动标注等领域，展现了卓越的泛化性能。

4. PaddleDetection

地址：https://github.com/PaddlePaddle/PaddleDetection

示例地址：https://aistudio.baidu.com/community/app/100063/webUI?source=appMineRecent

描述：PaddleDetection 是百度基于 PaddlePaddle 深度学习框架开发的目标检测工具库，支持 Faster R-CNN、YOLO、Mask R-CNN 等多种主流算法。它提供高效的训练和推理流程、丰富的预训练模型和数据集，适用于工业级目标检测和实例分割任务，广泛用于智能监控、自动驾驶等领域。

5. OneFormer

地址：https://github.com/SHI-Labs/OneFormer

描述：OneFormer 是由 Jitesh Jain 等人在 2023 年提出的基于 Transformer 的通用图像分割模型，通过单一模型和一次训练实现语义分割、实例分割和全景分割的多任务优化。它在 COCO 和 ADE20K 数据集上表现出色，凭借高效的架构设计，适用于复杂场景下的多任务分割需求。