github视觉项目合集
本文介绍了目标检测和实例分割领域的代表性算法与框架。目标检测方面包括两阶段方法Faster R-CNN、单阶段方法SSD/YOLO系列,以及基于Transformer的DETR和高效的EfficientDet。实例分割领域重点介绍了Detectron2框架、MetaAI的Mask2Former/SAM-2、百度的PaddleDetection等工具,以及OneFormer、SOLOv2、FastI
目标检测
1. Faster R-CNN
地址:https://github.com/rbgirshick/py-faster-rcnn
描述:Faster R-CNN 是一种经典的两阶段目标检测算法,由 Ross Girshick 等人于 2015 年在论文《Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks》中提出。它通过区域建议网络(RPN)生成候选区域,然后对这些区域进行分类和边界框回归,显著提高了检测精度和效率。后续改进版本包括 Mask R-CNN(增加了实例分割功能)等,由 Facebook AI Research (FAIR) 团队持续维护。
2. SSD (Single Shot MultiBox Detector)
地址:https://github.com/weiliu89/caffe/tree/ssd
描述:SSD 是一种单阶段目标检测算法,由 Wei Liu 等人于 2016 年在论文《SSD: Single Shot MultiBox Detector》中提出。它通过在不同尺度和宽高比的特征图上直接预测边界框和类别得分,兼顾了速度和精度。SSD 在实时检测场景中表现优异,广泛应用于资源受限的设备。后续改进包括 DSSD 和 RSSD 等变种。
3. YOLO (You Only Look Once)
地址:https://github.com/ultralytics/ultralytics
描述:YOLO 是一种高效的实时目标检测算法,由 Joseph Redmon 等人于 2016 年在论文《You Only Look Once: Unified Real-Time Object Detection》中提出。它通过将输入图像划分为网格,直接预测边界框和类别,从而实现快速且准确的物体识别。YOLOv2 和 YOLOv3 由 Redmon 团队改进,YOLOv4 由 Alexey Bochkovskiy 提出,而 YOLOv5 及后续版本由 Ultralytics 团队开发维护。
4. DETR (DEtection TRansformer)
地址:https://github.com/facebookresearch/detr
描述:DETR 是一种基于 Transformer 的目标检测模型,由 Facebook AI Research 在 2020 年论文《End-to-End Object Detection with Transformers》中提出。它将目标检测任务转化为序列预测问题,使用 Transformer 架构直接预测边界框和类别,消除了传统方法中复杂的手工设计组件(如锚框或 NMS)。DETR 在精度上表现优异,后续版本如 Deformable DETR 进一步优化了性能。
5. EfficientDet
地址:https://github.com/google/automl/tree/master/efficientdet
描述:EfficientDet 是一种高效的目标检测模型,由 Google Research 在 2020 年论文《EfficientDet: Scalable and Efficient Object Detection》中提出。它基于 EfficientNet 骨干网络,通过 BiFPN(双向特征金字塔网络)和复合缩放策略,实现了高精度与低计算量的平衡。EfficientDet 在 COCO 数据集上表现出色,广泛应用于移动设备和边缘计算场景。
6.RF-DETR
地址:https://github.com/roboflow/rf-detr
描述:RF-DETR是由Roboflow团队于2025年3月开发的实时Transformer-based目标检测模型架构,在COCO基准上首次实现60+ mAP的实时性能,并以Apache 2.0许可开源。
7.LLMDet
地址:https://github.com/iSEE-Laboratory/LLMDet
描述:LLMDet是一种先进的开放词汇目标检测方法,由中山大学(Sun Yat-sen University)、阿里巴巴集团(Alibaba Group)、鹏城实验室(Peng Cheng Laboratory)、广东省信息安全技术重点实验室(Guangdong Province Key Laboratory of Information Security Technology)以及琶洲实验室(Pazhou Laboratory)的联合研究团队于2025年1月31日提出,并在2025年CVPR会议上作为亮点论文发表。该方法利用大型语言模型(LLM)生成图像级长描述和区域级短描述,提供丰富的语义监督,从而训练出高效的检测器,在LVIS数据集上显著超越基线模型,实现更强的零样本泛化能力,同时在推理时无需额外计算开销。
8.Mask R-CNN
地址:https://github.com/matterport/Mask_RCNN
描述:Mask R-CNN是一种概念简单、灵活且通用的对象实例分割框架,由Facebook AI Research (FAIR) 团队于2017年3月20日在arXiv上首次提出(arXiv:1703.06870),并于2017年10月在ICCV会议上正式发表,主要作者包括Kaiming He、Georgia Gkioxari、Piotr Dollár和Ross Girshick。该方法在Faster R-CNN基础上扩展了一个并行分支,用于同时预测对象边界框和高质量像素级分割掩码,仅增加少量计算开销即可实现高效实例分割,在COCO数据集上显著超越现有方法,并在对象检测、实例分割及关键点检测任务中取得领先性能。其官方GitHub实现仓库基于Keras和TensorFlow,提供易扩展的代码,支持COCO数据集训练和自定义数据集应用,已成为计算机视觉社区广泛使用的基准工具。
9.DETR
地址:https://github.com/facebookresearch/detr
描述:DETR(DEtection TRansformer)是一种开创性的端到端目标检测框架,由Facebook AI Research (FAIR) 团队于2020年5月27日在 arXiv 上首次提出(arXiv:2005.12872),并于2021年在ECCV 2020会议上正式发表,主要作者包括 Nicolas Carion、Francisco Massa、Gabriel Synnaeve、Nicolas Usunier、Alexander Kirillov 和 Sergey Zagoruyko。该方法首次将 Transformer 架构直接应用于目标检测任务,摒弃传统的手工设计组件(如锚框生成、非极大值抑制),通过双向编码器和 Transformer 解码器结合集合预测损失(bipartite matching loss),实现完全端到端的检测流程,在 COCO 数据集上取得与 Faster R-CNN 相当的性能,同时显著简化了检测流水线。
10.CenterNet
地址:https://github.com/xingyizhou/CenterNet
描述:CenterNet是一种简洁、高效的基于中心点检测的目标检测、3D检测和姿态估计框架,由Xingyi Zhou、Dequan Wang和Philipp Krähenbühl三位研究者(分别来自加州大学伯克利分校和Meta AI)于2019年4月16日在arXiv上首次提出(arXiv:1904.07850),作为技术报告发布。该方法将对象建模为单个中心点,通过端到端的可微分关键点估计网络直接预测边界框中心、尺寸、3D位置、方向和姿态等属性,摒弃了传统检测器的复杂组件如锚框、非极大值抑制和后处理,仅需单次前向传播即可实现实时检测,在COCO数据集上以DLA-34骨干网络达到37.4 AP(52 FPS)和41.7 AP(多尺度测试),在KITTI 3D检测上也表现出色。
11.SimpleDet
地址:https://github.com/tusen-ai/simpledet
描述:SimpleDet是一个简单且多功能的开源对象检测和实例识别框架,由TuSimple公司(一家专注于自动驾驶技术的AI企业)的研究团队开发,主要贡献者包括Yuntao Chen、Chenxia Han和Yanghao Li等人,于2019年中期(初始更新于2019年5月28日)在GitHub上首次发布,并于2019年在《机器学习研究杂志》(JMLR)上以技术报告形式正式提出(论文链接:http://jmlr.org/papers/v20/19-205.html)。该框架基于MXNet后端,支持多种先进模型如Faster R-CNN、Mask R-CNN、Cascade R-CNN、RetinaNet、DCNv1/v2、TridentNet和NAS-FPN等,集成EfficientNet骨干网络、知识蒸馏、多尺度训练、FP16训练、分布式训练以及软NMS等高效特性,在COCO数据集上提供丰富的模型库和基准性能(如ResNet-50骨干的Faster R-CNN达到约40 AP),适用于学术研究和工业部署。
12.ObjectDetection-OneStageDet
地址:https://github.com/Tencent/ObjectDetection-OneStageDet
描述:ObjectDetection-OneStageDet(简称OneStageDet,OSD)是一个高效的单阶段通用目标检测框架,由腾讯公司(Tencent)AI Lab的研究团队开发,于2019年5月16日在GitHub上首次发布(初始提交日期),旨在统一集成YOLO系列和SSD等单阶段检测器,目前已实现YOLOv2和YOLOv3,支持多种轻量级骨干网络如MobileNet、ShuffleNet和SqueezeNext等,提供从ImageNet预训练权重或从头训练的模型选项,在VOC2007数据集上YOLOv3模型达到79.6% mAP(23.1ms前向传播时间),Tiny YOLOv3达到61.3% mAP(2.3ms),适用于移动设备和实时应用场景。
实例分割
1. Detectron2
地址:https://github.com/facebookresearch/detectron2
描述:Detectron2 是由 Facebook AI 团队于 2019 年提出的基于 PyTorch 的目标检测和分割开源框架,是初代 Detectron 的升级版。它以模块化设计和高性能著称,支持多种任务,包括目标检测、实例分割、语义分割和全景分割。Detectron2 集成了 Faster R-CNN、Mask R-CNN 等经典算法,广泛应用于计算机视觉研究与开发,提供丰富的预训练模型和灵活的配置。
2. Mask2Former
地址:https://github.com/facebookresearch/Mask2Former
示例地址:https://colab.research.google.com/drive/1uIWE5KbGFSjrxey2aRd5pWkKNY1_SaNq#scrollTo=vM54r6jlKTII
描述:Mask2Former 是 Meta AI 于 2021 年 12 月提出的通用图像分割模型,通过引入掩码注意力机制(Masked-attention),统一处理全景分割、实例分割和语义分割任务。它在 COCO、ADE20K 等数据集上达到 SOTA 性能,显著提升了分割任务的效率和精度,适用于多任务视觉场景。
3. SAM-2 (Segment Anything Model 2)
地址:https://github.com/facebookresearch/sam2
描述:SAM-2 是 Meta AI 于 2024 年 7 月 30 日发布的新一代视觉分割模型,扩展了初代 SAM 的功能,整合了图像和视频的实时、可提示对象分割能力。它通过强大的基础模型支持交互式分割任务,广泛应用于图像编辑、视频分析和自动标注等领域,展现了卓越的泛化性能。
4. PaddleDetection
地址:https://github.com/PaddlePaddle/PaddleDetection
示例地址:https://aistudio.baidu.com/community/app/100063/webUI?source=appMineRecent
描述:PaddleDetection 是百度基于 PaddlePaddle 深度学习框架开发的目标检测工具库,支持 Faster R-CNN、YOLO、Mask R-CNN 等多种主流算法。它提供高效的训练和推理流程、丰富的预训练模型和数据集,适用于工业级目标检测和实例分割任务,广泛用于智能监控、自动驾驶等领域。
5. OneFormer
地址:https://github.com/SHI-Labs/OneFormer
描述:OneFormer 是由 Jitesh Jain 等人在 2023 年提出的基于 Transformer 的通用图像分割模型,通过单一模型和一次训练实现语义分割、实例分割和全景分割的多任务优化。它在 COCO 和 ADE20K 数据集上表现出色,凭借高效的架构设计,适用于复杂场景下的多任务分割需求。
6. SOLOv2
地址:https://github.com/WXinlong/SOLO
描述:SOLOv2 是由阿德莱德大学、同济大学与字节跳动 AI Lab 联合研发的实时实例分割算法,于 2020 年提出。它通过动态掩码生成和矩阵 NMS 技术,在速度和精度上实现显著提升,适用于自动驾驶、工业质检等场景。SOLOv2 在 COCO 数据集上展现了优异的实例分割性能。
7. FastInst
地址:https://github.com/junjiehe96/FastInst
描述:FastInst 是由达摩院团队于 2023 年提出的基于查询的实时实例分割框架,通过高效的架构设计,在 COCO 数据集上实现 40.5 AP 的精度和 32.5 FPS 的推理速度。它结合了 Transformer 的优势,适用于资源受限的实时应用场景,如移动设备和边缘计算。
8.RF-DETR-seg
地址:https://github.com/roboflow/rf-detr
描述:RF-DETR 2025/10/02更新的实例分割模型
9.MMSegmentation
地址:https://github.com/open-mmlab/mmsegmentation
描述:MMSegmentation是由香港中文大学多媒体实验室OpenMMLab团队于2020年7月开发的开源PyTorch语义分割工具箱,支持超过30种算法和多种基准测试数据集。
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐



所有评论(0)