借着Meta发布的Segment Anything视觉大模型,跟朋友们做了一个最强Zero-Shot视觉应用:最强的Zero-Shot检测器,最强的Zero-Shot分割器,最强的Zero-Shot生成器,三合一模型简称为Grounded-SAM。

代码地址如下:

https://github.com/IDEA-Research/Grounded-Segment-Anything

三种类型的模型可以分开使用,也可以组合式使用,组建出强大的视觉工作流模型,整个工作流拥有了检测一切,分割一切,生成一切的能力。

Grounded SAM

7900e3387537b0db8e37f5bbcc8b1e1e.jpeg

b97cf2cb664530aa4a9d4518f4e3abd6.jpeg

借助Grounding DINO强大的Zero-Shot检测能力,Grounded SAM可以通过文本描述就可以找到图片中的任意物体,然后通过Segment Anything强大的分割能力,细粒度的分割出mask,最后还可以利用Stable Diffusion对分割出来的区域做可控的文图生成。

Grounding DINO例子

a2943dedde8b06b603348dbda4fd08cc.jpeg

Grounded-Segment-Anything例子

c2920093c766eca65883891f694eec5a.jpeg

Gradio APP

988d2ec5abc6b15bc626f991bf0c3236.png

同时我们还提供了可视化网页,可以更方便的尝试各种例子。

更多例子

113f50bb1ecad6b99674efeee8b140f1.jpeg

Grounded-SAM未来的想象空间:

比如可控的自动的生成图像,构建新的数据集。

比如提供更强的基础模型与分割预训练。

比如引入GPT-4,进一步激发视觉大模型的潜力。

......

https://github.com/IDEA-Research/Grounded-Segment-Anything

IDEA-Research/GroundingDINO

facebookresearch/segment-anything

END

ce225e737ceb5c7f28790dd5264ffa52.png

欢迎加入知识星球带你解读优秀前沿论文!

666b5160b63823727fd6204e47bbf06f.jpeg

分享

收藏

点赞

在看

9ca5e21de4c4376752d28474363ea26e.gif

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐