从0开始学SAM 3：小白也能懂的图像分割教程

本文介绍了基于星图GPU平台自动化部署SAM 3图像和视频识别分割镜像的完整流程。通过该平台，用户可快速启动SAM 3服务，实现对图像和视频中目标对象的精准分割。典型应用场景包括AI内容创作、模型微调前的数据标注及智能视觉分析，助力非专业用户轻松入门可提示分割技术。

轮胎技术Tyretek

850人浏览 · 2026-01-16 06:36:40

轮胎技术Tyretek · 2026-01-16 06:36:40 发布

从0开始学SAM 3：小白也能懂的图像分割教程

1. 引言

1.1 学习目标

随着人工智能在视觉领域的深入发展，图像和视频分割技术正逐步走向“零门槛”应用。本教程面向初学者，旨在帮助你从零开始掌握 SAM 3（Segment Anything Model 3） 的基本使用方法，理解其核心功能，并通过实际操作完成图像与视频中的对象分割任务。

学完本文后，你将能够： - 理解 SAM 3 的基本概念和应用场景 - 部署并运行 SAM 3 镜像服务 - 使用英文提示词对图像或视频进行精确分割 - 理解可视化结果并分析输出效果

1.2 前置知识

无需深度学习背景或编程经验。只要具备基础的计算机操作能力（如上传文件、输入文本），即可顺利完成本教程的所有实践步骤。

1.3 教程价值

SAM 3 是当前最先进的可提示分割模型之一，支持图像和视频中任意对象的检测与分割。相比传统分割工具需要大量标注数据，SAM 3 只需一个简单的提示（如“cat”、“car”），即可自动完成高质量分割。本教程提供完整入门路径，适合希望快速上手 AI 视觉应用的技术爱好者、产品经理和研究人员。

2. SAM 3 模型简介

2.1 什么是 SAM 3？

SAM 3 是由 Facebook 推出的统一基础模型，专为 图像和视频中的可提示分割（Promptable Visual Segmentation, PVS） 设计。它继承并优化了前代 SAM 和 SAM 2 的架构，在准确率、响应速度和跨模态能力方面均有显著提升。

该模型最大的特点是：用户只需提供一个简单的提示（prompt）——可以是文本、点击点、边界框或已有掩码——模型就能精准识别并分割出对应对象。

2.2 核心功能亮点

✅ 支持图像与视频双模态输入
✅ 支持多种提示方式：文本（英文）、点、框、掩码
✅ 实时生成高精度分割掩码与边界框
✅ 内置流式内存机制，适用于长视频跟踪
✅ 统一架构处理静态图像与动态视频，无需切换模型

官方链接：https://huggingface.co/facebook/sam3

3. 快速部署与系统使用

3.1 部署镜像环境

要使用 SAM 3，首先需要部署其预置镜像：

在平台搜索栏中查找镜像名称：SAM 3 图像和视频识别分割
点击“启动”或“部署”按钮，创建运行实例
等待约 3 分钟，系统会自动加载模型并初始化服务

注意：首次启动时，请耐心等待模型加载完成。若界面显示“服务正在启动中...”，请勿频繁刷新，稍等几分钟后再进入。

3.2 进入 Web 操作界面

部署成功后，点击右侧的 Web 图标（通常为浏览器形状）即可打开交互式前端页面。

Web入口示意图

如果仍处于加载状态，会出现如下提示：

服务启动中

请保持页面打开，直到主界面正常显示。

4. 图像分割实战操作

4.1 上传图像

进入系统主界面后，点击“上传图片”按钮，选择本地的一张 JPEG 或 PNG 格式图像。

支持常见尺寸，建议分辨率不超过 1920×1080，以保证处理效率。

4.2 输入提示词（Prompt）

在提示框中输入你想分割的对象名称，仅支持英文小写单词，例如：

dog
book
bicycle
person

⚠️ 注意事项： - 不支持中文或其他语言 - 尽量使用具体名词，避免模糊词汇如“thing”、“object” - 若场景中有多个同类物体，模型会尝试分割所有匹配项

4.3 查看分割结果

提交后，系统会在几秒内返回以下信息：

蓝色轮廓线：表示检测到的目标对象
半透明色块：分割掩码（mask），覆盖被识别区域
红色矩形框：目标的边界框（bounding box）

示例结果如下：

图像分割效果

你可以通过放大查看细节，确认边缘是否贴合紧密。

5. 视频分割操作指南

5.1 上传视频文件

点击“上传视频”按钮，选择一段 MP4 或 AVI 格式的视频文件。

建议时长控制在 30 秒以内，分辨率 720p 左右，以便快速处理。

5.2 设置分割提示

同样输入英文提示词，如 rabbit、car 等。系统将在每一帧中寻找该对象，并进行连续分割与跟踪。

5.3 观察动态分割过程

处理完成后，系统将播放带有实时掩码叠加的视频流，展示目标在整个时间轴上的运动轨迹。

示例效果如下：

视频分割演示

你会发现： - 目标即使短暂遮挡，也能恢复追踪 - 光照变化或视角旋转不影响整体稳定性 - 多个同类型对象可同时被识别（如多只猫）

6. 技术原理简析

虽然本教程面向非技术人员，但了解 SAM 3 的底层逻辑有助于更好地使用它。

6.1 模型架构概览

SAM 3 采用统一的 Transformer 架构，主要包含以下几个核心组件：

组件	功能说明
图像编码器	使用 Hiera 架构提取多尺度特征，支持高效推理
记忆注意力模块	存储历史帧的记忆，实现跨帧一致性
提示编码器	编码用户提供的点、框、文本等提示信息
掩码解码器	结合当前帧特征与提示，生成最终分割结果
记忆银行	FIFO 队列结构，保存最近 N 帧的空间特征与语义指针