SAM3大模型镜像核心优势揭秘｜附视频分割同款实践案例

本文介绍了基于“星图GPU”平台自动化部署sam3 提示词引导万物分割模型镜像的完整方案。该镜像支持通过自然语言或点提示实现图像与视频中目标的精准分割，适用于模型微调、AI内容创作及智能视频分析等场景，结合Gradio界面可快速完成交互式分割任务，显著提升开发效率。

鸟看世界

377人浏览 · 2026-01-16 06:21:15

鸟看世界 · 2026-01-16 06:21:15 发布

SAM3大模型镜像核心优势揭秘｜附视频分割同款实践案例

1. 技术背景与核心价值

图像与视频中的目标分割是计算机视觉领域的关键任务之一，广泛应用于智能监控、自动驾驶、医学影像分析和内容创作等领域。传统分割方法依赖大量标注数据和特定类别训练，泛化能力有限。而 SAM3（Segment Anything Model 3） 的出现彻底改变了这一格局。

SAM3 是 Meta 推出的第三代“万物可分割”模型，其最大突破在于实现了零样本迁移能力——无需重新训练即可对任意图像或视频中的物体进行精准掩码提取。结合自然语言提示（Prompt），用户只需输入如 "dog" 或 "red car" 等简单描述，即可完成目标识别与分割。

本镜像基于 SAM3 算法深度优化，并集成 Gradio 可视化交互界面，极大降低了使用门槛。无论是开发者还是非技术用户，都能快速部署并实现高质量的文本引导式图像/视频分割。

2. 镜像环境配置与启动流程

2.1 生产级运行环境

为确保高性能推理与高兼容性，该镜像采用以下生产级配置：

组件	版本
Python	3.12
PyTorch	2.7.0+cu126
CUDA / cuDNN	12.6 / 9.x
代码路径	`/root/sam3`

此配置支持在 NVIDIA GPU 上高效运行，兼顾最新框架特性与稳定性，适用于本地开发、云服务部署及边缘设备适配。

2.2 快速启动 WebUI 交互界面

实例启动后，系统将自动加载模型权重。建议按以下步骤操作：

实例开机后等待 10–20 秒，让模型完成初始化加载；
在控制台点击右侧 “WebUI” 按钮；
进入网页界面后上传图片，输入英文 Prompt（如 cat, bottle），点击 “开始执行分割” 即可获得分割结果。

WebUI界面示意图

若需手动重启服务，可执行以下命令：

/bin/bash /usr/local/bin/start-sam3.sh

3. 核心功能解析：自然语言驱动的智能分割

3.1 自然语言提示机制

SAM3 支持通过自然语言直接引导分割过程，这是其区别于传统分割模型的核心创新点。例如：

输入 "person" → 分割画面中所有人
输入 "blue shirt" → 仅分割穿蓝色上衣的人
输入 "metallic object" → 提取具有金属质感的物体

这种机制背后融合了大规模图文对预训练与视觉-语言对齐建模，使模型具备强大的语义理解能力。

注意：当前版本主要支持英文 Prompt。中文输入可能无法准确匹配语义空间，建议使用常见名词短语以提升效果。

3.2 AnnotatedImage 高性能可视化组件

本镜像二次开发了基于 Gradio 的 AnnotatedImage 渲染模块，具备以下优势：

支持多层掩码叠加显示
点击任意分割区域可查看对应标签与置信度分数
实时反馈边缘细节与透明度调节

该组件显著提升了人机交互体验，便于调试与结果验证。

3.3 动态参数调节功能

为应对复杂场景下的误检或漏检问题，Web 界面提供两个关键参数调节选项：

参数	作用说明
检测阈值	控制模型响应灵敏度。降低阈值可减少误检，但可能导致小目标遗漏
掩码精细度	调节分割边界的平滑程度。高精细度适合复杂轮廓（如树叶、毛发）

通过组合调整这两个参数，可在不同应用场景下达到最佳分割质量。

4. 实战案例：视频目标分割与跟踪

参考博文《【SAM3教程-5】视频分割：文本与点提示一键分割与跟踪视频中指定目标》的技术路线，我们复现并优化了完整的视频处理流程，展示 SAM3 在动态场景中的强大能力。

4.1 环境准备与依赖导入

首先导入必要的 Python 库：

import cv2
import torch
import numpy as np
import supervision as sv
from pathlib import Path
from PIL import Image
from typing import Optional
from IPython.display import Video
from sam3.model_builder import build_sam3_video_predictor
import os
import glob
import matplotlib.pyplot as plt
from sam3.visualization_utils import (
    load_frame,
    prepare_masks_for_visualization,
    visualize_formatted_frame_output,
)

4.2 辅助函数定义

定义两个常用工具函数用于坐标转换与结果传播：

# 设置绘图字体大小
plt.rcParams["axes.titlesize"] = 12
plt.rcParams["figure.titlesize"] = 12

# 跨帧传播分割状态
def propagate_in_video(predictor, session_id):
    outputs_per_frame = {}
    for response in predictor.handle_stream_request(
        request=dict(type="propagate_in_video", session_id=session_id)
    ):
        outputs_per_frame[response["frame_index"]] = response["outputs"]
    return outputs_per_frame

# 坐标归一化：从像素坐标转为相对坐标（0~1）
def abs_to_rel_coords(coords, IMG_WIDTH, IMG_HEIGHT, coord_type="point"):
    if coord_type == "point":
        return [[x / IMG_WIDTH, y / IMG_HEIGHT] for x, y in coords]
    elif coord_type == "box":
        return [
            [x / IMG_WIDTH, y / IMG_HEIGHT, w / IMG_WIDTH, h / IMG_HEIGHT]
            for x, y, w, h in coords
        ]
    else:
        raise ValueError(f"Unknown coord_type: {coord_type}")

4.3 加载 SAM3 视频预测器

使用预训练权重初始化模型：

DEVICES = [torch.cuda.current_device()]
checkpoint_path = "models/sam3.pt"
bpe_path = "assets/bpe_simple_vocab_16e6.txt.gz"

predictor = build_sam3_video_predictor(
    checkpoint_path=checkpoint_path,
    bpe_path=str(bpe_path),
    gpus_to_use=DEVICES
)

4.4 视频帧预处理

利用 ffmpeg 将原始视频切分为独立帧图像，便于逐帧处理：

SOURCE_VIDEO = "assets/videos/bedroom.mp4"
output_dir = 'output2'
os.makedirs(output_dir, exist_ok=True)

!ffmpeg -i {SOURCE_VIDEO} -q:v 2 -start_number 0 output2/%05d.jpg

4.5 初始化视频会话

创建一个会话上下文，用于维护跨帧的状态信息：

SOURCE_VIDEO = "assets/videos/bedroom.mp4"
response = predictor.handle_request(
    request=dict(
        type="start_session",
        resource_path=SOURCE_VIDEO,
    )
)
session_id = response["session_id"]

若需重置状态，可调用：

python _ = predictor.handle_request( request=dict(type="reset_session", session_id=session_id) )

4.6 方法一：文本提示实现全局分割

在第 0 帧添加文本提示，触发目标识别：

prompt_text_str = "person"
frame_idx = 0

response = predictor.handle_request(
    request=dict(
        type="add_prompt",
        session_id=session_id,
        frame_index=frame_idx,
        text=prompt_text_str,
    )
)
out = response["outputs"]

可视化首帧分割结果：

visualize_formatted_frame_output(
    frame_idx,
    video_frames_for_vis,
    outputs_list=[prepare_masks_for_visualization({frame_idx: out})],
    titles=["SAM 3 Dense Tracking outputs"],
    figsize=(6, 4),
)

4.7 全程目标跟踪与传播

基于初始提示，在整个视频序列中持续跟踪目标：

outputs_per_frame = propagate_in_video(predictor, session_id)
outputs_per_frame = prepare_masks_for_visualization(outputs_per_frame)

vis_frame_stride = 60
for frame_idx in range(0, len(outputs_per_frame), vis_frame_stride):
    visualize_formatted_frame_output(
        frame_idx,
        video_frames_for_vis,
        outputs_list=[outputs_per_frame],
        titles=["SAM 3 Dense Tracking outputs"],
        figsize=(6, 4),
    )

结果显示模型能稳定跟踪多个行人，即使存在遮挡也能保持 ID 一致性。

4.8 目标移除：按 ID 删除指定对象

若希望排除某个干扰目标（如 ID=1 的小女孩），可通过 remove_object 操作实现：

obj_id = 1
predictor.handle_request(
    request=dict(
        type="remove_object",
        session_id=session_id,
        obj_id=obj_id,
    )
)

# 重新传播验证效果
outputs_per_frame = propagate_in_video(predictor, session_id)

再次可视化可见该目标已被成功剔除，其余目标仍正常跟踪。

4.9 方法二：点提示添加精确目标

除了文本，还可通过点击图像中的关键点来添加目标。例如恢复之前移除的对象：

sample_img = Image.fromarray(load_frame(video_frames_for_vis[0]))
IMG_WIDTH, IMG_HEIGHT = sample_img.size

frame_idx = 0
obj_id = 1
points_abs = np.array([[406, 170]])
labels = np.array([1])

points_tensor = torch.tensor(
    abs_to_rel_coords(points_abs, IMG_WIDTH, IMG_HEIGHT, coord_type="point"),
    dtype=torch.float32,
)
points_labels_tensor = torch.tensor(labels, dtype=torch.int32)

predictor.handle_request(
    request=dict(
        type="add_prompt",
        session_id=session_id,
        frame_index=frame_idx,
        points=points_tensor,
        point_labels=points_labels_tensor,
        obj_id=obj_id,
    )
)

4.10 方法三：正负样本点实现精细分割

进一步提升精度，可通过正负样本点联合引导，实现局部区域分割。例如只保留衣服部分：

points_abs = np.array([
    [421, 155],  # 正样本：衣服区域
    [420, 202],  # 负样本：腿部
    [400, 107],  # 负样本：头部
])
labels = np.array([1, 0, 0])

points_tensor = torch.tensor(
    abs_to_rel_coords(points_abs, IMG_WIDTH, IMG_HEIGHT, coord_type="point"),
    dtype=torch.float32,
)
points_labels_tensor = torch.tensor(labels, dtype=torch.int32)

predictor.handle_request(
    request=dict(
        type="add_prompt",
        session_id=session_id,
        points=points_tensor,
        point_labels=points_labels_tensor,
        obj_id=obj_id,
    )
)

最终输出显示模型成功将分割范围限制在衣物区域，证明其具备极强的细粒度控制能力。