Med-PerSAM:医学领域个性化分段任意模型的一击视觉提示调优 !
利用针对特定任务的预训练模型和自定义 Prompt 进行情境学习在自然语言处理任务中取得了显著的成功。在此基础上,最近的研究将类似的方法应用于"一次性"框架中的Segment Anything Model(SAM),其中只使用一张参考图像及其标签。然而,这些方法在医学领域面临局限性,主要原因在于SAM对视觉 Prompt 的基本需求和生成过程中对像素相似度的过度依赖。这种依赖可能导致(1)不准确的

利用针对特定任务的预训练模型和自定义 Prompt 进行情境学习在自然语言处理任务中取得了显著的成功。在此基础上,最近的研究将类似的方法应用于"一次性"框架中的Segment Anything Model(SAM),其中只使用一张参考图像及其标签。然而,这些方法在医学领域面临局限性,主要原因在于SAM对视觉 Prompt 的基本需求和生成过程中对像素相似度的过度依赖。
这种依赖可能导致(1)不准确的 Prompt 生成和(2)点 Prompt 的聚类,从而导致次优的结果。为了解决这些问题,作者提出了Med-PerSAM,这是一种专为医学领域设计的简洁的一次性框架。
Med-PerSAM仅使用视觉 Prompt 工程,无需额外的预训练SAM或人工干预,这要归功于作者创新的自动 Prompt 生成过程。通过将作者的轻量级变形为基础的 Prompt 调优模型与SAM集成,作者实现了视觉 Prompt 的提取和迭代优化,从而提高了预训练SAM的性能。
这一进展在医学领域具有重要意义,因为在缺乏医学专业知识的人创建视觉 Prompt 方面,医学领域存在显著的挑战。作者的模型在各种2D医学影像数据集上超过了各种基础模型和之前的SAM基于方法。
1 Introduction
医学图像分割涵盖了许多临床应用,从诊断评估[58]到治疗计划[2]和患者监测[42]。尽管其重要性不言而喻,但由人工标注者进行分割的任务极为艰巨,需要深入的医学知识和专业人士的验证。这种复杂性进一步加剧了医生之间的主观变化[24],并且耗时费力。这些挑战使得获取足够的标注数据变得困难,突显了需要能够与有限的标注数据进行良好处理的医学图像分割技术的重要性。
最近,许多研究通过利用预训练的基础模型来探索少样本学习在分割任务上的能力,取得了在解决分割挑战方面的重要进展。受到最近大型语言模型的上下文学习能力的启发,这些方法利用少量 Token 数据的信息来增强分割能力。
一个显著的例子是Segment Anything Model(SAM)[27]。通过诸如点、边界框和 Mask 等视觉 Prompt 作为线索,SAM可以提高其性能。例如,可以将被认为是与目标物体相似或不同的点的位置分别指定为正点 Prompt 或负点 Prompt [25]。然而,SAM依赖于用户生成的视觉 Prompt ,这突显了在医学影像领域中持续存在的挑战,因为创建最优 Prompt 需要用户对医学和 anatomy 具有深入的理解。
为了应对SAM中手动创建视觉 Prompt 的困难,最近的两项研究,PerSAM [68]和Matcher [31],在“一次成像”设置下的自动 Prompt 生成方面取得了进展。通过使用单个参考图像及其标签,这些方法可以自动为测试图像生成视觉 Prompt ,充分利用预训练SAM的能力,无需微调。然而,将这些方法应用于医学影像存在挑战,主要源于对像素级相似性过度依赖以确定 Prompt 放置,这可能导致生成不准确的 Prompt (参见图1)。

医学影像中的这一挑战主要源于灰度图像的 dominance,这使得仅根据像素值进行物体识别变得复杂。困难体现在几个方面:
(1)点 Prompt 与目标器官可能出现错位的情况,这可能源于目标与周围器官(图1中的天蓝色框)之间的不可区分强度水平;
(2)点 Prompt 倾向于聚集在一起(图1中的粉红色箭头);
(3)负点 Prompt 经常集中在图像的黑边框上,可能导致不准确的分割。
为了克服这些限制并提高SAM在医学影像中的潜力,作者提出了Med-PerSAM,这是一种新颖且直接的方法,通过“一次生成”的方法在医学图像中生成视觉线索。为了应对之前研究的局限性,作者的策略将PerSAM和Matcher与图像变形模型相结合,以生成密集的 Mask Prompt 。这些 Mask Prompt 不仅为SAM提供了一个先验关于给定图像的固有解剖学特征,而且形成了生成稀疏(点和对框) Prompt 的基础。
作者还提出了一种视觉 Prompt 精炼策略,该策略在不进行架构修改或进一步训练SAM的情况下,提高了SAM在医学分割任务中的性能。最后,作者利用SAM的输出作为伪标签来重新训练变形模型。这个过程将SAM的视觉精度转移到变形模型,产生了更精确的 Mask Prompt 和更好的分割。
总结起来,作者的贡献主要有三个方面:
-
作者提出了Med-PerSAM,这是一个新颖且简单易用的框架,用于单次医学图像分割。只需提供一个参考图像及其对应的 Mask ,Med-PerSAM即可实现针对特定医学数据集的自定义SAM,无需额外的微调。
-
到目前为止,Med-PerSAM是首个在医学领域提出自动视觉 Prompt 调优策略的模型。它集成了一种轻量级变形模型进行联合训练,并通过迭代优化和再训练过程为SAM提供最优视觉 Prompt 。
-
作者的方法在多个数据集上始终展现出优越的性能,超越了 Baseline 模型,包括之前关于单次 Prompt 学习(SAM)的研究,如PerSAM [68]和Matcher [31]。通过引入一种新颖的战略,解决这两个方法在视觉 Prompt 生成过程中的局限性,作者在医学领域提高了SAM的性能。
2 Related Works
图像变形图像变形是一种用于操纵或扭曲给定源图像以达到所需形状或效果的技术。通过位移场,它将原图像中的像素映射到变换图像中的新位置,从而以各种方式改变外观。它通过深度学习发展而来,并在视频领域[21, 39, 44, 45]以及医学应用[10, 16, 26, 70]等领域中广泛应用。
最近,许多研究将基于光学流形变形的形变注册方法应用于不同患者来源的医学图像[4, 19, 23, 34]。这种成功很大程度上归因于每种成像获取类型的标准化扫描范围和患者姿势。这确保了解剖特征和器官位置之间的一定程度的 consistency 和相似性,从而便于可靠的图像对齐。在这些发现的基础上,作者还利用图像变形模型进行患者间的变换,使得参考图像和 Mask 对可以适应给定测试图像的语义,实现对齐。
预训练基础模型,因其强大的泛化能力而闻名,已经在各种下游应用中展示了显著的适应性,取得了令人印象深刻的结果。尤其是在自然语言处理领域,像GPT [1, 7, 47, 48]和LLaMA [56, 57]这样的模型展示了卓越的语境学习能力。这些模型可以通过特定的领域 Prompt 应用到新的任务中,这证明了它们的灵活性。
在计算机视觉领域,预训练基础模型在图像分割任务中证明了其性能。像SAM [27],Painter [59]和SegGPT [60]这样的模型展示了在各种图像数据集上的出色泛化能力。这些预训练模型无需特定的任务训练即可有效处理各种分割任务,展示了其灵活性,并推动了图像分割领域的发展。
Segment Anything ModelSAM 是一种预先在包含10亿张 Mask 和110万张图像的数据集上进行分割的分割模型 [27]。它通过与图像结合使用视觉 Prompt 来生成 Mask ,采用了一个预训练的视觉 Transformer 和一个轻量级的编码器-解码器架构。然而,有报道称,当以医学图像作为输入时,SAM 可能产生次优的结果 [11, 18, 20, 71]。
针对这一问题,一些最新的研究,如MedSAM [33],ProtoSAM [3],CAT-SAM [66],以及其他一些研究[63, 64, 65, 67],都关注于将SAM(Stacked Auto-Encoder)应用于医学领域。然而,这些研究需要额外的数据集进行SAM的微调,或者假设在推理过程中有 GT 视觉 Prompt 的可用性。这一假设与现实世界的临床设置有所不同,在获取用于微调的大型数据集方面可能具有挑战性,而且用户可能无法为医学图像提供确切的 GT 视觉 Prompt 。与这些研究不同,据作者所知,作者是第一个在医学领域提出一种不需要或假设推理过程中有手动视觉 Prompt 的训练免费的SAM方案。
一站式分割任何模型(One-Shot Segment Anything ModelPerSAM)和匹配器(Matcher)是两个专注于使用SAM进行一次分割 notable 研究的实例。这两种方法在预训练SAM 的无标签图像上进行推理,仅使用单个参考图像和 Mask ,以及自动视觉 Prompt 。PerSAM 使用SAM 视觉编码器之间的特征相似性来创建点 Prompt 和框 Prompt ,而Matcher 使用 DINOv2 [41] 进行双向和实例级匹配,以提取正点偏移。然而,如图1所示,两种模型由于过度依赖像素和特征相似性而忽略了上下文因素,在医学图像中经常将点 Prompt 放置错误。
3 Methods
如图2所示,Med-PerSAM的整体架构。给定一个单参考图像及其 Mask ,以及一个包含 未标注 图像的测试数据集,主要目标是优化SAM的视觉 Prompt 集以产生最终预测 Mask 。为此,作者的方法遵循一个迭代过程,包括(1)训练变形模型(第3.1节),(2)生成视觉 Prompt 并运行SAM推理(第3.2节),以及(3)重新训练变形模型(第3.3节)。变形模型向SAM提供视觉线索,其输出随后用于重新训练和增强变形模型,创建一个迭代反馈环,提高两个模型的性能。虽然作者的方法在单类分割的假设下进行描述以示清晰,但将其扩展到多类分割是轻而易举的(第3.4节)。

Initial Training of Warping Model
最初,Med-PerSAM基于两个损失项训练变形模型,其主要目的是使用训练好的模型(等式4)生成变形的 Mask ,并在第三节2中将其呈现为视觉 Prompt 。
变形模型 具有可学习参数 ,用于识别光学流,将参考图像 转换为一系列无标签的测试图像 。训练发生在参考样本和测试集之间,类似于测试时的训练/适应设置 [4, 72]。训练完成后,它对参考 Mask 应用变形变换,为每个无标签图像生成 Mask Prompt 。
对于给定的测试图像 ,模型计算参考图像和测试图像之间的光流 。这一光流有助于将参考图像 转换为变形图像 ,使其尽可能地接近 。在这里, 代表空间变换操作。
训练变形模型的主要目标是最小化变形损失 ,以最大化变形和目标图像之间的相似度。这个损失函数整合了两个组成部分:(1) 图像损失 ,包括基于相似度的函数,如结构相似性指数度量(SSIM)[55]或归一化相关系数(NCC)损失[53],以及(2) L2流正则化损失,,它促进了流场中的平滑性[35, 36]。参考和目标图像之间的变形损失可以表示为:

通过变形损失,引入了一种增强损失 ,以提高训练并捕获变形过程中的大光度和平面几何差异。通过将增强应用于参考对,生成了增强图像 和 Mask 。然后计算了参考图像和增强图像之间的变形损失,这类似于公式 1,但存在增强和变形 Mask 之间的标签到标签损失:

在这里, 表示分割损失函数,作者使用了 DiceCE,它结合了 DICE [37] 和交叉熵损失。即使参考图像和增强图像之间存在显著差异,变形模型也可以通过从变形增强 Mask 和 之间的分割损失中成功学习变换。
因此,初始训练的总损失 是变形和增强损失的和,如方程1和2所述,用 m a t h c a l L t e x t t r a i n = m a t h c a l L t e x t w a r p ( I _ t e x t r e f , I _ i ) + m a t h c a l L _ t e x t a u g . t a g 3 \\mathcal{L}_{\\text{train}}=\\mathcal{L}_{\\text{warp}}(I\_{\\text{ref}},I\_{i})+\\mathcal{ L}\_{\\text{aug}}. \\tag{3} mathcalLtexttrain=mathcalLtextwarp(I_textref,I_i)+mathcalL_textaug.tag3在训练变形模型之后,可以通过参考 Mask 推导出变形 Mask ,如下所示:

Visual Prompt Generation
从上述等式4中获得的变形 Mask ,作者可以获取视觉 Prompt ,并迭代更新以提高结果。变形 Mask 作为测试图像Ii的 Mask Prompt ,并集成到SAM中。然而,在SAM中, Mask Prompt 被设计为补充点/框 Prompt ,仅使用 Mask Prompt 已被报道会导致故障1。因此,作者通过(1)计算相似度图和(2)使用作者提出的策略推导点 Prompt ,如图3所示。

为了划分点 Prompt 提取的候选区域,作者在预定义核函数[6, 38]的基础上,对 Mask Prompt 进行形态操作——腐蚀和膨胀。这些操作根据每个像素在其局部邻域中的最小或最大值调整每个像素的值,从而在保持 Mask 的结构完整性同时改变其大小。这可以表示为

侵蚀和扩张(Erosion and Dilation)分别表示具有 Kernel 和的形态操作。
随后,作者从 中提取正 Prompt ,从 中提取负 Prompt 。这种方法的目标是准确地识别出高确定性区域的正 Prompt ,并指定“困难负 Prompt ”[15, 50],表示难以预测的负 Prompt 。作者将每个候选区域划分为子区域,根据最高和最低相似度值从每个子区域中提取一个 Prompt 。子区域定义为按索引数升序排序的像素位置,然后将其划分为相等的部分。然后,作者得到SAM编码器的平均前景特征作为类原型向量。使用原型向量与测试图像的SAM编码器特征之间的余弦相似度图 ,将K个正 Prompt 和负 Prompt ,分别表示为和。

在此,作者定义 和 分别为 eroded 和 dilated masks 的 - 阶子区域。接下来,作者提出点 Prompt 提取公式:

定义 Box Prompt 的过程相对简单。函数 提取给定 Mask Prompt 中所有正像素所构成的最小矩形四个顶点的坐标。
通过利用获得的点、框和 Mask Prompt ,结合输入图像在SAM中,作者预测分割 Mask 如下

"SAM"表示预训练的SAM模型[27]。
此外,作者通过根据SAM(Stacked Attention Module)的输出来优化点框 Prompt ,从而提高模型的性能。这种优化过程相当于一个新的 Mask Prompt 。该优化过程涉及重复应用公式5至12中详细说明的程序。通过这种迭代过程, Prompt 通过利用前一次迭代的输出逐步提高分割 Mask 预测的准确性(图4)。

Retraining the Warping Model
作者通过将预测的 Mask 与先前的训练损失相结合,重新训练变形模型以提高变形效率。这个过程涉及使用预测的 Mask 作为伪标签,然后将模型的输出作为SAM的 Mask Prompt 。重训练损失的计算类似于3.1节中定义的,但包括变形 Mask 与伪标签之间的附加分割损失项。这可以表示为:
是之前定义的DiceCE损失函数。
作者可以通过迭代训练得到可视化 Prompt 。通过重复执行第3.2节中描述的过程,作者可以更新预测结果,并可以重复训练的次数。
Extension to Multi-Class Segmentation
在第3.1至3.3节中,作者详细阐述了假设单类分割的方法。将其扩展到多类场景是轻而易举的。对于多类 Mask Prompt ,除了背景以外,每个类别都生成一个one-hot Mask ,并创建独立的 Mask Prompt 。这些 Prompt 与测试图像一起输入到SAM进行预测。将预测值最高的 foreground 类别的 logit 分配给每个像素,而所有 foreground logit 小于0的像素被 Token 为背景。
4 Experiments
Datasets
实验在五个基准数据集上进行,包括各种解剖区域。深圳数据集[22]被用作肺分割的来源。OdontoAI数据集[54]包含牙齿分割数据。JSRT和CAMUS[30]数据集[14,52]是胸部及心脏影像的多分类分割。此外,BUU数据集[28]用于脊柱分割。数据集的详细描述见附录A。
Baseline Models
作者选择了各种基础模型,包括Painter [59],视觉 Prompt (VP)[5],SEEM [73],SegGPT [60],UniverSeg [9],PerSAM [68],以及Matcher [31],作为评估的 Baseline 。此外,作者还测试了PerSAM-F,PerSAM的一个微调版本。
Implementation Details
遵循PerSAM [68]的参考,参考图像及其对应的标签是通过将每个数据集中的样本名称按字母顺序排列,并选择此顺序中的第一个样本作为参考来确定的。然后,剩下的样本作为推理的测试集。
作者的变形模型基于NICE-Trans [35]。为了增强对大型几何变换(如缩放和旋转)的鲁棒性,该模型采用了仿射配准,然后是一个变形配准场进行最终的变形。由于NICE-Trans最初是针对3D成像设计的,作者对其进行了修改,使其适应2D图像。变形模型有约1900万参数,仅占SAM的3%,其中再训练和 Prompt 优化的参数数量分别为5和1。作者在主要实验中使用SAM版本1与先前的基于SAM的研究进行公平比较,而将其替换为SAM2则得到相似的性能(更多信息请见B部分)。
both 点 Prompt 和 盒 Prompt [68] 都被使用。对于 点 Prompt ,深圳和 OdontoAI 数据集使用 10 个正负偏移,其他数据集使用 5 个点。有关模型、损失函数和训练过程的更多详细信息,请参见 B。关于其他实验细节,例如形态操作和点 Prompt 数量的分析,请参见 C。
在评估中,作者使用了交点与 union(IoU)和 DICE 分数。IoU 通过将预测结果和真实值之间的重叠区域面积除以它们的并集区域面积来计算。类似地,DICE 分数 [12] 通过将重叠区域面积乘以2除以两个 Mask 面积的总和来计算。对于多类分割,每个前景类的指标值分别计算,然后所有类别的指标值求平均。
Main Results
表1中概括了主要的实验结果。作者的模型在其他所有数据集上与基础模型相比都展示了优越的性能,且具有显著的优势。值得注意的是,作者的模型在性能上明显优于使用SAM(PerSAM,Matcher)的两项 previous 研究,性能提升可达65%。此外,这两项研究通常在与其他基准模型相比时显示出显著较差的性能,这表明在没有适当 Prompt 的情况下使用SAM可能会导致性能大幅度下降。

为了确保作者方法的鲁棒性,作者还从十个不同的参考样本中获取了平均结果,这些结果在表2中展示。可以看出,作者的模型在所有数据集上仍实现了最佳性能。

图5展示了定性分析的实例。观察到大多数基础模型在准确分割医学图像方面存在困难。具体而言,这些模型通常在更大的尺度上进行分割,而不是专注于图像的预期部分,或者在预测时可能包括具有相似强度值的其它器官。相比之下,作者的模型在各种数据集上都能始终实现可靠的结果。

Analyses of Point Prompts
表3展示了在三个使用SAM的模型中,准确识别出的正面和负面点 Prompt 的比例。结果表明,作者的 Prompt 策略可以找到高度准确的正面和负面点 Prompt 。尽管PerSAM在点 Prompt 方面也表现出很高的准确性,但这些 Prompt 往往在某些特定区域高度集中,如图1所示。

表4中也观察到了聚类问题,这展示了使用Hopkins统计[29]的点 Prompt 的聚类趋势。较低的值表示聚类较少,而PerSAM相比作者的方法显示出显著较高的值。结合作者 Prompt 策略的ablation study结果(将在表7中描述),这表明这种点聚类可能导致SAM性能下降。


Robustness to Image Characteristics
即使是相同的成像类型,由于设备和机构之间的差异,医学图像的特征也可能有所不同,这可能潜在地影响模型性能[17, 46]。为了应对这个问题,作者使用深圳和JSRT胸部X光数据集评估了跨数据集性能,其中参考和测试样本来自不同的数据集。参考标签由医生修改以确保不同数据集之间的一致性。如表5所示,尽管参考样本发生了变化,但作者的模型的性能仍然保持一致。

此外,作者对测试样本应用了扰动(详情见附录D),以评估在图像特征发生显著变化时的鲁棒性(见表6)。与其他前两名基准相比,作者的模型在扰动前后保持了相对稳定的性能。
Perturbation of Mask Prompts
尽管在许多先前的研究中[4, 19, 23, 34]已经验证了不同患者图像之间的图像变形,并且作者的模型在各种数据集和情况下都表现出良好的性能,但关于作者的方法依赖于变形 Mask 仍可能存在一些担忧。为了应对这一问题,作者有意损害了初始 Mask Prompt ,并测量了性能(图6)。通过在0和1之间乘以一个标量(在本研究中为0.2),将初始 Mask Prompt 生成的性能减少了10%以上。尽管存在这种扰动,但在多次再训练过程中,与无扰动相比,性能差距显著减小。这表明作者的迭代再训练框架具有一定的自我优化预测能力,并能够找到更好的结果。

Ablation Studies on Visual Prompts
表7呈现了作者的方法确定点 Prompt 的消融结果。与PerSAM [68]类似,只使用点 Prompt 和框 Prompt 进行比较。PerSAM中的基于余弦相似度的简单顶k点 Prompt 提取表现不佳。相比之下,(1)为点 Prompt 提取定义候选区域(基于区域)的方法在CAMUS和BUU上都取得了良好的效果。
表6:在测试样本扰动之前和之后,DICE得分(%)的变化。括号中的值表示差异。由于空间限制,只包括最大差异的结果。完整的附录D中包含详细结果。
- 区域分割(1)和(2)有助于性能提升。这表明,由于过度依赖像素强度或点 Prompt 的聚类,导致SAM的绘图不准确,从而降低了其性能。
表格8描述了根据不同视觉 Prompt 组合的结果。将点状和框状 Prompt 结合使用具有潜在的协同效益,添加 Mask Prompt 进一步提高了性能。
表格9显示了根据 Prompt 微调次数的结果。可以看出,在每个训练周期中微调SAM的推理结果会产生影响。
Other Ablation Studies
为了增强变形模型的鲁棒性,作者在两个方面进行了消融研究:(1)增强损失,(2)仿射变换(见公式2和第4.3节)。表10显示,增强损失在所有数据集上都提高了性能,特别是在BUU数据集中,样本之间的解剖变异更大。对于仿射变换(见表11),观察到类似的变化趋势。如果省略仿射变换,只使用可变形变换,其他数据集上的性能可以保持,但对于BUU数据集,性能显著降低。这表明,将增强损失和仿射变换相结合可以提高变形过程对大特征差异的鲁棒性。


5 Conclusion
作者提出了一种新颖的单次学习、SAM训练无关的框架,该框架使用医学领域的单个参考样本为测试样本生成自动化视觉 Prompt 。作者的方法在各种医学数据集上明显优于现有的基础模型,包括先前的SAM相关研究,如PerSAM和Matcher。在不需要对SAM进行额外微调或手动视觉 Prompt 的情况下,所提出的方法在各种条件和实验设置下表现出强大的性能。
然而,作者的方法并非没有局限性。首先,在少样本学习场景中或在3D医学数据方面,有必要研究作者方法的可能扩展。此外,在某些特殊情况下,图像变形可能不可行,尤其是在由于捕捉姿势或扫描范围意外变化导致图像极度异质化的情形下。作者将这些问题留给未来的研究。尽管存在这些挑战,作者提出了一种 Prompt 工程方法,该方法有效地将SAM适应于医学领域,同时保持了其无训练的方案。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐

所有评论(0)