我愿称之无敌！SHAP可解释性学习+聚类分析最新暴力涨点方案！

它将机器学习模型的输出解释为特征对输出的贡献值。性能提升：在半导体制造热图数据集上，半监督Shapley聚类相比于无监督聚类，显著提高了聚类质量，减少了未聚类样本的比例，具体表现为更高的NMI值和更低的未聚类样本比例。性能提升：实验表明，该方法在测试集上的均方根误差（RMSE）和决定系数（r2）指标上优于传统自适应超参数调整方法（AHT），具体表现为更低的RMSE和更高的r2值。SHAP聚类：将S

Ai墨芯111

1331人浏览 · 2025-03-24 17:40:29

Ai墨芯111 · 2025-03-24 17:40:29 发布

2025深度学习发论文&模型涨点之——SHAP可解释性学习+聚类分析

SHAP（SHapley Additive exPlanations）是一种基于博弈论的可解释性方法。它将机器学习模型的输出解释为特征对输出的贡献值。SHAP值是根据Shapley值（来自博弈论）计算得到的，能够衡量每个特征在模型预测中所起的作用大小。

在博弈论中，Shapley值用于公平地分配合作博弈中的收益。例如，假设有一群人合作完成一项任务并获得收益，Shapley值可以确定每个人对收益的贡献程度。在机器学习模型中，特征就像是合作的“玩家”，模型的输出（如预测结果）是“收益”。
Shapley值的计算考虑了所有可能的特征组合。对于一个有n个特征的模型，需要考虑2n种特征组合情况。不过，SHAP通过一些优化算法（如SHAP的TreeSHAP算法针对树模型进行优化）来高效地近似计算Shapley值。

小编整理了一些SHAP可解释性学习+聚类分析【论文】合集，以下放出部分，全部论文PDF版皆可领取。

需要的同学扫码添加我

回复“SHAP可解释性学习+聚类分析”即可全部领取

论文精选

论文1：

Beyond explaining: XAI-based Adaptive Learning with SHAP Clustering for Energy Consumption Prediction

超越解释：基于XAI的自适应学习与SHAP聚类用于能源消耗预测

方法

SHAP值计算：利用SHapley Additive exPlanations (SHAP)计算每个特征对模型预测的贡献值，为模型解释提供基础。

聚类分析：通过DBSCAN算法对SHAP值进行聚类，识别数据中的不同模式和异常点。

模型自适应调整：根据聚类结果调整模型的超参数，如最大深度和正则化参数，以提高模型对数据分布变化的适应性。

自动化超参数调整：结合自动化超参数调整算法（AHT），优化模型的初始参数设置。

创新点

SHAP聚类：将SHAP值与聚类分析结合，为模型预测提供可解释性的同时，识别数据中的不同模式，提升模型对数据分布变化的适应性。

性能提升：实验表明，该方法在测试集上的均方根误差（RMSE）和决定系数（r2）指标上优于传统自适应超参数调整方法（AHT），具体表现为更低的RMSE和更高的r2值。

模型复杂性与性能平衡：通过迭代调整模型的超参数，如最大深度和正则化参数，有效平衡了模型复杂性与预测性能，减少了过拟合的风险。

跨领域适用性：该方法不仅适用于能源消耗预测，还成功应用于金融困境预测和电力消耗预测等其他领域，展示了其广泛的适用性。

论文2：

Combining SHAP-driven Co-clustering and Shallow Decision Trees to Explain XGBoost

结合SHAP驱动的共聚类和浅决策树来解释XGBoost

方法

SHAP值计算：利用SHAP框架计算每个特征对XGBoost模型预测的贡献值。

共聚类分析：通过基于Goodman-Kruskal τ的共聚类算法对数据实例和特征进行同时聚类，优化特征和数据实例之间的关联。

浅决策树生成：针对每个聚类生成浅决策树，使用聚类中最重要的特征子集进行训练，以提供简洁的决策路径。

局部解释：通过SHAP值将新数据实例映射到最近的聚类，并使用对应的浅决策树提供局部解释。

创新点

SHAP驱动的共聚类：首次将SHAP值与共聚类结合，为XGBoost模型提供全局解释，通过共聚类优化特征和数据实例之间的关联。

性能提升：在多个数据集上，该方法的保真度（fidelity）与现有方法相当，但决策路径的平均长度显著缩短，具体表现为比现有方法XGBTA和MaSDT更短的决策路径。

简洁性与可解释性：生成的浅决策树具有更高的可解释性，能够以简洁的决策路径形式提供局部解释，满足法律透明度要求。

模型无关性：该方法不仅适用于XGBoost，还可以扩展到其他基于梯度提升树的模型，具有广泛的适用性。

论文3：

K-SHAP: Policy Clustering Algorithm for Anonymous Multi-Agent State-Action Pairs

K-SHAP：匿名多智能体状态-动作对的策略聚类算法

方法

世界策略学习：将问题建模为模仿学习任务，学习一个世界策略来模拟所有智能体的行为。

SHAP值计算：利用SHAP值解释世界策略的预测，将每个状态-动作对的SHAP值作为新的特征空间。

K-Means聚类：在SHAP值空间中应用K-Means算法，将匿名状态-动作对聚类到不同的策略簇中。

策略识别：通过聚类结果识别不同的智能体策略，为每个簇分配相应的策略标签。

创新点

匿名状态-动作对聚类：首次提出针对匿名多智能体状态-动作对的策略聚类方法，解决了在金融等领域的匿名数据问题。

性能提升：在合成市场数据和真实金融市场数据上，K-SHAP的聚类性能显著优于现有方法，如K-Means、ClusterGAN和DCN等，具体表现为更高的ARI、NMI和纯度分数。

策略识别能力：能够有效识别不同的智能体策略，为市场参与者的行为分析和策略研究提供了新的工具。

适应性：该方法适用于不同的市场场景和智能体行为模式，具有广泛的适用性和适应性。

论文4：

Shapley-based Explainable AI for Clustering Applications in Fault Diagnosis and Prognosis

基于Shapley值的可解释人工智能在故障诊断和预测中的聚类应用

方法

Shapley值计算：利用SHAP和蒙特卡洛采样方法计算Shapley值，为模型预测提供特征贡献度量。

降维与可视化：通过UMAP（Uniform Manifold Approximation and Projection）技术进行降维，以便于聚类和可视化。

密度聚类：使用HDBSCAN（Hierarchical Density-Based Spatial Clustering of Applications with Noise）算法进行聚类，识别数据中的密集区域。

规则生成：利用SkopeRules生成高精度的决策规则，以描述聚类结果。

创新点

半监督聚类：提出了基于Shapley值的半监督聚类框架，适用于部分标记数据集，解决了实际工业应用中数据标记不完整的问题。

性能提升：在半导体制造热图数据集上，半监督Shapley聚类相比于无监督聚类，显著提高了聚类质量，减少了未聚类样本的比例，具体表现为更高的NMI值和更低的未聚类样本比例。

高精度规则生成：生成的聚类规则具有高精度，能够以简洁的形式描述聚类结果，为故障诊断和预测提供了可解释的依据。

多视角分析：在涡扇发动机预测案例中，该方法不仅能够预测当前健康状态，还能预测故障组件和剩余使用寿命，为预测性维护提供了全面的决策支持。