2025深度学习发论文&模型涨点之——SHAP可解释性学习+聚类分析

SHAP(SHapley Additive exPlanations)是一种基于博弈论的可解释性方法。它将机器学习模型的输出解释为特征对输出的贡献值。SHAP值是根据Shapley值(来自博弈论)计算得到的,能够衡量每个特征在模型预测中所起的作用大小。

  • 在博弈论中,Shapley值用于公平地分配合作博弈中的收益。例如,假设有一群人合作完成一项任务并获得收益,Shapley值可以确定每个人对收益的贡献程度。在机器学习模型中,特征就像是合作的“玩家”,模型的输出(如预测结果)是“收益”。

  • Shapley值的计算考虑了所有可能的特征组合。对于一个有n个特征的模型,需要考虑2n种特征组合情况。不过,SHAP通过一些优化算法(如SHAP的TreeSHAP算法针对树模型进行优化)来高效地近似计算Shapley值。

小编整理了一些SHAP可解释性学习+聚类分析论文】合集,以下放出部分,全部论文PDF版皆可领取。

需要的同学扫码添加我

回复“SHAP可解释性学习+聚类分析”即可全部领取

图片

论文精选

论文1:

Beyond explaining: XAI-based Adaptive Learning with SHAP Clustering for Energy Consumption Prediction

超越解释:基于XAI的自适应学习与SHAP聚类用于能源消耗预测

方法

    • SHAP值计算:利用SHapley Additive exPlanations (SHAP)计算每个特征对模型预测的贡献值,为模型解释提供基础。

      聚类分析:通过DBSCAN算法对SHAP值进行聚类,识别数据中的不同模式和异常点。

      模型自适应调整:根据聚类结果调整模型的超参数,如最大深度和正则化参数,以提高模型对数据分布变化的适应性。

      自动化超参数调整:结合自动化超参数调整算法(AHT),优化模型的初始参数设置。

    图片

    创新点

              • SHAP聚类:将SHAP值与聚类分析结合,为模型预测提供可解释性的同时,识别数据中的不同模式,提升模型对数据分布变化的适应性。

                性能提升:实验表明,该方法在测试集上的均方根误差(RMSE)和决定系数(r2)指标上优于传统自适应超参数调整方法(AHT),具体表现为更低的RMSE和更高的r2值。

                模型复杂性与性能平衡:通过迭代调整模型的超参数,如最大深度和正则化参数,有效平衡了模型复杂性与预测性能,减少了过拟合的风险。

                跨领域适用性:该方法不仅适用于能源消耗预测,还成功应用于金融困境预测和电力消耗预测等其他领域,展示了其广泛的适用性。

                图片

              论文2:

              Combining SHAP-driven Co-clustering and Shallow Decision Trees to Explain XGBoost

              结合SHAP驱动的共聚类和浅决策树来解释XGBoost

              方法

                  • SHAP值计算:利用SHAP框架计算每个特征对XGBoost模型预测的贡献值。

                    共聚类分析:通过基于Goodman-Kruskal τ的共聚类算法对数据实例和特征进行同时聚类,优化特征和数据实例之间的关联。

                    浅决策树生成:针对每个聚类生成浅决策树,使用聚类中最重要的特征子集进行训练,以提供简洁的决策路径。

                    局部解释:通过SHAP值将新数据实例映射到最近的聚类,并使用对应的浅决策树提供局部解释。

                    图片

                  创新点

                            • SHAP驱动的共聚类:首次将SHAP值与共聚类结合,为XGBoost模型提供全局解释,通过共聚类优化特征和数据实例之间的关联。

                              性能提升:在多个数据集上,该方法的保真度(fidelity)与现有方法相当,但决策路径的平均长度显著缩短,具体表现为比现有方法XGBTA和MaSDT更短的决策路径。

                              简洁性与可解释性:生成的浅决策树具有更高的可解释性,能够以简洁的决策路径形式提供局部解释,满足法律透明度要求。

                              模型无关性:该方法不仅适用于XGBoost,还可以扩展到其他基于梯度提升树的模型,具有广泛的适用性。

                              图片

                            论文3:

                            K-SHAP: Policy Clustering Algorithm for Anonymous Multi-Agent State-Action Pairs

                            K-SHAP:匿名多智能体状态-动作对的策略聚类算法

                            方法

                            • 世界策略学习:将问题建模为模仿学习任务,学习一个世界策略来模拟所有智能体的行为。

                              SHAP值计算:利用SHAP值解释世界策略的预测,将每个状态-动作对的SHAP值作为新的特征空间。

                              K-Means聚类:在SHAP值空间中应用K-Means算法,将匿名状态-动作对聚类到不同的策略簇中。

                              策略识别:通过聚类结果识别不同的智能体策略,为每个簇分配相应的策略标签。

                              图片

                            创新点

                                      • 匿名状态-动作对聚类:首次提出针对匿名多智能体状态-动作对的策略聚类方法,解决了在金融等领域的匿名数据问题。

                                        性能提升:在合成市场数据和真实金融市场数据上,K-SHAP的聚类性能显著优于现有方法,如K-Means、ClusterGAN和DCN等,具体表现为更高的ARI、NMI和纯度分数。

                                        策略识别能力:能够有效识别不同的智能体策略,为市场参与者的行为分析和策略研究提供了新的工具。

                                        适应性:该方法适用于不同的市场场景和智能体行为模式,具有广泛的适用性和适应性。

                                        图片


                                      论文4:

                                      Shapley-based Explainable AI for Clustering Applications in Fault Diagnosis and Prognosis

                                      基于Shapley值的可解释人工智能在故障诊断和预测中的聚类应用

                                      方法

                                        • Shapley值计算:利用SHAP和蒙特卡洛采样方法计算Shapley值,为模型预测提供特征贡献度量。

                                          降维与可视化:通过UMAP(Uniform Manifold Approximation and Projection)技术进行降维,以便于聚类和可视化。

                                          密度聚类:使用HDBSCAN(Hierarchical Density-Based Spatial Clustering of Applications with Noise)算法进行聚类,识别数据中的密集区域。

                                          规则生成:利用SkopeRules生成高精度的决策规则,以描述聚类结果。

                                          图片

                                        创新点

                                            • 半监督聚类:提出了基于Shapley值的半监督聚类框架,适用于部分标记数据集,解决了实际工业应用中数据标记不完整的问题。

                                              性能提升:在半导体制造热图数据集上,半监督Shapley聚类相比于无监督聚类,显著提高了聚类质量,减少了未聚类样本的比例,具体表现为更高的NMI值和更低的未聚类样本比例。

                                              高精度规则生成:生成的聚类规则具有高精度,能够以简洁的形式描述聚类结果,为故障诊断和预测提供了可解释的依据。

                                              多视角分析:在涡扇发动机预测案例中,该方法不仅能够预测当前健康状态,还能预测故障组件和剩余使用寿命,为预测性维护提供了全面的决策支持。

                                              图片

                                            小编整理了SHAP可解释性学习+聚类分析文代码合集

                                            需要的同学扫码添加我

                                            回复“ SHAP可解释性学习+聚类分析”即可全部领取

                                            图片

                                            Logo

                                            魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

                                            更多推荐