无监督学习下的便捷有效特征提取手段
无监督学习下的便捷有效特征提取手段
·
特征工程和数据降维是数据挖掘过程中最重要,也是最有技术含量的细节。
特征选择主要有两个功能:
- 减少特征数量、降维,使模型泛化能力更强,减少过拟合
- 增强对特征和特征值之间的理解
拿到数据集,一个特征选择方法,往往很难同时完成这两个目的。通常情况下,我们经常不管三七二十一,选择一种自己最熟悉或者最方便的特征选择方法(往往目的是降维,而忽略了对特征和数据理解的目的)。
简单概括常见特征提取方法
监督学习:回归模型,Xgboost,随机森林(决策树)等等。
无监督包括:相关性分析、方差性分析,常见降维技术(Pca,Kpca,Tsne)等等。
基于距离运算的便捷有效特征提取方法
基于向量间距离运算,提出一种易理解易实现且有实际效果的方法来解决数据特征提取问题。本文先只涉及两组数据间且不涉及异常点情况的有效特征提取,同时会联系监督算法和实际结果做综合分析。
参考链接:
[1] 特征选择和特征理解 2016.5
[2] 多分类情况下便捷有效的特征提取方法的介绍 2022.5
[3] 高维数据如何较好的聚类?2020.11
[4] 无监督学习下的便捷有效特征提取手段 2022.1
[5] 高维度数据能否使用kmeans? 2018.6
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐

所有评论(0)