人工智能基础(二十)特征提取
·
特征工程----特征提取
1、特征提取
将任意数据 (如文本图像)转换为可用于机器学习的数字特征
2、特征提取分类:
字典特征提取(特征离散化)
文本特征提取
图像特征提取(深度学习将介绍 )
3、api
sklearn.feature.extraction
4、字典特征提取
字典特征提取就是对类别数据进行转换
api:sklearn.feature_extraction.DictVectorizer(sparse=True,…)
sparse矩阵
- 节省内存
- 提高读写效率
属性:DictVectorizer.get_feature_names() 返回类别名称
注意:
对于特种当中存在类别信息的我们都会做one-hot编码处理
5、文本特征提取(英文)
api:
sklearn.feature _extraction.text.CoutVectorizer(stop_words=[])
stop_words — 停用词
注意:没有sparse这个参数
单个字母,标点符号不做统计
6、中文文本特征提取
注意:
1. 在中文文本特征提取之前,需要对句子(文章)进行分词(jieba)
2. 里面依旧可以使用停用词,进行词语的限制
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐


所有评论(0)