在这里插入图片描述
神经网络前,需要手动特征提取,以提供给支持向量机喜好的数据格式。而神经网络能够替换掉手动特征提取,最后用一个线性分类器就可满足需求。

常见数据的特征工程

  • 整形/浮点型:直接使用或分成n个独特的区间值
  • categorical data:独热编码(只有某一列是1)
    在这里插入图片描述
  • Date-time:按年月日等分成一个特征列表
    在这里插入图片描述
  • 特征组合
    在这里插入图片描述

文本特征提取方法

  • Bag of words(BoW)model
    将每个词元用独热编码表示,所有词元相加
  • 词嵌入(Word2vec)
    将词表示成一个向量,若两个词语义上相近,则两个向量之间也比较相近
  • 预训练好的模型(BERT,GPT-3)

图片/视频特征提取

  • 传统是手动特征提取
  • 现在使用预训练好的深度神经网络。将神经网络倒数第二层的输出作为向量
Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐