🔍 什么是模型训练中的“特征提取”

  • 定义:特征提取是从原始数据中提炼出对预测或分类最有用的信息的过程。它的目标是去掉冗余和噪声,保留能最好反映数据规律的特征。

  • 作用

    • 降低数据维度,减少计算量

    • 提高模型的泛化能力

    • 让模型更容易捕捉数据的内在模式

  • 方法类型

    1. 人工特征工程:基于领域知识手动构造特征(如天气数据中的日照时长、温差等)

    2. 自动特征提取:用算法(如PCA、CNN、AutoEncoder)自动学习特征

☀ 光伏发电预测中的特征提取思路

光伏发电功率受气象条件 + 设备状态 + 时间因素等多种变量影响,因此特征提取要覆盖这几类信息。

1. 气象类特征

  • 太阳辐照度(水平面、倾斜面)

  • 温度(环境温度、组件背板温度)

  • 风速、风向

  • 湿度、气压

  • 云量、能见度

这些特征可直接来自气象站或数值天气预报(NWP)数据。

2. 时间类特征

  • 年、月、日、小时、分钟

  • 一天中的太阳高度角、方位角

  • 季节性周期(如夏季日照长、冬季短)

3. 历史功率特征

  • 过去一段时间的发电功率序列(如过去 15 分钟、1 小时、1 天)

  • 滑动窗口统计值(均值、最大值、最小值、变化率)

4. 设备状态特征

  • 组件效率衰减系数

  • 逆变器效率

  • 维护/故障标记

🛠 常用特征提取方法(光伏预测场景)

方法 适用场景 优点 示例
PCA(主成分分析) 高维气象数据降维 去冗余、保留主要信息 将多种辐照度指标压缩成1-2个主成分
CNN 卷积神经网络 提取空间特征 自动学习局部模式 从多通道气象数据中提取空间相关性
LSTM / BiLSTM 提取时间依赖特征 适合时序预测 捕捉功率随时间变化的趋势
多特征融合 综合多种特征 提高预测精度 倾斜面辐照度 + 温度特征 + 时序特征
特征选择算法 去掉无关特征 提高效率 互信息、递归特征消除(RFE)

📌 光伏预测特征提取的一个典型流程

  1. 数据收集:历史功率 + 气象数据 + 设备参数

  2. 数据清洗:去除缺失值、异常值

  3. 特征构造

    • 计算倾斜面辐照度(基于太阳位置模型)

    • 生成时间周期特征(正弦/余弦编码)

    • 计算历史功率的滑动窗口统计值

  4. 特征选择/降维:用PCA、相关系数、特征重要性排序等方法

  5. 输入模型:CNN-LSTM、XGBoost-LSTM等混合模型常用于光伏预测

参考:

1​ blog.csdn.nethttps://blog.csdn.net/2301_77509548/article/details/140928584  2 www.hanspub.orghttps://www.hanspub.org/journal/paperinformation?paperid=101379
3​ www.opticsjournal.nethttps://www.opticsjournal.net/Articles/OJd9203fa4910a8b9e/Abstract

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐