深度强化学习demo1用深度强化学习自动炒股

用深度强化学习自动炒股。

SFUN

564人浏览 · 2023-12-03 22:28:09

SFUN · 2023-12-03 22:28:09 发布

一、目的

强化学习属于机器学习的一种，模型能从环境中获取奖励来训练，强化学习适用于决策问题。

学习深度强化学习主要是为完成工业数据压缩与传输项目建模后如何解，其次是练习代码，所以边实现demo边学习，demo1是从github上找的大佬写的，demo1的地址为：GitHub - wangshub/RL-Stock: 📈 如何用深度强化学习自动炒股用深度强化学习自动炒股

二、实现与要点

1.基础模型

2.模型细化

Environment:股票市场

State:当日开盘价、收盘价

Action:买入、持有、卖出

Reward:用当前的利润作为奖励函数

<St->At->Rt>-><St+1->At+1->Rt+1>->...

3.安装依赖包

(我使用Linux实现)注意要先建虚拟环境，然后使用requirements.txt

pip install -r requirements.txt

报错：依赖冲突，修改原依赖包中的这三项gast==0.2.2、tensorboard==1.15.0、tensorflow-estimator==1.15.1后安装完成。

4.数据集

1.下载

python get_stock_data.py

2.划分

3.预处理

部分特征的值，比如成交金额或者成交量，有可能百万、千万乃至更大，为了训练时网络收敛，观测的状态数据输入时，必须要进行归一化。

个人理解原作者归一化把特征值映射到[0，1]间，不是readme里面说的[-1,1]，具体做法：

self.df.loc[self.current_step, 'volume'] / MAX_VOLUME

这里MAX_VOLUME = 1000e8

5.训练

初始本金10000块，测试模拟股票操作20天，最终盈利约129

6.改进

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

【计算机视觉】Pixel逐像素分类&Mask掩码分类理解摘要

魔乐社区

计算机视觉（opencv）实战三十二——CascadeClassifier 人脸微笑检测（摄像头）

本文从原理到实现，详细介绍了基于 OpenCV Haar 分类器的人脸与微笑检测：讲解了 Haar 特征和级联检测原理。对代码逐行拆解并解释参数含义。画出完整流程图，帮助理解执行过程。给出了常见问题和优化建议，甚至扩展到深度学习方法。这种方法简单、轻量、实时性好，非常适合入门和小型应用项目。但如果需要更高准确率和更强鲁棒性，建议使用深度学习检测器替代 Haar 分类器。