24/12/5 算法笔记＜强化学习＞ doubleDQN,duelingDQN

我们前面了解了DQN网络的一些知识，然而DQN还有一些改进的方法，比如doubleDQN和duelingDQN,我们先来将一下doubleDQN和DQN.

青椒大仙KI11

1032人浏览 · 2024-12-05 21:49:17

青椒大仙KI11 · 2024-12-05 21:49:17 发布

我们前面了解了DQN网络的一些知识，然而DQN还有一些改进的方法，比如doubleDQN和duelingDQN,我们先来将一下doubleDQN和DQN.

先来对比一下

单一网络 vs. 双重网络

DQN:是一个深度神经网络来估计每个动作的Q值

DDQN:使用两个独立的深度神经网络：一个用于选择动作，一个用于评估动作的价值。这种设计有助于减少Q值的过估计问题。

过估计问题

DQN:由于网络同时负责选择动作和评估动作的价值，可能会导致Q值的过估计，即Q值被高估，这会影响学习稳定性和性能。

DDQN:通过分离选择和评估过程，降低了过低的可能性，因为目标网络不参与动作选择，从而提供一个更稳定的学习目标。

更新机制

DQN:在更新Q值时，直接使用当前网络的输出作为目标Q值。

DDQN:在更新Q值时，使用目标网络的输出作为Q值，而行为网络负责选择动作这种分离有助于提高学习过程的稳定性。

训练稳定性

DQN:由于过估计问题，训练过程中可能会遇到稳定性问题，尤其是在高维状态空间中。

DDQN:通过使用两个网络，通常能够提供更稳定的训练过程，因为它减少了Q值的波动。

应用场景

DQN:适用于状态空间不是特别高维或者问题相对简单的情况。

DDQN:更适合于复杂环境，特别是在需要更精确估计Q值的情况下，如机器人控制、游戏AI等领域。

通俗来讲DDQN就是使用了两个神经网络，一个选择动作，一个评估动作的价值。

这是DDQN的公式，它首先用行为网络选择下一个动作中最大Q值的那个动作，然后在用评估动作的网络评估出目标Q值，然后更新Q值表。

我们来看一下DDQN的代码：我们就看下区别的那部分

多了两个网络。

behavior_net = QNetwork(state_dim, action_dim)
target_net = QNetwork(state_dim, action_dim)

利用行为网络选择动作

def train(episodes):
    for episode in range(episodes):
        # 重置环境状态
        state = env.reset()
        done = False
        while not done:
            # 选择动作
            if random.random() < epsilon:
                action = env.action_space.sample()  # 随机探索
            else:
                action = behavior_net(torch.tensor(state, dtype=torch.float32)).max(0)[1].item()  # 利用行为网络选择动作

            # 执行动作，观察结果
            new_state, reward, done, _ = env.step(action)

            # 存储经验
            experience_replay_buffer.append((state, action, reward, new_state, done))

            # 移动到下一个状态

计算目标Q值和当前Q值。

 # 计算目标 Q 值
    with torch.no_grad():
        target_q_values = target_net(new_state).max(1)[0] * gamma * (1 - done) + reward

    # 计算当前 Q 值
    current_q_values = behavior_net(no_state).gather(1, action)

这些就是和DQN网络的区别，其实改动也不是很大。但是很好地解决了Q值过估计的问题。

然后看下duelingDQN

网络结构

DQN:使用一个深度神经网络来近似Q函数，网络的输出是每个可能动作的Q值

duelingDQN:在DQN的基础上引入了决斗机制，将状态值函数（V函数）和优势函数（A函数）分开估计。网络的输出包括状态值和每个动作的优势值。

目标Q值的计算

DQN:可能导致Q值的过估计

duelingDQN:目标Q值计算为 reward + gamma * (V(next_state) + A(next_state, action) - V(current_state))，这里 V(next_state) 是下一个状态的状态值，A(next_state, action) 是在下一个状态下采取某个动作的优势值。这种分解可以更稳定地估计Q值。

更新机制

DQN:Q值更新直接依赖于下一个状态的最大Q值，这可能导致训练过程中的不稳定性。

duelingDQN:Q值更新考虑了状态值和优势值的差，这有助于减少Q值的过估计，提高训练的稳定性。

优势函数

DQN:不显式地使用优势函数。

duelingDQN:明确地使用优势函数来表示在给定状态下某个动作相对于其他动作的相对优势。

应用场景

DQN:适用于状态和动作空间不是特别大的问题。

duelingDQN:由于其更稳定的Q值估计，Dueling DQN在处理高维状态空间和动作空间的问题时表现更好。

我们来看下duelingDQN区别的代码

创建值函数网络，和优势函数网络

self.V = nn.Linear(128, 1)  # Value stream
self.A = nn.Linear(128, n_actions)  # Advantage stream

前向传播时将优势函数减去其均值，以稳定训练。

def forward(self, x):
    # ...
    return V + (A - A.mean(dim=1, keepdim=True))  # Q = V + (A - mean(A))

总结：Dueling DQN算法的关键创新在于将状态值和优势分开估计，并通过减去优势函数的均值来计算Q值，这与传统DQN算法中直接输出每个动作的Q值是不同的。这种结构有助于提高学习效率和性能，尤其是在具有不同价值状态的情况下。

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

Pont - 搭建前后端之桥：高效、灵活的接口管理工具

Pont 是一款强大的数据服务层解决方案，它能够帮助开发者快速搭建前后端之间的桥梁，实现接口的高效管理和代码自动生成。无论是新手还是有经验的开发者，都能通过 Pont 轻松处理接口文档、生成类型安全的 API 代码，从而显著提升开发效率。[![Pont 工具标志](https://raw.gitcode.com/gh_mirrors/po/pont/raw/3f1b7d4bbba3fd2dda

魔乐社区

如何快速上手 hvac：HashiCorp Vault Python 客户端零基础入门指南

**hvac** 是 HashiCorp Vault 的 Python 3.X 客户端库，专为开发者提供简单高效的 Vault 交互方式。无论你是需要管理密钥、配置身份验证，还是实现安全的秘密数据存储，hvac 都能帮助你轻松搞定 Vault 的各项操作。本文将带你零基础快速入门，从安装到基础操作，让你在几分钟内即可上手使用这个强大的工具。[![hvac 客户端 Logo](https://r

魔乐社区

提升Angular2-HN性能的7个实用技巧：让新闻加载速度飞起来

Angular2-HN是一款基于Angular构建的Progressive Hacker News客户端，专为追求高效新闻浏览体验的用户设计。本文将分享7个实用技巧，帮助你优化Angular2-HN的性能，让新闻加载速度显著提升，带来更流畅的阅读体验。## 1. 启用Service Worker缓存关键资源Service Worker是提升Angular应用性能的强大工具，它可以在后台缓存