《强化学习》中的第15章：神经科学

本次笔记对《强化学习（第二版）》第十五章进行概括性描述。

枇杷鹭

661人浏览 · 2020-04-12 19:27:33

枇杷鹭 · 2020-04-12 19:27:33 发布

前言：本次笔记对《强化学习（第二版）》第十五章进行概括性描述。

本次笔记内容依旧很少。神经科学是拓展部分，书上已经尽量将所举例子语言简化。

小结

大脑收益系统相关的神经通路很复杂，且没有被人类完全理解。但发展与成果是有的：

多巴胺神经活动的收益预测误差假说：一群科学家认识到了 TD 误差行为与产生多巴胺的神经元活动之间的惊人之处；
大脑实现了一个类似于“行动器-评判器”算法的东西，这是另一个重要的假说。行动器与评判器使用了不同的资格迹，且这是他们的唯一区别；
多智能体：多巴胺系统的显著特征是释放多巴胺的神经纤维可以广泛地投射到大脑的多个部分…强化学习智能体集合中的每个智能体都会收到相同的强化信号，这个信号取决于所有成员或团队的活动。如果每个团队的成员使用一个足够有效的学习算法，则即使团队成员之间没有直接交流，团队也可以集体学习，以提高整个团队的绩效，并按照全局广播的强化信号进行评估。

后话：依旧是这个问题，我现在时间比较紧张，急于将《强化学习》这本书读完；且现在没有到达能研究心理学与神经科学的高度，因此对于第14、15章采取了略读策略。个人认为这些理论固然重要，且有启发性，但其理论深度甚至已经超出了数学的范畴，即过于偏重理论。笔者会关注这些问题与新闻，希望其能为笔者的工程问题带来启发。

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

全家桶集齐！Qwen3.5四款小模型上线魔乐社区，附昇腾全套实践教程

魔乐社区

Pont - 搭建前后端之桥：高效、灵活的接口管理工具

Pont 是一款强大的数据服务层解决方案，它能够帮助开发者快速搭建前后端之间的桥梁，实现接口的高效管理和代码自动生成。无论是新手还是有经验的开发者，都能通过 Pont 轻松处理接口文档、生成类型安全的 API 代码，从而显著提升开发效率。[![Pont 工具标志](https://raw.gitcode.com/gh_mirrors/po/pont/raw/3f1b7d4bbba3fd2dda