《强化学习》中的第15章:神经科学
本次笔记对《强化学习(第二版)》第十五章进行概括性描述。
·
前言: 本次笔记对《强化学习(第二版)》第十五章进行概括性描述。
本次笔记内容依旧很少。神经科学是拓展部分,书上已经尽量将所举例子语言简化。
小结
大脑收益系统相关的神经通路很复杂,且没有被人类完全理解。但发展与成果是有的:
- 多巴胺神经活动的收益预测误差假说:一群科学家认识到了 TD 误差行为与产生多巴胺的神经元活动之间的惊人之处;
- 大脑实现了一个类似于“行动器-评判器”算法的东西,这是另一个重要的假说。行动器与评判器使用了不同的资格迹,且这是他们的唯一区别;
- 多智能体:多巴胺系统的显著特征是释放多巴胺的神经纤维可以广泛地投射到大脑的多个部分…强化学习智能体集合中的每个智能体都会收到相同的强化信号,这个信号取决于所有成员或团队的活动。如果每个团队的成员使用一个足够有效的学习算法,则即使团队成员之间没有直接交流,团队也可以集体学习,以提高整个团队的绩效,并按照全局广播的强化信号进行评估。
后话:依旧是这个问题,我现在时间比较紧张,急于将《强化学习》这本书读完;且现在没有到达能研究心理学与神经科学的高度,因此对于第14、15章采取了略读策略。个人认为这些理论固然重要,且有启发性,但其理论深度甚至已经超出了数学的范畴,即过于偏重理论。笔者会关注这些问题与新闻,希望其能为笔者的工程问题带来启发。
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐


所有评论(0)