城市轨道交通高峰时段客流协调控制的强化学习方法

1.文章信息《Reinforcement learning approach for coordinated passenger inflow control of urban rail transit in peak hours》是2018年发表在Transportation Research Part C上的一篇文章。2.摘要在高峰时段，当城市轨道交通有限的运输能力不...

当交通遇上机器学习

3080人浏览 · 2022-07-25 19:42:10

当交通遇上机器学习 · 2022-07-25 19:42:10 发布

1.文章信息

《Reinforcement learning approach for coordinated passenger inflow control of urban rail transit in peak hours》是2018年发表在Transportation Research Part C上的一篇文章。

2.摘要

在高峰时段，当城市轨道交通有限的运输能力不足以满足出行需求时，站台候车的乘客密度可能超过站台临界密度。需要采用客流协调控制策略，调整进站客流量，缓解拥挤的地铁站的部分需求压力，以保证这些地铁站的运行效率和所有旅客的安全。然而，这种策略通常是由每个车站的运营人员根据他们的实际工作经验制定的。因此，并不总是能够做出最佳策略/决策，有时甚至是非常不可取的，因为它们无法解释整个轨道交通网络中所有地铁站的动态表现。本文提出了一种新的基于强化学习的方法，以最小化地铁站内乘客的安全风险为目标，来优化地铁站内某段时间的进站客流量。介绍了强化学习的基本原理和基本组成部分，以及基于强化学习的问题专用算法。为了验证该方法的有效性，在上海某地铁线路上进行了仿真实验。仿真结果表明，基于强化学习的进站客流控制策略能够有效降低乘客滞留的频率，降低安全风险。此外，该策略还有助于缓解某些车站的乘客拥挤。

3.引言

随着中国城市轨道交通的快速发展，有限的运力已不能满足日益增长的出行需求，尤其是在高峰时段。当列车在高峰时间到达时，大量人在站台聚集而无法上车是很常见的。特别地，如果站台候车的乘客密度超过了站台的临界密度，将对保证乘客的安全和高效的日常运营带来极大的挑战。

增加运力是一种直接简单的解决方法。然而，由于潜在的长期的施工时间、预算限制、通行权限制、运营和安全限制，包括线路容量，以及最大可能的车辆数量等，在现实中并不总是可行的。在这种情况下，进站客流控制可能是一种有效的短期措施，既可确保运营效率和安全，又可减轻车站的压力。通过在地铁站外设置栏杆、关闭部分自动售票机(TVM)或入口大门、关闭部分入口，可以有效限制一定时间内进入地铁站的乘客速度和流量，从而控制单位时间内在站台等候的乘客数量。事实上，这些进站客流控制的措施已经在北京、上海、广州等中国主要城市的地铁线路日常运营中实施(见表1)。遗憾的是，目前的这些控制策略往往是根据各站运营人员的工程判断和主观工作经验制定的，没有借助任何数学规划和科学方法，导致在整体和动态性能方面可能存在不足。

为了维护所有乘客的安全，进站客流协调控制是非常必要的，这种控制策略通常需要对需求流的动态表现做出快速反应。本文提出了一种基于强化学习的新方法，具体来说就是Q-learning。强化学习算法通过模拟乘客与列车之间的交互作用，自动学习何时、在哪个车站实施进站控制，以及每个控制车站的最优控制率(以单位时间为单位)，以最小化单线地铁站的安全风险为目标。强化学习作为控制理论中解决复杂序列决策问题的有力工具，能够对网络环境的动态变化做出快速响应，已成功应用于解决高速公路交通流控制优化等类似问题。

本文的主要贡献可归纳如下：

1. 本文利用站台等候人数、乘客滞留频率等关键指标的实时数据，对安全风险进行评估。一方面，更多的人在站台等候当然会带来巨大的挑战，同时也增加把部分乘客推下站台的可能性，及/或在站台过于拥挤的情况下踩到可能跌倒的乘客的可能性，对站台的安全构成重大风险。另一方面，更高频率的乘客滞留会导致乘客更加焦虑和不耐烦，尤其是在早高峰时间，他们中的许多人可能会强行/冲进列车(因此导致车门打开，造成列车发车的严重延误)，有时甚至可能导致严重的事故。因此，本文采用站台等候人数和乘客滞留频率对安全风险进行评估。

2. 考虑实时的乘客出行链和状态，以乘客滞留在整条地铁线路上的惩罚值最小为目标，建立了进站客流协调控制模型。乘客和列车之间的相互作用允许分别对其可用能力进行定量评估。该方法可用于动态旅客需求下各车站乘客进站率的识别。

3. 本文所建立的强化学习模型可以用于制定策略，决定何时、在哪个车站实施进站客流控制和相应的控制率，以确保整个地铁线路的安全。

4.问题描述

当城市轨道交通的旅客需求量超过运输能力时，就会出现乘客拥挤问题。因此，当等待的乘客数量超过到达列车的运力时，无法上车的乘客就会被滞留在站台上，等待的乘客数量会进一步增加。如果他们没有赶上下一趟列车，他们将会被困两次。如果有部分乘客被滞留在一个车站超过两次，这将导致等待时间延长，可能会造成严重的问题。正如引言部分所述，增加运力并不总是可行的解决办法，因此应采取其他措施，例如控制某些车站的进站流量，以缓解这类乘客拥挤的问题。图1描述了通过在地铁站外设置栏杆和关闭部分出入口来控制乘客进站对保持车站内乘客秩序的影响。

必须注意的是，不应只把一个车站的客流拥挤问题归咎于客流本身的流量。事实上，对于一条地铁线路而言，即使其本身的进站流量很小，但在上游车站迅速达到列车运力时，也会发生拥堵。为了说明目的，本文设计了一个假设的案例，并用于表明进站客流协调控制的重要性。如图2(a)所示，由于B站进站量较大，列车运力被B站等待的乘客完全占据。如果在下游的C、D、E站没有乘客下车，在C、D、E站等待的乘客将无法上车，导致这三个站乘客上车时间延长，出现拥挤现象。为了缓解拥堵，需要控制B站的进站量，将列车的运力留给下游车站的乘客，否则下游车站的乘客就会遭受拥堵，这就是所谓的进站客流协调控制。如图2(b)所示，进站客流协调控制可以极大地帮助平衡列车运力利用，提高运行可靠性。

本文针对单条地铁线路制定协调的客流控制策略问题进行可视化如图3所示。为了解决完全过饱和状态下的拥堵问题，在这条地铁线路沿线受控车站的相关原有站台上增加了一个虚拟站台(图3(b)中名为“Outside”)。当需求量超过运输能力时，应在特定车站采取具体的控制措施。通过该方法，到达上述车站的乘客应先在站外等候，然后根据进站控制率和到达顺序进入站台。也就是说，进站控制率决定了一定时间内的进站控制量，它代表了禁止进站在外等候的人。

上海地铁6号线早高峰时段旅客需求量及其特征如图4所示(数据来自自动刷卡(AFC))，大量乘客从郊区出发，前往市中心目的地，导致单条地铁线路某一方向的客流量较大。图4(a)为上、下方向不同车站进站容量，图4(b)为上、下方向不同断面负荷比。由此可知，地铁线路上行流量较大，上行(即向市中心方向)进站流量较大的车站应制定控制策略。在这种情况下，双向到达管制车站的乘客均被限制进入站台。然而，由于下行车站的进站容量远小于相反方向，客流控制对下行方向乘客并没有较好的效果。

进站客流协调控制策略旨在通过缓解站台拥堵，防止乘客多次滞留，并将相关安全风险(如前所述)降至最低。因此，可以根据站台等候人数和滞留频次来评估进站客流协调控制策略。因此，本文要解决的问题是如何设计一条由多个车站组成的地铁线路的最佳进站客流协调控制策略。更具体地说，必须优化决策，包括何时和在哪个车站采取控制措施，以及每个控制站的最优控制率(以单位时间衡量)是多少。

5.数学模型

集合和参数

对于j乘客而言，其从进站到离开目的站台之间形成的行程链如图5所示。

根据乘客j在某一站的到达和离开过程，确定了六个关键时间点(T_i,j^A到T_i,j^F)和乘客的三种不同状态(即在始发站外等待、在始发站站台等待和留在列车上)。每个时间点的乘客和乘客状态结合起来表征了车站装载能力、站台装载能力、每个状态下的累计乘客数量、列车可用容量、列车时刻表和每个车站的进站客流控制策略。值得注意的是，与给定的进站乘客总需求不同，本文的模型可以考虑乘客个体层面的需求，并将这种需求与列车容量匹配。也就是说，本文的模型通过跟踪乘客出行时间链和每个状态下统计的累计乘客人数来表示乘客与服务设施之间的交互作用。

为方便模型表达，相关集合及参数列于表2。

变量

本文使用的变量如表3所示。

目标函数

城市轨道交通进站客流协调控制的目标是使乘客滞留在整条地铁线路上的惩罚值最小。目标函数如式(1)所示：

约束

公式(3)定义了乘客j的滞留次数d_j，并将其与T_i,j^G到T_j,k^D之间的时间段内列车离开出发地站台p_j^O的次数联系起来。约束(4)-(6)分别表示乘客j到达出发地站台、上车和下车的时间。这些时间点可以用来推断乘客j的出发站s_j^O与目的地站台p_j^D之间的行程链。约束(7)-(10)表示不同的乘客状态，分别对应乘客进入出发站前的等待时间、在目的地站台的等待时间、到达目的地站台p_j^D前在列车的剩余时间。约束(11)、(12)表示时刻t在站台i等候的累计乘客人数，同时保证站台上乘客的安全。约束(13)、(14)规定了列车上剩余的累计乘客人数，其数值不应超过列车的最大载客量。在约束(15)-(17)中，确定时间步n时刻车站i的进站客流控制率。

6.进站客流协调控制的强化学习方法

为了解决强化学习的问题，以下小节提供了进站客流协调控制强化学习方法的原理和基本组成部分，包括环境及其状态、行动集、奖励函数和算法。

强化学习

作为机器学习的一个重要分支，强化学习是一种学习做什么以及如何将情境映射到行动，从而最大化数值奖励信号的方法。更具体地说，在强化学习中，智能体的目标是通过与动态环境的试错交互，找到一种最优控制策略，使期望奖励最大化。在学习过程中，智能体观察环境的状态，并决定一个动作。在执行动作后，环境将其状态转换到后续状态，并将动作引起的奖励或惩罚给予智能体。价值函数也会相应更新。奖励或惩罚表明所选择的行动的质量，即关于它是否在短期内是好的，而价值函数则指明了从长期来看什么是好的。智能体的目标是通过学习一种从感知状态映射到行动的良好策略来最大化这种长期奖励。

图6描述了本文针对协调流入客流控制的特殊情况下，强化学习中智能体与环境的相互作用。智能体对应于单个地铁线路上的每个站点，对不同的进站流量控制率进行决策和执行行动，而环境是每个站点的乘客需求条件。环境是被动的，因为所有关于改变其状态的动作的决策都将来自智能体。执行该行动后给予各车站的奖励与进站客流控制所带来的等待时间的延长成反比。

Q-learning是一种典型的强化学习方法，用于智能体学习如何在受控马尔可夫域中最优行动。在Q-learning算法中，Q值表示智能体在当前状态下执行动作的期望效用。智能体希望选择效用值即Q值最大的动作。特定动作和状态的Q值函数根据在当前状态下执行动作后来自环境的奖励进行更新。对于每一站i，在学习过程开始时，Q值初始化为0。然后利用公式(18)和(19)给出的Q-learning更新规则更新Q值：

其中，是学习率，是折扣率，是在状态s_n下执行动作a_v后给予车站i的奖励，和是车站i相应状态和动作的Q函数值。

在Q-learning中，智能体需要通过随机采取不同的动作来探索环境，以避免局部最优。但是，它也需要选择Q值最高的动作来达到目标。这个过程被称为探索与开发之间的平衡。为了保证探索与开发之间的良好平衡，提出了几种概率分布类型，常用的是Boltzmann分布，其表达式如下：

其中τ为用于控制探索程度的温度参数。在学习过程的开始，τ的值很大，因此可以随机选择动作(即智能体的探索)。随着学习的深入，τ的值随之减小，因此智能体总是选择具有最高Q值的动作来接近目标(即智能体的开发)。

环境和仿真

有三个主要因素影响进站客流协调控制策略。第一个要素是实时的乘客需求，包括单条地铁线路上O-D对的乘客需求、每个车站的进站需求和每个站台的等待乘客数量。第二个要素为列车组，其中每列车的特征是到达和离开时间以及到达每个车站时的可用容量。第三个要素关于车站，站台的容量特别重要。

在本文中，上述要素的设计和实现非常精确，以表示乘客和列车之间的交互和同一地铁线路上车站之间的协调。特别是，在实现环境模拟器时，为了确保较高的计算效率，同时仍然保证适当的模拟精度，做出以下假设。

首先，假设整个高峰期的原始客流需求不会因为进站客流控制而减少。第二个假设与列车有关。所有的列车都按照给定的时刻表运行，这意味着列车没有延误。第三，假设客流控制策略可以在单个地铁线路的任意车站实施。第四，假设从其他线路换乘来的乘客已经转换为进站乘客，换乘到其他线路的乘客也转换为出站乘客。最后一个假设是乘客遵循“先到先服务”的规则。

为了实现强化学习方法求解进站客流协调控制问题，基于上述假设建立了仿真平台。仿真器和强化学习算法在Microsoft Access和Visual Studio 2013环境下实现。

该模拟器可实现地铁单条线路上各站的集散过程。每个车站的集散过程通常包括三个子过程：到达、出发和上下车。在本文具体的问题领域背景下，将到达过程分为两步：第一步是乘客到达车站入口，第二步是到达站台。前一步需要进站乘客的到达分布及其对应的目的地作为模拟的输入。在AFC数据的帮助下，上述信息是已知的，并在关注期间固定。后一步与单位时间内进站量控制率有关。控制率为0时，乘客按第一步的到达分布到达站台。如果控制率大于0，被限制进入站台的人员应在外等候，根据下一时段控制率和上一时段在外等候的乘客的到达顺序进入站台。

上下车过程包括乘客和列车及其相互作用。因此，列车是一个重要的模拟对象。计划时刻表规定了列车在每个车站到达和离开的时间点以及在每个车站停留的时间，而最大载客量和车上的乘客人数决定了每个车站上车的乘客人数和滞留的乘客人数。

环境模拟器的这些基本对象可用于强化学习算法，通过环境状态进行进站客流协调控制，这将在以下小节中详细讨论。

状态描述

车站状态表征了某一时间点上单个地铁线路上每个车站的状态。假设在所谓的控制时间步长上改变每个站的进站量控制率。我们将tc定义为控制时间步长大小，在此基础上将整个仿真时间分为n个控制时间步长。例如，如果控制时间步长大小tc=15分钟，那么在模拟过程中，控制站的进站量控制率可能每15分钟改变一次。考虑到实际情况下的可操作性，控制时间步长不宜小于15分钟。

设s_n为控制时间步n的状态。对于进站客流控制问题，该状态表征了不同控制时间步内各车站客流需求的实时情况，定义为：

定义控制时间步长n时车站的原始进站量为D(n)。由于进站客流控制，一些n-1时到达车站的乘客可能需要在车站外等待，直到下一时间步n才允许进入车站。这些乘客的数量与D(n)之和为控制时间步n时车站当前的进站量，记为D'(n)。

动作集合

动作集合A包含了一条地铁线路上每个车站进站量的控制率。a_v∈A为每个控制时间步n所选择的动作，表示时间步n禁止乘客进入车站的百分比。考虑到实际情况下的可操作性，动作空间定义为：A ={0%，20%，40%，60%，80%，100%}。例如，可以假设在控制时间步n将有100人进入车站i。如果在时间步n站点i执行动作a2 = 20%，那么在时间步n允许进入车站的人数将减少到80人。因此，动作a1 = 0%表示没有人被禁止进入车站，而动作a6 = 100%表示不允许任何人进入车站。

奖励函数

奖励函数定义了强化学习问题的目标。本文的目标是将地铁车站的安全风险降到最低。由于乘客滞留频率是造成安全风险的主要因素，因此奖励函数与车站内外乘客被滞留的惩罚直接相关。车站i在状态s_n下执行动作a_v后的奖励定义为：

其中，是长期效率。

需要注意的是，奖励值由两部分组成。第一个元素表示在进站客流控制时间段内，车站i在状态s_n下采取动作a_v后的奖励值。第二个分量表示在车站i执行所有进站客流控制策略时的惩罚值。特别地，长期效率明确地解释了进站客流控制时段内滞留乘客对后续非控制时段客流的影响。需要注意的是，这种长期效率是由P_i,n^e和P_i,n^a共同决定的(即在时间步n进入和到达车站i的累计乘客数量)。

由于进站客流协调控制和有限的站台容量，将每个车站的乘客分为两种，如图3(b)所示，一种代表禁止进站，需要在车站外等候的乘客，另一种代表在站台等候的乘客。注意，对在车站等待的人的惩罚通过公式(23)进行量化：

式中β为放大系数，放大系数随滞留频率非线性指数型增加(即d_j，如公式(3)所示)，为被滞留在站台的时间长度。如果车站g在状态s_n执行动作a_v，则在车站外等待的惩罚为在车站g外额外等待的时间，定义为。例如，假设一个人在早上8点进入车站(根据AFC数据他/她到达车站的时刻)。但由于进站客流控制，他/她不得不在外面等候，最终于上午8点10分到达站台。那么该乘客在外停留的时间损失为10分钟。到达站台后，他/她未能登上8点12分发车的列车。也就是说，由于列车运力有限，他/她被困了两次，最后登上了早上8:18发车的列车。则惩罚为960e6(即)。

由于变量不仅与车站g的进站量有关，而且与上游车站占用的列车运力有关，因此，定义为车站i为车站g的惩罚所承担的惩罚比例。

强化学习算法

强化学习算法流程如下：

7.案例分析

在本文中，我们评估了强化学习方法在城市轨道交通进站客流协调控制中的应用和性能，并使用一个真实的例子加以说明。注意，该案例基于上海的地铁线路，即6号线。

仿真场景

2016年中期上海城市轨道交通网络拓扑结构由14条线路、366个车站组成，如图7所示。6号线(图7由红色标识)由28个车站组成，全长36.1 km。早高峰时段，港城路至东方体育中心方向出现客流拥挤。

为了得到列车上和站台上的乘客量，需要模拟早高峰时段的客流。因此，本实验选取了AFC系统提供的2016年3月3日95,850 O-D对的客流数据作为输入。最初的时刻表是2016年3月3日6号线的实际工作日运行时刻表。该时刻表名为622_1，由列车计划制定(TPM)软件编制，高峰时段平均间隔为140 s。每列列车的载客量设为1008，为每节列车载客量与列车编组数的乘积，用最大满载率调整最大载客量(即210×4×1.2 = 1008)。模拟时间范围定义为上午8:00至11:00，涵盖早高峰时段。该模拟是在Visual Studio 2013上实现的，在64位Windows 8环境下，在Intel Core i5-3470 M CPU 3.20 GHz和8GB RAM的个人计算机上运行。

此外，还采用以下参数:φ= 1.4,θ= 0.8,α= 0.1,γ= 0.7, tE = 2 min, tc= 15 min, A ={0%，20%，40%，60%，80%，100%}和100个训练集。为了更好地评价强化学习的性能，本文实验设计了5次运行，每次运行100个训练集。注意，每次运行都使用不同的随机生成器种子。100个训练集的平均计算时间为50秒。注意，进站客流协调控制问题本质上是一个大规模非线性组合优化问题。我们可以很容易地从这个简单案例研究的解空间中看出。6号线有28个车站，3 h内3×60/15 = 12个决策区间，每个车站每个区间有6个潜在动作。因此，空间由(6^12)^28 = 2.8762 * 10^261个可能解组成。因此，无法找到全局最优解，利用强化学习方法解决城市轨道交通高峰时段进站客流协调控制是有充分理由的。

结果分析

如前所述，实验共运行5次，每次运行100次训练。每次训练的结果是一个改进的进站控制策略，其中进站控制策略的质量有望提高，乘客被滞留的惩罚有望减少。所有训练集合在一起进行一次学习运行，在这个学习运行中，智能体学习了对过饱和的单一地铁线路的进站控制策略。

图8描绘了第6.1节中仿真场景的学习曲线：标记为“FC_RL_avg”的红色虚线是拟合曲线，表示在不同的随机种子值下进行5次学习得到的5条学习曲线的平均趋势，标记为“RL_stDev”的实线对应的是标准差。学习曲线表明进站控制策略随着训练次数的增加而改善，这意味着智能体(车站)学习到的执行策略导致总损失降低。我们还可以看到，5次运行的标准差随着训练次数的增加而降低，这是由于随着学习的加深，探索率(即随机选择动作)降低。

（1）进站控制策略

通过强化学习，确定地铁6号线进站控制策略，包括控制车站、进站控制率和控制策略实施次数，如表4所示。需要注意的是，对于表4中没有列出的6号线的所有其他车站，建议不要采取进站控制策略。

值得注意的是，通过强化学习获得的策略不同于通过运营人员的主观工作经验制定的策略。后者的进站控制率通常是主观的，而且不充分。实际情况中，6号线控制站包括东靖路、巨峰路、五莲路、博兴路、金桥路、德平路，采取控制策略的时间为7:20-8:40。与实际应用的进站控制策略相比，通过强化学习方法得到的进站控制策略更加准确，具有更大的可操作性。控制站的数量从6个减少到5个，控制策略的持续时间也大大缩短。通过使用强化学习方法，可以很容易地量化进站控制率和相应的进站量，弥补了实际情况下进站控制率和相应的进站量的缺点，因为他们通常由于运营人员工作经验的次优性和不确定性是有效的。可以看出，采用强化学习方法得到的进站控制策略更加准确，具有更大的可操作性。

（2）乘客滞留车站的频率

乘客滞留的频率是评价通过强化学习获得的进站控制策略质量的性能指标之一。如前所述，如果多个乘客在一个车站滞留两次以上，就会造成严重的隐患。

滞留车站的乘客人数与表5中的非进站控制结果进行比较。在采取任何控制措施之前，一些乘客被两次以上滞留在民生路、北洋泾路、德平路等车站。采用强化学习方法得到的控制策略后(如表5所示)，乘客平均滞留次数减少到2次以下，滞留2次以上的乘客人数由189人大幅减少到5人。

（3）在站台等候的乘客人数

另一个用来评估进站控制策略的指标是在站台等候的乘客数量。图9为民生路、北洋泾路、德平路、金桥路4个重点站的进站控制策略效果的评价结果。由于列车运力被上游站点(包括东靖路站、巨峰路站、五莲路站和博兴路站)快速占用，这四个重点车站的候车人数超过了没有客流控制的站台的临界密度。

根据强化学习得到的控制策略，上游车站将在8:00-8:15时段采取控制措施。列车运力预留给上述四个有关车站，以便在这些车站候车的乘客上车，从而减少候车人数。考虑到这些车站的相对位置，在客流控制下，在8:14-8:24时段，等待乘客数量大幅减少，如图9(c) - (d)所示。由此可见，通过强化学习得到的进站控制策略对缓解6号线站台拥挤有很大的帮助，可以在实践中得到有效的应用。