近年来,强化学习(Reinforcement Learning, RL)与状态空间建模(State Space Models, SSMs)的融合正在重塑动态系统的感知与决策范式。从自动驾驶到海上自主导航,卡尔曼滤波(Kalman Filtering, KF)及其衍生技术(如扩展卡尔曼滤波EKF、无迹卡尔曼滤波UKF)与深度强化学习(DRL)的协同创新,正在突破传统模型驱动与数据驱动方法的边界。三篇前沿研究——KARNet、KalMamba和ASV数字孪生——共同揭示了这一交叉领域的三大趋势。

下面小图给大家拆解一下这三篇论文,满满干货,点赞收藏不迷路~

KARNet: Kalman Filter Augmented Recurrent Neural Network for Learning World Models in Autonomous Driving Tasks

方法:首先通过卷积自编码器将高维图像压缩为低维潜在向量,并引入误差状态扩展卡尔曼滤波精确估计车辆位姿;随后采用GRU网络建模潜在状态的时序演化,通过早期融合或晚期融合策略整合物理先验;最终冻结KARNet主干网络,通过模仿学习与强化学习训练分层控制器,将潜在状态映射为可执行的控制指令。

创新点:

  • 模型融合架构:首次将卡尔曼滤波(模型驱动)与端到端深度学习(数据驱动)结合,通过早期/晚期融合策略优化状态估计与动态预测。

  • 多模态训练框架:设计联合训练的AE-GRU-KF网络,同步学习图像潜在表征与车辆状态,增强时空一致性。

  • 跨模态性能验证:在仿真(CARLA)和真实数据(Udacity)中验证框架有效性,早期融合策略使驾驶任务完成率提升13.5%,碰撞率降低72%。

总结:这篇文章提出了一种创新的卡尔曼滤波增强循环神经网络(KARNet),用于自动驾驶任务中的世界模型学习,通过融合物理模型与数据驱动方法,显著提升了复杂动态环境下的预测与控制性能。

KalMamba: Towards Efficient Probabilistic State Space Models for RL under Uncertainty

方法:KalMamba首先通过Mamba编码器从高维观测中提取潜在动态参数,构建线性高斯状态空间模型;随后采用并行化卡尔曼平滑器计算紧致的变分下界,以精确建模长序列中的不确定性;最后通过SAC算法在滤波信念均值上训练策略,利用平滑阶段的参数无关性实现控制与模型训练的协同优化。

创新点:

  • 首次实现概率SSM的完全并行化:通过将卡尔曼滤波和平滑操作重构为可并行扫描的关联运算,突破了传统概率模型序列计算的瓶颈。

  • 动态参数学习的创新架构:利用Mamba骨干网络学习线性高斯SSM的动态参数,在保持概率解释性的同时实现与确定性模型相当的训练速度。

  • 紧耦合的滤波-平滑正则化机制:设计马氏距离约束使滤波信念与平滑信念强关联,解决了推理时未来观测不可用的策略学习难题。

总结:这篇文章提出了一种名为KalMamba的高效概率状态空间模型,巧妙地将卡尔曼滤波的鲁棒性与Mamba架构的并行计算优势相结合,解决了传统概率模型在长序列任务中计算效率低下与确定性模型在不确定性建模中表现不足的核心矛盾。

需要了解更多最新研究趋势的同学,欢迎来gongzhonghao【图灵学术计算机论文辅导】

DIGITAL TWIN OF AUTONOMOUS SURFACE VESSELS FOR SAFE MARITIME NAVIGATION ENABLED THROUGH PREDICTIVE MODELING AND REINFORCEMENT LEARNING

方法:首先开发了基于数值稳定椭圆拟合的LiDAR目标跟踪算法,结合卡尔曼滤波对AIS和合成LiDAR数据进行概率融合,显著降低了动态障碍物的预测不确定性;随后构建了NMPC驱动的PSF框架,通过优化问题求解生成安全控制指令,使RL代理在安全约束下学习最优策略;最终将上述模块集成至Unity引擎的DT中,通过实时数据流与3D可视化验证了系统在复杂场景下的可靠性与实时性

创新点:

  • 预测性目标跟踪:提出基于卡尔曼滤波的LiDAR-AIS传感器融合方法,通过椭圆拟合算法和概率分布加权,实现了动态障碍物位置与运动轨迹的高精度预测

  • 安全控制架构:设计非线性模型预测控制(NMPC)驱动的预测性安全过滤器(PSF),实时修正强化学习控制指令,确保路径规划始终满足安全距离约束

  • 字孪生能力扩展:首次在DT框架中集成预测(Level 3)与自主(Level 5)能力,通过Unity引擎实现多源数据(AIS、LiDAR、天气)的实时同步与可视化

总结:这篇文章构建了一个基于Unity游戏引擎的自主水面船舶数字孪生系统,通过强化学习与卡尔曼滤波融合技术,解决了海上自主导航中动态障碍物预测、安全控制决策和实时传感器数据融合的难题,显著提升了船舶的态势感知与避碰能力。

点击关注,快速拿捏更多计算机SCI/CCF发文资讯~

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐