方乐恒, 侯嘉文, 来俊杰, 靳祯, 姚烨, 何纳, 甘中学, 林伟
自2019年12月以来,由新型冠状病毒(COVID-19)引发的传染性疾病已经严重影响了全球公共卫生安全,阻碍了世界经济的发展.科学界对该传染病传播规律的研究仍在紧张进行,基于仓室进行疫情传播动力学建模的研究给出很多有价值的结果,但也有一定的局限性,主要表现在无法直接描述复杂的真实地理对象(如路网、火车站、医院设置等)对于模拟对象具体行为的影响,也不能直接考虑真实可通行区域、地形开阔程度等对计算仿真结果的影响.为此,我们引入人工智能强化学习领域对相关问题的解决思路——将实现真实地图模拟涉及的各种对象和机制制作成一个可交互的复杂环境,模拟个体无需获取该环境的所有信息,只需与环境交互便能获取自身状态的更新.如此遍历个体并迭代模拟步数即可完成基于可计算模型的仿真.我们提出这一计算模型框架的优势主要表现为:(1)能对难以用传统动力学方程组化的复杂真实环境进行充分细致刻画并给出高效率可交互的框架;(2)后续还可以进一步引入个体奖励函数构成有限马尔可夫决策过程,在没有环境所有信息的情况下,便可以进行诸如最优个体行动策略的训练,这是即使获知环境所有方程组及状态转移概率分布也难以高效求解最优策略的传统动态规划算法所无法替代的,也是使用最前沿深度强化学习算法的基础.本文建立了这样的个体与复杂环境交互模型,通过设置一个包含城市路网和可通行区域、迁入地点及收治医院等要素的真实场景,分别模拟了无干预手段和有干预手段下的COVID-19疫情发展进程,计算了公共卫生领域关心的动态参数,充分拓展了传统动力学模型所能计算模拟的场景,也为下一步针对疫情传播精细化设计和实施智能防控策略建立了可计算的框架基础.