近日,大连理工大学都牧副教授应邀为我院师生作了题为“边学习边优化:一种面向混合可观测马尔可夫决策过程的迁移强化学习方法”的学术报告。都牧系统介绍了马尔可夫决策过程(MDP)与部分可观测马尔可夫决策过程(POMDP)在动态系统中的应用,特别是在医疗应急管理实践中面临的实际挑战。都牧同时提出一种迁移强化学习方法,将迁移学习应用于在线系统的重新辨识与优化问题,并进一步探讨了超参数问题的应对策略以及迁移强化学习在应对复杂问题中的潜力。

报告结束后,都牧与在场师生进行了交流,深入探讨了科学研究中问题导向与方法创新导向的关系,以及数据驱动的决策方法、在线学习与优化决策等多个专业议题,并就高水平论文发表的学科交叉性、选题策略、数据支撑要求等方面为师生提供了针对性指导。

本次围绕高水平论文的研究内容开展的讲座不仅拓宽了与会师生的学术视野,也激发了大家在相关研究领域的创新思维,帮助大家积累了高质量的研究方向与实践方法。
都牧,大连理工大学经济管理学院副教授。大连理工大学数学与应用数学专业学士、管理科学与工程专业博士,美国普渡大学联合培养博士,东南大学博士后。长期致力于研究数据驱动的智能决策方法,融合大数据、人工智能技术和运筹优化理论方法,解决复杂不确定动态系统的在线建模和优化问题,研究领域包括:共享数据驱动的无人车在线调度、疾病精准查与干预决策。研究成果曾在INFORMS Journal on Computing(UTD24)等领域内国内外顶级学术期刊上发表。
初审:黄敏芳
复审:王 辉
审核:孙华昕