2024年第一季度论文成果分享--城市计算、生物医学大数据
中国科学院深圳先进技术研究院先进计算与数字工程研究所(以下简称“数字所”)为先进院的核心研究单元之一,致力于面向计算机科学和人工智能技术与应用快速发展趋势,构建国际一流的科研团队和平台,在数据智能领域从基础到应用层面做出原创性、前瞻性的重大贡献,培养高层次及科技研发人才,服务粤港澳大湾区建设世界一流科创中心。
本汇编分享数字所近期在城市计算领域、生物医学大数据领域的最新科研进展。
一、城市计算 1、地表温度非线性时空融合超分辨模型
数字所空间信息研究中心陈劲松团队提出“非线性时空融合超分辨”模型,通过神经网络对现有时空融合模型中的线性解混和权重方程进行替代,解决了现有模型在混合像元非线性解混精度低和模型易受噪声干扰的问题,实现了地表温度监测产品从每日1公里尺度降到每日30米尺度。通过与经典模型进行对比,该模型在多时项超分辨精度、模型抗噪性能方面表现优异。
该成果全文信息:
Shanxin Guo, Min Li, Yuanqing Li, Jinsong Chen, Hankui Zhang, Luyi Sun, Jingwen Wang, Ruxin Wang, Yan Yang. The Improved U-STFM : A Deep Learning-Based Nonlinear Spatial-Temporal Fusion Model for Land Surface Temperature Downscaling. Remote Sensing, 2024.(Q2,IF:5.0)
2、耦合机器学习与机理模型的人类时空轨迹生成方法
数字所高性能中心刘康团队提出一种个体时空轨迹生成方法—Act2Loc (Activity to Location)。该方法根据人类轨迹特点,适应性结合并发挥了机器学习和机理模型的各自优势,使得模型兼具较高的真实度和可解释性。Act2Loc可基于易获取的小样本个体活动序列和人口分布,生成给定数量的合成轨迹,方法训练成本低且易于迁移应用。所生成的合成轨迹数据可直接规避真实数据存在的隐私安全问题及数据质量缺陷,为智能交通、公共安全、疫情模拟控制等领域的研究及现实应用提供重要支持。
Act2Loc轨迹生成方法框架
该成果全文信息:
Kang Liu*, Xin Jin, Shifen Cheng, Song Gao, Ling Yin, Feng Lu. Act2Loc: a synthetic trajectory generation method by combining machine learning and mechanistic models. International Journal of Geographical Information Science, 2023. (Q1, IF=5.7)
3、考虑累积干燥状态信息的森林火灾风险预警建模新思路
数字所空间信息中心陈劲松研究员团队面向当前森林火灾风险预警建模中样本集及特征集代表性不足问题,首先提出了基于空间-湿度约束的负样本采样方法,然后基于降水限制建立了基于动态时间窗口的环境因子提取方法,以获取森林累积干燥状态的空间异质性信息。基于RF、SVM和MLP三种ML算法验证了上述方法在提高模型预测性能方面的有效性和鲁棒性,RF模型表现最佳。研究成果对于提高森林火灾预警精度、指导林火防控具有重要的实用价值。
该成果全文信息:
Zhao Longlong, Ge Yuankai, Guo Shanxin, Li Hongzhong, Li Xiaoli, Sun Luyi, Chen Jinsong*. Forest fire susceptibility mapping based on precipitation-constrained cumulative dryness status information in Southeast China: A novel machine learning modeling approach. Forest Ecology and Management.2024 (Q1,IF=3.7,林学TOP)
二、生物医学大数据 4、便秘与抑郁关系的前瞻性研究成果
生物医学信息技术研究中心研究团队通过基于大型人群队列数据的研究。采用Cox比例风险回归模型和Logistic回归模型进行预测,前瞻性地探讨了便秘与抑郁的关系。研究发现,早期便秘表现出2.28倍增加后续抑郁的发病风险, 揭示了便秘和抑郁之间的前瞻性关联。研究结果强调了早期关注便秘与抑郁之间关系的重要性,并为更深入地理解脑-肠轴相互作用提供了基础。这一成果为早期基于症状的抑郁筛查提供了新的思路。
该成果全文信息:
Qingping Yun, Shiyu Wang, Shanquan Chen, Hao Luo, Bingyu Li, Paul Yip, Xin Yu, Zhirong Yang, Feng Sha, Jinling Tang. Constipation preceding depression: a population-based cohort study. EClinicalMedicine. 2024;67:102371. (IF= 15.1)
5、个性化血流动力学基于深度神经网络的新型并行求解算法
工程与科学计算中心陈荣亮团队提出了一种求解个性化血流动力学方程的并行深度神经网络算法。团队结合并行区域分解方法和深度神经网络方法,将整体问题分解成若干个子区域问题,然后对每个子区域问题采用单独的神经网络进行并行训练,并通过在子区域的界面处强制额外的连续性条件将它们进行无缝连接形成整体问题的一个近似,最后通过迭代的方式逐渐逼近整体问题的真实解。该新算法引入了动态权重方法和结合注意力机制的新型神经网络架构,有效缓解了深度神经网络算法中常见的梯度病态问题。该方法不仅实现了子区域网络的并行训练,提高了计算效率,而且还一定程度上提高了神经网络的准确性。团队将该算法成功应用到了三维复杂血流动力学的模拟仿真中,且实验结果显示该算法具有很好的准确性和鲁棒性,有望为面向心脑血管疾病临床诊疗的血流动力学研究提供一套新型高效工具。
深度神经网络算法框架
真实血流动力学模拟结果
该成果全文信息:
Linyan Gu, Shanlin Qin, Lei Xu, and Ronglaing Chen, Physics-informed neural networks with domain decomposition for the incompressible Navier–Stokes equations, Physics of Fluids, 36: 021914, 2024. (Q1, IF=4.6)
6、基于结构化数据的统一文本生成预训练模型
数字所高性能数据挖掘实验室杨敏团队提出一种基于结构化数据的统一文本生成预训练模型(记作UniD2T),将不同类型的结构化数据(如表格、键值数据、知识图谱)统一为图格式,并设计一种结构增强(位置增强和注意力增强)的Transformer来有效地利用图结构信息,增强数据到文本生成任务的性能。UniD2T在表到文本生成、知识图谱到文本生成、键值数据到文本生成三大类数据到文本生成任务上取得领先性能。
该成果全文信息:
Linyan Gu, Shanlin Qin, Lei Xu, and Ronglaing Chen, Physics-informed neural networks with domain decomposition for the incompressible Navier–Stokes equations, Physics of Fluids, 36: 021914, 2024. (Q1, IF=4.6)
6、基于结构化数据的统一文本生成预训练模型
数字所高性能数据挖掘实验室杨敏团队提出一种基于结构化数据的统一文本生成预训练模型(记作UniD2T),将不同类型的结构化数据(如表格、键值数据、知识图谱)统一为图格式,并设计一种结构增强(位置增强和注意力增强)的Transformer来有效地利用图结构信息,增强数据到文本生成任务的性能。UniD2T在表到文本生成、知识图谱到文本生成、键值数据到文本生成三大类数据到文本生成任务上取得领先性能。
该成果全文信息:
Shujie Li, Liang Li, Ruiying Geng, Min Yang, Binhua Li, Guanghu Yuan, Wanwei He, Shao Yuan, Can Ma, Fei Huang, Yongbin Li. Unifying Structured Data as Graph for Data-to-Text Pre-Training. Transactions of the Association for Computational Linguistics, 2024. (Q1. IF=10.9)