2024年第二季度科研进展分享--生成方法、算法框架

来源:发布时间:2024-08-01

  本汇编分享数字所2024年第二季度在人工智能算法与算力领域的最新论文成果与科研进展,目录如下:

  01. 文本生成物理性视频方法GPT4Motion

  02. 字体生成方法MSD-Font

  03. 合成人口生成方法EpiPopSynth

  04. 心理咨询新框架CPsyCoun

  05. 基于类关联嵌入的图像分类器解释框架

  一、生成方法

  1、文本生成物理性视频方法GPT4Motion

  多媒体研究中心陈世峰团队提出了一个无需训练的文本生成视频新框架——GPT4Motion。GPT4Motion荣获CVPR 2024 PBDL workshop最佳论文亚军,并且得到了来自机器之心、Huggingface Daily Papers 等多家科技媒体的广泛关注和宣传。GPT4Motion 结合了 GPT 等大型语言模型的规划能力、Blender 软件提供的高性能物理模拟能力,以及大型扩散模型的文生图能力,旨在从物理性上大幅提升视频生成的质量。实验结果证明GPT4Motion可以在多个物理场景上生成可控的、满足物理属性的、连贯的视频。

IMG_256

  GPT4Motion生成刚体运动(篮球掉落在地面)和布料运动(一件T-shirt被风吹)的结果图

IMG_256

  GPT4Motion的工作架构

  全文信息:Jiaxi Lv, Yi Huang, Mingfu Yan, Jiancheng Huang, Jianzhuang Liu, Yifan Liu, Yafei Wen, Xiaoxin Chen, Shifeng Chen; GPT4Motion: Scripting Physical Motions in Text-to-Video Generation via Blender-Oriented GPT Planning; Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) Workshops, 2024.

  2、字体生成方法MSD-Font

  多媒体研究中心提出了一种字体生成的新范式——基于扩散模型的多阶段文字生成方法。该方法针对字体生成模型面临的三大痛点(文字结构残缺、风格一致性差、图像细节失真),参考专业设计师的设计流程,构建了以文字结构生成、目标字体变换、文字细节精修为核心的三阶段字体生成过程。实验证明了该方法能有效地生成结构正确、风格一致、细节准确的目标字体,并且在评价指标上明显优于现有方法。

IMG_256

  MSD-Font方法示意图

  (a)该方法的正向过程;(b)该方法的迭代生成过程;(c)模型结构图。

IMG_256

  MSD-Font方法与现有方法的字体生成结果对比

  全文信息:Bin Fu, Fanghua Yu, Anran Liu, Zixuan Wang, Jie Wen, Junjun He, and Yu Qiao. Generate Like Experts: Multi-Stage Font Generation by Incorporating Font Transfer Process into Diffusion Models. IEEE/CVF Computer Vision and Pattern Recognition Conference(CVPR),2024.(CCF-A类会议)

  3、合成人口生成方法EpiPopSynth

  高性能计算研究中心尹凌团队提出了一种面向传染病精细化时空建模合成人口生成方法EpiPopSynth(Epidemic Population Synthesizer),在精确重构家庭代际关系以支持传染病多智能体建模方面表现出色。研究从全球15个人口数据集中观测到普遍的家庭结构幂律分布特性,以此为基础,构建基于启发式组合优化的人口合成方法,结合微观交通调查数据中捕捉的典型结构和宏观统计数据中的边缘属性分布,生成真实的人口结构及其家庭代际关系。以深圳市为例,构建了一个包含1700万个体的社区尺度空间显式合成人口,为高分辨率传染病时空建模提供数据基础。

IMG_256

  深圳市1700万合成人口生成效果

  (a)与各年龄段真实人口空间分布的对比;(b)以合成人口为载体的多智能体传染病传播模拟。

  全文信息:Kemin Zhu, Ling Yin, Kang Liu, Junli Liu, Yepeng Shi, Xuan Li, Hongyang Zou, Huibin Du. Generating synthetic population for simulating the spatiotemporal dynamics of epidemics. PLOS Computational Biology. 2024.(JCR一区,Top期刊)

  二、算法框架

  4、心理咨询新框架CPsyCoun

  数据挖掘实验室杨敏团队提出了首个基于中国心理咨询报告的多轮对话重构与评测框架 CPsyCoun。相较传统咨询录音或Q&A问答,心理咨询报告的专业性更强且更具隐私性。为了充分利用心理咨询报告,团队设计了咨询师-督导师两阶段对话重构方法Memo2Demo来构建高质量的多轮对话; 同时,为了填补多轮咨询对话自动评测的研究空白,团队开发了一个全面的评测基准来有效地自动评估多轮心理咨询。实验结果充分证明了CPsyCoun框架在心理咨询领域的有效性。

IMG_256

  CPsyCoun框架

  全文信息:Chenhao Zhang, Renhao Li, Minghuan Tan, Min Yang, Jingwei Zhu, Di Yang, Jiahao Zhao, Guancheng Ye, Chengming Li, Xiping Hu. CPsyCoun: A Report-based Multi-turn Dialogue Reconstruction and Evaluation Framework for Chinese Psychological Counseling. The Annual Meeting of the Association for Computational Linguistics(ACL),2024.(CCF-A类会议)

  5、基于类关联嵌入的图像分类器解释框架

  生物医学信息中心蔡云鹏团队提出了一种精准的图像分类器解释算法。通过提出一种新的类关联嵌入框架和一种构建块相干特征提取训练方法,将图像数据集类别无关与类别相关的信息分离开来,在低维流形空间准确描述人工智能模型的分类规律,进一步通过反事实生成,基于同一个背景样本,沿着符合规则的类迁移路径,虚拟生成不同分类对应的影像特征,来解释AI模型进行分类的依据。该方法同时提升了全局规律解释和个体案例解释的准确性。

IMG_256

  (a) 类关联嵌入框架。(b)基于随机配对交换类关联编码的构建块相干特征提取训练方法。(c)解释图像分类器AI模型的步骤。

  全文信息:Ruitao Xie, Jingbang Chen, Limai Jiang, Rui Xiao, Yi Pan, Yunpeng Cai. Accurate Explanation Model for Image Classifiers using Class Association Embedding, IEEE 40th International Conference on Data Engineering (ICDE 2024). 2024. (CCF-A类会议)