朱松纯

✍ dations ◷ 2025-12-03 09:53:35 #美国计算机科学家,美国统计学家,人工智能研究者,洛杉矶加州大学教师,IEEE Fellow,哈佛大学校友,中国科学技术大学校友,华人计算机科学家,湖北科学家,计

朱松纯（英语：Song-Chun Zhu），出生于湖北省鄂州市，全球著名计算机视觉专家、统计与应用数学家、人工智能专家。

朱松纯于1996年获美国哈佛大学计算机博士学位，师从国际数学大师大卫·曼福德教授（David Mumford，菲尔兹奖、美国国家科学奖章获得者，国际数学家协会前助选），在国际顶级期刊和会议上发表论文300余篇，三次问鼎计算机视觉领域国际最高奖项——马尔奖。两次担任国际计算机视觉与模式识别大会主席（CVPR2012和CVPR2019）。朱松纯在1990年代率先将概率统计建模与随机计算方法引入计算机视觉研究，提出了一系列图像与视频的结构化解译的框架、数理模型和统计算法，发展了广义模式理论（General Pattern Theory)。在认知科学领域，如视觉常识推理、场景理解等领域做出重要贡献。自2010年以来，朱松纯两次担任美国视觉、认知科学、AI领域跨学科合作项目MURI负责人。朱松纯教授在科研方面具有很强的前瞻性，选题和方法独树一帜，长期致力于构建计算机视觉、认知科学、乃至人工智能科学的统一数理框架。

朱松纯2002年加入美国加州大学洛杉矶分校（UCLA），任统计学系与计算机系教授，UCLA计算机视觉、认知、学习与自主机器人中心（Center for Vision, Cognition, Learning and Autonomy，VCLA）主任。2020年9月，朱松纯回到中国筹建北京通用人工智能研究院（Beijing Institute for General Artificial Intelligence），同时担任清华大学与北京大学讲席教授，并任北京大学人工智能研究院院长。

朱松纯已在国际顶级期刊和会议上发表论文300余篇，其研究成果集中在以下四个时期和领域：

一、视觉的统计建模与计算理论 —— 为马尔的视觉理论建立统一的数理模型

1995-2005年期间，朱松纯教授与导师曼福德、UCLA同事以及博士生，为计算视觉创始人马尔提出的早期视觉概念，包括纹理、图像基元以及原始简约图等建立了一个统一的数理模型；提出统计建模的最小最大熵原理；将神经学和心理学的发现，植入统计物理的吉布斯模型，从而导出一类新型的马尔科夫随机场的概率模型，并将该模型扩展到中层视觉模型，描述形状与格式塔组成原则；发现自然图像的尺度不变与尺度变化的统计规则，将各种视觉模式及其对应的数理模型映射到一个连续的熵频谱和信息尺度；进一步研究了各种模型之间跳转和感知转化的机制，与博士生王亦洲导出感知尺度空间理论。

在1990年代，朱松纯发展了两类新的非线性偏微分方程（PDE）。一类用于图像分割，将PDE连接到统计图像模型的这项工作在ICCV 2013上获得了赫尔姆霍茨奖。另一类称为GRADE（Gibbs Reaction and Diffusion Equations，吉布斯反应和扩散方程）于1997年发表，并在计算机视觉领域首次采用Langevin动力学方法进行推理和学习随机梯度下降（Stochastic gradient descent，SGD）。

二、实现图像与场景的解译（parsing）计算框架 —— 扩展了模式识别创始人傅京孙先生的句法模式识别理论

1999-2010年期间，朱松纯与其首位博士生屠卓文提出用数据驱动的蒙特卡洛马尔可夫链方法求图像分割和解译问题的全局最优解；与其博士生Adrian Barbu 提出了 Swendsen-Wang Cut 的蒙特卡洛算法，在通用的概率采样计算中，实现大的状态跳转，突破传统方法计算的瓶颈问题。

该领域的这一进步使拆分合并运算符在文献中首次可逆，并且比吉布斯采样器和跳跃扩散方法快了100倍。这一工作获得第九届国际视觉大会颁发的马尔奖，并重新激起了同行对于图像解译工作的兴趣。

2006-2015年间，朱松纯教授提出了概率随机的与或图模型来表达上下文相关图语法，重启了模式识别领域创始人傅京孙先生倡导的句法模式识别框架；提出时空因果与或图为物体、场景、事件和因果关系建立统一的模型，并用于场景与事件的解译任务。

三、提出人工智能的“暗物质” —— 研究视觉与认知的物理与社会常识

自2010年以来，朱松纯将计算机视觉与认知科学、自然语言理解、机器人等学科结合。

视觉与认知科学的结合：实现物理常识的推理，比如物体和场景的物理属性、使用功能、行为的因果律；社会常识的推理，比如人的意图、动机、目的。由此丰富了对场景和事件的理解的内涵。

视觉与自然语言理解的结合：通过人机情景对话来获取常识，并于2010年率先从图像和视频的解译图中自动产生文本描述的I2T 方法。

视觉与机器人结合：提出自主机器人与人类深度协作的认知构架和通讯协议，以达到共境、共识、共行、和共同价值观。

四、探索迈向通用人工智能的新的研究路径 ——“小数据、大任务”范式

朱松纯在2017年发表了一篇广为流传的文章《浅谈人工智能：现状、任务、构架与统一》。在文中，朱松纯将行业中流行的数据驱动型深度学习研究称为“大数据、小任务''范式。该范式使用大量标注的数据为每个特定任务训练神经网络，导致AI模型无法解释、应用范围狭窄等问题。与之相反，朱松纯提出了“小数据、大任务”的范式，主张以此来实现通用人工智能。

朱松纯团队构建了一个大规模、物理逼真的VR / AR环境，用于训练和测试负责执行大量日常任务的自主AI智能体。这些智能体整合视觉，语言，认知，机器学习和机器人技术等领域的能力，在此过程中发展物理常识和社会常识，并使用认知架构与人类进行交流。该项工作获得2019年ACM图灵大会最佳论文奖。

2005年，朱松纯教授联合沈向洋等多位知名科学家在湖北省鄂州市创建民办、非营利性国际交流平台莲花山研究院，并任院长。

研究院连续5年举办国际学术研讨会和暑期免费讲习班，为国内年轻学者和大量学生提供了一个学术氛围浓厚、具有国际科研水准的开放式学术合作与交流平台。为计算机视觉在中国的发展与人才的启蒙、培养做出了贡献。

研究院的一个先期项目是收集大量的图像，手工标注图像中的场景、物体和部件、关系、功能等。其标注的广度和精细程度为世界领先，并推动了计算机视觉的物体识别和图像解译任务的发展。

2005年首场研讨会的参会人员包括后来为大量图像数据收集与标注做出突出贡献的多为科学家，如Berkeley图像分割数据库原创者David Martin，MIT教授、LabelMe数据库的原创者Antonio Tarroba，Stanford教授、ImageNet数据库原创者李飞飞。

2020年，朱松纯回国筹建新型科研机构（民办非营利）——北京通用人工智能研究院（Beijing Institute for General Artificial Intelligence or BIGAI），并出任院长一职。同时担任清华大学与北京大学讲席教授，并任北京大学人工智能研究院院长。

据介绍，BIGAI将聚焦人工智能前沿技术，以全球创新的“小数据、大任务”为研究范式，以多学科高度融合、国际学术交流、培养中国新一代人工智能青年科学家为宗旨，汇聚人工智能专业领域研究员、学者、专家，致力于将人工智能大一统理论框架实践落地，共同推动中国原创人工智能的发展与创新，打造新一代通用人工智能平台。

2017年7月，朱松纯教授在美国洛杉矶创立暗物智能科技DMAI，并于2018年底落户广州南沙，2019年4月开业。暗物智能将人工智能在认知层面的新的理论突破，应用于智慧教育等场景，实现真正的高自然度的人机交互和协同。

朱松纯曾表示，教育是关乎国计民生、人口素质和社会发展均衡化的重要领域。而人工智能通过对教育过程的认知建模，可以助力提升教学和评估的效率，为基础和职业教育提供低成本解决方案。

· 2020年，北京大学人工智能研究院院长、北京通用人工智能研究院院长；

· 2015-2020年，第二次担任美国视觉、认知科学、AI领域跨学科合作项目MURI首席科学家；

· 2016年，再次当选国际计算机视觉与模式识别大会2019年度主席；

· 2011-2013年，担任国际模式识别协会Aggarwal 奖评选委员会主席；

· 2012年，担任电气和电子工程师学会计算机学会会士评选委员会副主席；

· 2012年，担任国际计算机视觉与模式识别大会主席；

· 2010-2015年，首次担任美国视觉、认知科学、AI领域跨学科合作项目首席科学家；

· 2005年，与沈向洋等创建民办、非营利性国际交流平台湖北莲花山研究院，并任院长

· 2019年，最佳论文奖，ACM TURC大会

· 2017年，计算建模奖，国际认知科学学会

· 2013年，赫尔姆霍茨奖，第14届国际计算机视觉大会

· 2011年，电气和电子工程师学会计算机学会会士fellow；

· 2008年，第二届J.K.Aggarwal 奖，国际模式识别协会

· 2007年，马尔奖荣誉提名，第11届国际计算机视觉大会

· 2003年，马尔奖，第九届国际计算机视觉大会

· 2001年，Sloan fellow，Sloan基金

· 2001年，青年教授奖励基金，美国国家科学基金委员会

· 2001年，杰出青年科学家奖，美国海军研究所颁发

· 1999年，马尔奖荣誉提名, 第7届国际计算机视觉大会

· 1995年，哈佛大学工程领域 Ali Jury 奖

· 1992年，哈佛大学研究生院奖学金

图书

· S.C. Zhu and D.B. Mumford, A Stochastic Grammar of Images, monograph, now Publishers Inc. 2007.

· A.Barbu and S.C. Zhu, Monte Carlo Methods, Springer, 2019.

· S.C. Zhu, AI: The Era of Big Integration – Unifying Disciplines within Artificial Intelligence, DMAI, Inc., 2019.

· S.C. Zhu and Y.N. Wu, Concepts and Representations in Vision and Cognition, Draft taught for 10+ years, Springer, Preparing for 2020.

论文

· Zhu, S. C., Wu, Y., & Mumford, D. (1998). FRAME: filters, random fields, and minimax entropy towards a unified theory for texture modeling. International Journal of Computer Vision, 27(2) pp.1-20.

· Y. N. Wu, S. C. Zhu and X. W. Liu, (2000). Equivalence of Julesz Ensemble and FRAME models International Journal of Computer Vision, 38(3), 247-265.

· Tu, Z. and Zhu, S.-C. Image Segmentation by Data Driven Markov Chain Monte Carlo, IEEE Trans. on PAMI, 24(5), 657-673, 2002.

· Barbu, A. and Zhu, S.-C., Generalizing Swendsen-Wang to Sampling Arbitrary Posterior Probabilities, IEEE Trans. on PAMI, 27(8), 1239-1253, 2005.

· Tu, Z., Chen, X.,Yuille, & Zhu, S.-C. (2003). Image parsing: unifying segmentation, detection, and recognition. Proceedings Ninth IEEE International Conference on Computer Vision.

· Zhu, S. C., & Yuille, A. (1996). Region competition: unifying snakes, region growing, and Bayes/MDL for multiband image segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 18(9), 884–900.

· Zhu, S. C., & Mumford, D. (1997). Prior learning and Gibbs reaction-diffusion. IEEE Transactions on Pattern Analysis and Machine Intelligence, 19(11), 1236–1250.

· Zhu, S.-C., Guo, C., Wang, Y., & Xu, Z. (2005). What are Textons? International Journal of Computer Vision, 62(1/2), 121–143.

· Zhu, S.-C., & Mumford, D. (2006). A Stochastic Grammar of Images. Foundations and Trends in Computer Graphics and Vision, 2(4), 259–362.

· Guo, C. Zhu, S.-C. and Wu, Y.(2007), Primal sketch: Integrating Texture and Structure. Computer Vision and Image Understanding, vol. 106, issue 1, 5-19.

· Y.N. Wu, C.E. Guo, and S.C. Zhu (2008), From Information Scaling of Natural Images to Regimes of Statistical Models, Quarterly of Applied Mathematics, vol. 66, no. 1, 81-122.

· B. Zheng, Y. Zhao, J. Yu, K. Ikeuchi, and S.C. Zhu (2015), Scene Understanding by Reasoning Stability and Safety, Int'l Journal of Computer Vision, vol. 112, no. 2, pp221-238, 2015.

· Y. Zhu, Y.B. Zhao and S.C. Zhu (2015), Understanding Tools: Task-Oriented Object Modeling, Learning and Recognition, Proc. of IEEE Conf. on Computer Vision and Pattern Recognition (CVPR).

· Fire, A. and S.C. Zhu (2016), Learning Perceptual Causality from Video, ACM Trans. on Intelligent Systems and Technology, 7(2): 23.

· Y.X. Zhu, C. Jiang, Y. Zhao, D. Terzopoulos and S.C. Zhu (2016), Inferring Forces and Learning Human Utilities from Video, Proc. of IEEE Conf. on Computer Vision and Pattern Recognition (CVPR).

· D. Xie, T. Shu, S. Todorovic and S.C. Zhu (2018), Learning and Inferring “Dark Matter” and Predicting Human Intents and Trajectories in Videos, IEEE Trans on Pattern Analysis and Machine Intelligence, 40(7): 1639-1652.

· Zhu, Y. et al (2020) Dark, Beyond Deep: A Paradigm Shift to Cognitive AI with Human-like Commonsense, Engineering special issue on AI.

· S.C. Zhu, (2019) AI: The Era of Big Integration – Unifying Disciplines within Artificial Intelligence, DMAI, Inc.