作为连接数字空间与物理世界的重要支撑技术,人-物-场的智能重建、生成与交互正成为人工智能、计算机视觉和图形学等领域的研究前沿方向。如何高效感知建模动态复杂的真实环境,重建生成高保真、时空一致的数字场景,实现数字人物的精细建模与高质量驱动,支撑自然高效的智能交互,仍面临一系列亟需突破的技术难题。本论坛围绕人-物-场智能重建、生成与交互中的关键科学问题,邀请领域专家学者分享世界模型构建、人物与场景一体化重建生成、多模态交互机制等方向的最新学术研究进展、技术突破与应用实践,探讨并展望未来发展趋势。
论坛主席
郭建伟
北京师范大学教授
个人简介:郭建伟,北京师范大学人工智能学院教授,虚拟现实应用教育部工程中心主任,主要研究方向为计算机图形学与虚拟现实。发表学术论文80余篇,授权国家发明专利18项。主持多项国家自然科学基金项目及省部级科研课题,作为核心骨干参与国自然重点项目、科技部重点研发计划,主持企业委托项目10余项。曾入选中科院青促会会员,获得陆增镛CADCG高科技奖二等奖、中国体视学学会青年科学技术奖、CVMJ期刊年度最佳论文奖等10项学术奖励。担任国际著名SCI期刊The Visual Computer编委及VCIBA、VRIH期刊青年编委。
张鸿文
北京师范大学副教授
个人简介:张鸿文,北京师范大学人工智能学院副教授,博士生导师。主要从事虚拟数字人和人形智能体的运动捕捉、化身重建、具身交互与行为生成等研究,发表TPAMI/TOG和SIGGRAPH/CVPR/ICCV等顶刊顶会论文40余篇,包含口头报告/亮点论文7篇,Google Scholar引用量近5000次,一作提出的动捕系列开源算法累计获GitHub星标上千次,主持承担国家重点研发计划子课题、中国人工智能学会-联想蓝天基金等科研项目,入选或获评中国科学院院长奖、中国科学院优秀博士论文、中国科协青年人才托举工程等。
代表性成果详见个人主页:https://zhanghongwen.cn
论坛嘉宾
张兆翔
中国科学院自动化研究所研究员
个人简介:张兆翔,中国科学院自动化研究所多模态人工智能系统重点实验室研究员、博士生导师,模式识别实验室常务副主任,中国科学院大学岗位教授,IAPR Fellow,入选“教育部长江学者”和“国家万人计划青年拔尖人才”。研究方向是模式识别、具身智能、智能体学习。先后主持了国家自然科学基金重点项目、联合基金重点、重点国际(地区)合作研究、北京市重点研发计划、中科院先导科技专项、启元国家实验室重点项目、装备部重点项目等多项国家级重点项目,在IEEE T-PAMI、CVPR等本领域国际主流期刊与会议发表论文200余篇,授权发明专利35项。获北京市科技进步奖一等奖(排名第一)、北京市科技奖中关村杰出青年人物奖、中国电子学会科技进步一等奖等。他是或曾是IJCV、IEEE T-CSVT、IEEE T-BIOM、PR等知名期刊编委。
报告题目:世界模型初探:重建、生成与推演
报告摘要:当下人工智能的发展日新月异。一方面,以多模态大模型、生成式大模型为代表的新技术层出不穷;另一方面,以具身智能、Agent为代表的新应用不断深入。在这些技术与应用的衔接中,世界模型是最关键的核心使能技术。本报告着重阐述世界模型的重要价值和可行性,从真实场景重建、多元环境生成和推演未来状态,探讨构建世界模型的关键技术路线和我们在相关路线上初步探索,最终目标是打通从构建到仿真的完整闭环,打破虚拟和现实世界的界限,为无人具身系统提供可靠的训练场。最后本报告将阐述在世界模型构建的思考与展望。
雷震
中国科学院自动化研究所研究员
个人简介:雷震,男,博士,IEEE Fellow,IAPR Fellow,AAIA Fellow。中国科学院自动化研究所研究员,中国科学院大学人工智能学院岗位教授,中国科学院香港创新院人工智能与机器人研究中心教授,香港理工大学客座教授,博士生导师,入选国家青年高层次人才计划,IEEE生物识别委员会(IEEE Biometric Council)杰出讲师。其主要研究方向为视频分析与理解,生物特征识别,人工智能基础理论,发表论文200余篇,Google Scholar文章引用次数35800余次,H-index:88,爱思唯尔中国高被引学者(2020-2024),入选全球前2%顶尖科学家榜单,授权发明专利30余项,撰写发布国家标准2项,国家公共安全行业标准7项。
报告题目:基于单张图像的精细化人脸三维重建
报告摘要:单张图像恢复人脸三维形状是一个病态问题,现有依赖于三维先验模型重建得到的人脸三维信息模型感太强,缺乏个性化的人脸形状信息。本报告主要介绍课题组在精细化人脸三维模型恢复方面的进展,从数据获取、网络结构搭建、损失函数设计等方面提出改进,提高人脸三维结构回复结果的真实度;进一步引入人脸分割结果作为目标引导,提升人脸重建结果与2D图像的局部一致性,提高夸张表情等极端情况下的人脸重建效果,通过定性和定量实验结果分析证明了所提方法的有效性。
张举勇
中国科学技术大学教授
个人简介:张举勇,中国科学技术大学数学科学学院教授,获国家基金委优秀青年基金、中科院青促会优秀会员资助。担任IEEE Transactions on Multimedia、IEEE Transactions on Mobile Computing编委。研究领域为计算机图形学、三维视觉,以实现对真实物理世界进行高效高保真三维数字化与高真实感虚拟数字内容的创建。
报告题目:可解耦三维表达、建模与生成
报告摘要:近年来,以NeRF、3DGS为代表的辐射场表达具有保真度高、端到端可微等优点,在物体、场景与人的重建与生成方面取得了巨大突破。然而,NeRF等隐式辐射场依赖光线追踪的密集采样导致计算资源消耗巨大,难以实现实时渲染;3DGS等显式辐射场其无序点云特性导致几何拓扑缺失,无法支持物理属性嵌入与真实物理仿真。在本次报告中,我将首先介绍StructuredField表达,该结构化可微辐射场表达可同时支持高精度几何、高保真渲染以及基于四面体表达的物理仿真,然后介绍由单目视频输入实现可解耦人体与衣服重建的D^3-Human,在最后介绍可同时满足多个语义Prompt的三维模型生成方面的研究工作。
李坤
天津大学教授
个人简介:李坤,天津大学智能与计算学部英才教授、博士生导师。主要研究方向为三维视觉,尤其是人体智能重建与生成。以第一作者/通讯作者在国际知名期刊和会议上发表论文70余篇,部分研究成果实现了产业化应用。荣获中国图象图形学学会石青云女科学家奖、ICME最佳论文奖、FIFA Skeletal Tracking ‘Light’ 国际挑战赛第一名等荣誉。主持了国家自然科学基金优秀青年科学基金、天津市杰出青年科学基金、国家重点研发计划青年科学家项目等17 项科研项目。担任天津市人工智能学会副秘书长、ACM MM 2021大会领域主席、Fundamental Research等国际期刊青年编委、CVPR和SIGGRAPH Asia等会议程序委员、VALSE 2022大会本地主席等职务。
报告题目:大场景下的群体三维重建与生成
报告摘要:大场景下的人群精准三维定位与姿态形状重建是实现公共安全精准分析与预警的关键。在动态大场景视频中,对象数量多、分布范围广、尺度差异大、遮挡频繁、且单视角存在深度歧义,因此,如何建立遮挡鲁棒、空时一致、全局定位的动态多对象重建方法是关键问题。本报告将重点介绍本研究组在动态大场景群体三维重建与生成方面的探索:从静态重建到动态重建、从特定相机到通用相机、从离线处理到在线推理、从群体重建到群体生成,逐步深入探索的方法创新与实践突破。
陆峰
北京航空航天大学教授
个人简介:陆峰,博士,北京航空航天大学计算机学院教授,虚拟现实技术与系统全国重点实验室学术带头人。主要在计算机视觉、人机交互、虚拟现实等领域开展研究,聚焦视线估计和自然人机交互等问题。在CCF-A类顶级期刊和会议,以及ECCV和ISMAR上发表论文近70篇,获得CHI2024最佳论文、IEEE VR 2024最佳论文提名等奖励,论文被引7000余次。主持纵向项目20余项,获得企事业单位资助十余次。长期担任CVPR、ICCV、ECCV、NeurIPS、ACMMM等顶会的 (Lead) Area Chair。
报告题目:视线交互与共身智能
报告摘要:视线交互作为人机交互的重要方式,通过实时追踪人眼视线,理解视觉意图,为智能辅助系统提供自然、高效的交互途径。本报告从视线跟踪技术出发,探讨其如何解析视觉场景与用户意图,进而实现对人的智能辅助。在此基础上,结合当前具身智能的发展趋势,分析视线交互在新型共身智能技术中的潜在作用,探索视线感知如何促进人机协同,推动智能体与环境的深度融合。
Copyright © 2025 北京图象图形学学会
电 话:010-82525258
邮 箱:igta@bsig.org.cn
网 站:www.igta.org.cn
微 信:BSIG82525258