浙江工业大学计算机科学与技术学院、软件学院

学院新闻

喜报！我院5项成果被计算机视觉领域国际顶级会议CVPR 2026录用

作者：发布日期：2026-03-09 浏览次数：

近日，我院5项研究成果被中国计算机学会（CCF）推荐的A类国际顶级学术会议The IEEE/CVF Conference on Computer Vision and Pattern Recognition 2026（简称CVPR 2026）录用。

CVPR是IEEE计算机学会主办的计算机视觉与模式识别领域国际顶级学术会议，是中国计算机学会认定的A类会议，更是计算机视觉领域最具影响力的会议，代表全球该领域最高研究水平。2024年谷歌学术影响力排名中，CVPR位列全球第二，仅次于《自然》期刊，在AI领域影响力常年稳居前列。2026年共有16092篇论文进入审稿流程，程序委员会最终推荐录用4090篇论文，整体录用率为25.42%。

成果1：Think, Then Verify: A Hypothesis-Verification Multi-Agent Framework for Long Video Understanding

作者：王铮，陈浩然，秦浩轩，魏志鹏，钱天文，白琮（通讯）

该成果为我院计算机视觉研究所白琮教授团队的研究成果，为长视频理解方向的最新研究进展。论文的第一作者为副研究员王铮，第二作者为硕士生陈浩然，通讯作者为白琮教授，其他作者包括本科生秦浩轩，UC Berkeley博士后魏志鹏和华东师范大学副研究员钱天文。

该论文提出了一种基于多智能体“假设-验证”范式的长视频理解框架（VideoHV-Agent）。由于长视频普遍存在显著的视觉冗余、跨长时间间隔依赖，基于检索的智能体在迭代推理中易累积思维链语义漂移并受相关性驱动而产生误判，长视频理解仍极具挑战。本文提出长视频推理过程不应是被动检索，而应从任务构建：模型需要先明确某个答案成立所必需的前提条件，再有针对性地寻找证据并完成核验。受这个先思考后发现原则的启发，VideoHV-Agent 将视频问答重构为一个结构化的假设验证过程：Thinker智能体将候选答案改写为可检验的假设；Judger智能体明确假设成立需要核查的关键线索；Verifier智能体利用视频片段验证线索；最终由Answer智能体根据证据生成答案。VideoHV-Agent在实现高准确率的同时，还带来更强的可解释性、更严谨的推理链条以及更低的计算开销。

成果2：VAE-REPA: Variational Autoencoder Representation Alignment for Efficient Diffusion Training

作者：王蒙蒙，姜登阳，李刘卓铮，林雨铖，沈国江（通讯），孔祥杰，刘勇，戴光，王井东

该成果为我院智能所沈国江教授团队的研究成果，为基于 Transformer 的扩散模型高效训练提供了轻量化、高兼容性的全新解决方案。论文的第一作者为副研究员王蒙蒙，通讯作者为我院沈国江教授和百度首席科学家王井东老师，其他作者包括我院本科生林雨铖，我院孔祥杰教授、浙江大学刘勇教授等等。

该论文提出了一种基于变分自编码器表征对齐的扩散模型高效训练框架（VAE-REPA）。去噪扩散 Transformer 虽生成性能优异，却普遍存在训练收敛效率低下的核心问题，现有 REPA、SRA 等优化方案，均因外部依赖引入巨额训练计算开销，且在缺乏通用预训练模型的领域适用性大幅受限。本文提出扩散模型训练引导无需依赖外部大模型或额外教师网络，可复用现成预训练 VAE 特征，借助其重建特性编码的纹理、结构与基础语义信息，为扩散训练提供零额外成本的内置视觉先验引导。受此启发，VAE-REPA 将扩散 Transformer 的训练重构为轻量化表征对齐过程：先以预训练 VAE 提取的图像高质量特征为对齐目标；再经轻量 MLP 投影层完成扩散模型中间潜层特征的空间变换与维度匹配；随后通过特征对齐损失监督二者分布对齐；最终结合原生去噪损失完成端到端优化。VAE-REPA 在实现生成质量与训练收敛速度双重提升的同时，兼具轻量化特性与强泛化性，仅引入 4% 额外计算量且无外部模型调用成本，为高效扩散模型训练提供了新路径。

成果3：Beyond explicit language: plug-and-play visual-to-Linguistic modeling towards general object tracking

作者：蓝凯洋，崔滢，景宸琛，郑建炜，郭东岩（通讯）

该成果为我院人工智能团队的研究成果，是目标跟踪方向的最新研究进展。论文的第一作者为博士生蓝凯洋，共同第一作者为崔滢副教授，通讯作者为郭东岩副教授，其他作者包括景宸琛研究员和郑建炜教授。

视觉-语言跟踪的核心目标是通过引入语义信息指导视觉跟踪，实现更精确的目标跟踪。然而，视觉-语言跟踪普遍存在重大两个问题：静态的文本描述与运动目标、变化场景间的不一致性；文本缺失时的模型退化。本文提出跟踪过程可以不依赖静态外部语言输入，而从视觉特征本身挖掘语义：模型基于视觉特征生成隐式语言表达，再使用隐式语义指导视觉跟踪，建模语义增强的目标特征表达。通过设计的文本反转模块（TI）和多层级语义注入机制（MI），动态生成视觉一致的隐式语言描述并增强目标表达。文本反转模块将视觉嵌入转化为 CLIP 文本空间的伪描述 tokens，多层语义注入机制通过跨注意力将语言特征逐层注入到视觉骨干网络，最终由跟踪器的预测头结合增强后的目标表达完成目标定位。该方法在实现各主流跟踪器性能显著提升的同时，还带来更强的跟踪鲁棒性、更精准的跨模态语义对齐，且无需额外语言标注、仅训练新增模块即可落地。

成果4：Focal–General Diffusion Model with Semantic Consistent Guidance for Sign Language Production

作者：俞奕恒，刘盛（通讯），冯缘，金哲仑，蒋怡柠，徐敏

该成果为我院计算机视觉研究所刘盛教授团队的研究成果，为手语生成方向的最新研究进展。论文的第一作者为硕士生俞奕恒，通讯作者为刘盛副教授，其他作者包括冯缘副教授，博士生金哲仑，以及硕士生蒋怡柠和徐敏。

该论文提出了一种针对手语生成的两阶段扩散模型——焦点-全局扩散模型（Focal–General Diffusion Model, FGDM）。由于现有手语生成方法通常将被建模姿态视为单一整体处理，难以捕捉关节级的细粒度空间依赖，导致动作序列在自然度与连贯性上仍面临重大挑战。本文提出高质量的手语生成不应是简单的序列堆叠，而应是局部精细表征与全局一致性演化的深度协同。受此理念启发，FGDM将手语去噪过程重构为一个结构化的从局部聚焦到全局优化的生成范式：在Focal阶段，提出自适应手语图卷积网络（ASGCN），该模块打破了预定义拓扑的局限，能够自适应建模每个动作姿态，在综合上下文相关性、骨架拓扑结构与语义条件的基础上，精确雕琢局部关节细节；在General阶段，利用Transformer-based模块对整个动作序列进行全局扫描与宏观调控，进一步提升动作的长时连贯性与自然性。与此同时，论文引入语义一致性引导（SCG）机制，在扩散训练中无缝融合语义监督，强化生成姿态序列与目标手语词之间的语义对齐。FGDM在实现高精度动作合成的同时，还带来了更细粒度的关节表达、更稳健的语义一致度以及更显著的视觉自然感。在PHOENIX14T和USTC-CSL数据集上的广泛实验表明，FGDM不仅在手语生成任务中刷新了多项SOTA性能指标，更为复杂人体运动建模研究提供了新的技术路径与范式参考。

成果5：GeoMotion: Rethinking Motion Segmentation via Latent 4D Geometry

作者：何贤康，林培乐，崔滢，郭东岩（通讯），沈春华，张笑钦

该成果由我院人工智能团队完成，论文第一作者为博士生何贤康，第二作者为硕士生林培乐，通讯作者为郭东岩副教授，其他作者包括崔滢副教授、沈春华教授和张笑钦教授。该研究聚焦开放动态场景中的时空结构理解问题，是团队在视觉运动感知方向上的重要突破。

视觉运动感知的核心目标，是从视频序列中精准区分运动目标与静态背景，是自动驾驶、机器人感知、视频理解及动态 4D 重建等系统的关键基础能力。然而，在真实开放场景中，频繁遮挡、多目标交互与剧烈相机运动并存，使得传统依赖光流、点轨迹或多阶段迭代优化的方法极易产生误判，且存在计算开销大、部署复杂度高等问题。针对上述挑战，GeoMotion 提出一种以几何时空建模为核心的新框架：借助预训练 4D 重建模型提供的潜在时空几何表示与相机位姿先验，与像素级光流信息进行统一融合，在端到端网络中隐式解耦物体运动与相机运动，无需显式特征匹配或复杂优化过程，即可输出稳定的二值动态掩码。实验结果表明，该方法在多个权威基准数据集上均取得了领先的分割精度与时间一致性，同时具备高效推理速度与良好的工程落地性，为动态场景理解与 4D 重建相关应用提供了可靠支撑。

硕果累累，可喜可贺！我们向取得这一优异成绩的全体师生致以衷心祝贺！

首页

学院概况

学科建设

科学研究

人才培养

师资队伍

党建和工会

学生工作

学院校友

国际合作

专业认证

实验中心