浙江工业大学计算机科学与技术学院、软件学院

学院新闻

喜报！我院四项成果被机器学习与人工智能领域顶级会议ICML 2026录用

作者：发布日期：2026-05-18 浏览次数：

近日，我院四项研究成果被机器学习与人工智能领域顶级国际会议International Conference on Machine Learning（简称ICML）录用。

ICML是中国计算机学会（CCF）推荐的 A 类会议，是机器学习领域最具影响力的顶级国际学术会议之一，与 NeurIPS、ICLR 并称为人工智能领域代表性顶级会议。ICML 2026 共有 23918 篇论文进入审稿流程，最终录用 6352 篇，录用率为 26.6%。

成果一：CausalX: A Unified and Causally-Interpretable Plug-and-Play Model for Multi-modal Spatio-Temporal Forecasting

作者：张诗琪，穆攀，严涵婷，朱宇超，张敬林，白琮（通讯）

该成果为我院计算机视觉研究所白琮教授团队的研究成果，为多模态时空预测方向的最新研究进展。论文的第一作者为博士生张诗琪，第二作者为穆攀副教授，通讯作者为白琮教授，其他作者包括博士生严涵婷，硕士生朱宇超，山东大学张敬林教授。

多模态时空预测广泛应用于智慧气象、自动驾驶和公共安全等场景，但现有深度预测模型通常以黑箱方式融合多源信息，难以解释不同变量和历史时间步对预测结果的真实贡献。针对这一问题，论文提出了统一的因果可解释即插即用模型CausalX，将多历史时间步的多模态变量构建为动态因果图，用图边权刻画跨模态、跨时间的因果归因强度，并融合Granger因果、时间延迟互信息、do-calculus干预分析和VAE生成约束，通过先验引导的扩散图精炼机制提升因果结构的稳定性与可信度。实验结果表明，CausalX可无缝接入多种时空预测主干模型，在多个近期台风预测和行人轨迹预测先进模型上均取得稳定性能提升；同时，通过可视化因果图和因果边忠实性检验，从定性与定量两个层面验证了模型解释的合理性与可信度。该研究为复杂多模态时空预测提供了兼具准确性、可解释性和可信度的新思路。

成果二：Hyperbolic Neural Operator

作者：裴杰远，李卓轩，李卫，张浩博，蒋嘉伟，郑建炜（通讯）

该成果是采用神经算子求解偏微分方程的最新研究进展。论文的第一作者为我院本科生裴杰远，通讯作者为我院智能系统研究所郑建炜教授，其他作者包括同济大学李卓轩、我院研究生李卫、张浩博和在站博士后蒋嘉伟。该成果是浙江工业大学与同济大学在科学机器学习、神经算子与工程物理仿真方向的合作研究进展。

神经算子通常用于学习偏微分方程中从输入函数到输出函数的映射，可用于加速流体、材料、结构等复杂物理系统仿真。在实际计算中，这类映射需要落实到网格、点云或网格节点等离散表示上。随着离散点数量增加，模型需要处理大量跨位置相互作用，计算成本和建模难度也随之上升。因此，如何在离散表示上高效组织物理相互作用，是神经算子走向大规模科学计算应用的关键问题。经典数值方法中的快速多极子方法（Fast Multipole Method, FMM）为这一问题提供了重要启发：许多物理系统中的相互作用具有近远场结构，近距离相互作用需要精细建模，远距离相互作用可以通过压缩摘要进行近似。基于这一思想，HNO 将双曲几何引入神经算子设计，通过稳定化双曲测地距离构造连续 Gibbs 核，使模型能够学习层次化的近远场路由结构：局部区域保持高分辨率耦合，远距离区域通过摘要信息实现全局聚合。该设计为多尺度物理系统建模提供了新的几何归纳偏置。实验结果表明，HNO 在六个标准 PDE 基准和两个约 3.2 万节点的大规模非结构网格 CFD 任务上取得优异表现。相较于现有代表性神经算子与 Transformer 类算子模型，HNO 在平均相对 L2 误差上最高可降低约 40%，并在参数量、显存占用和推理速度上保持良好效率。

该研究为物理先验、经典数值算法思想与现代深度学习架构的结合提供了新的探索方向，有望服务于复杂流体仿真、工业外形设计、结构分析等科学与工程应用场景。

成果三：Solving Spatial-Spectral Fusion with Latent Spectral Operators

作者：李卫、裴杰远、许俊楠、丁旋风、朱军伟、郑建炜（通讯）

该成果是在图像重建与智能视觉感知方向的最新研究进展。论文通讯作者为本院智能系统研究所郑建炜教授，第一作者为博士研究生李卫，共同作者包括本科生裴杰远、硕士生许骏楠和丁旋风、博士生朱军伟等。

图像融合是计算机视觉和智能感知中的重要基础任务，广泛应用于遥感观测、医学影像、工业检测、智能监控和自动驾驶等场景。实际成像系统中，不同传感器往往具有各自优势：有的图像具有更高的空间分辨率，能够提供清晰的纹理、边缘和结构细节；有的图像则包含更丰富的通道或物理响应信息，能够反映目标更细粒度的属性特征。如何将多源图像中的互补信息进行有效融合，生成兼具空间细节和内容一致性的高质量图像，是图像重建领域中的关键问题。现有深度学习方法通常在像素坐标域中直接学习融合映射，容易受到输入分辨率变化影响，同时对重建图像中的不同频率成分缺乏显式控制，可能导致细节恢复不足或信息失真。

针对上述问题，论文提出 Latent Spectral Operators（LSO）框架，将复杂的图像融合过程从高维像素空间转化到紧凑的潜在表示空间中进行建模。具体而言，LSO用交叉注意力投影网络，引入可学习的latent tokens作为提示信息，将高维图像观测压缩为紧凑的潜在表示，从而降低模型对具体图像分辨率和像素坐标的依赖。实验结果表明，LSO在多个标准图像融合基准上取得了稳定的先进性能。论文在CAVE 和Harvard数据集上进行了系统验证，在4倍和8倍放大设定下，该方法在PSNR、SAM和ERGAS等指标上均优于多种代表性图像融合模型。该研究将潜在空间学习、神经算子思想与频域结构化建模引入图像融合任务，为多源图像重建提供了新的技术路径。

成果四：Orthogonal Hierarchical Decomposition for Structure-Aware Table Understanding with Large Language Models

作者：曹斌、卢慧娴、马晨雯、王婷、Ruizhe Li、范菁（通讯）

该成果与英国伯明翰大学合作完成，在大语言模型以及复杂表格处理方向取得新进展。论文第一作者为曹斌教授，第二作者为博士研究生卢慧娴，通讯作者为范菁教授。

准确捕捉并解析复杂层次化表格中的结构化语义与逻辑依赖，一直是多模态文档理解中极具挑战且尚未解决的瓶颈。现有方法多依赖于表格线性化或归一化栅格建模，难以处理具有多级表头、合并单元格及异构布局的非标准表格，导致结构语义与文本表述之间存在明显的“语义对齐缺失”。针对这一问题，研究团队提出了正交层次化分解（Orthogonal Hierarchical Decomposition, OHD）框架，通过引入空间-语义协同约束的树诱导机制，系统性地填补了表格物理布局与模型所需显式逻辑表征之间的“结构鸿沟”，为大模型时代的复杂表格智能解析提供了新的技术范式。

硕果累累，可喜可贺！我们向取得这一优异成绩的全体师生致以衷心祝贺！

首页

学院概况

学科建设

科学研究

人才培养

师资队伍

党建和工会

学生工作

学院校友

国际合作

专业认证

实验中心