浙江工业大学计算机科学与技术学院、软件学院

学院新闻

我院7项科研成果被多媒体领域国际顶级会议ACM MM 2023录用

作者：发布日期：2023-07-29 浏览次数：

近日，我院7项成果（梁荣华、陈朋、白琮、宦若虹、郑建炜、穆攀、党源杰等师生成果）被多媒体领域国际顶级会议ACM MM 2023（ACM International Conference on Multimedia, ACM MM）长文录用。本次会议将于2023年10月29--11月2日在加拿大渥太华召开。ACM MM是多媒体领域的国际顶级会议。自1993年以来，ACM MM涵盖了多个新兴领域，致力于推动多媒体相关的研究和应用，提出创新的研究成果并讨论最新进展。该会议被CCF推荐为该领域的A类国际学术会议。

科研成果1：“Multi-Speed Global Contextual Subspace Matching for Few-Shot Action Recognition”由博士生俞天纬、陈朋教授（通讯）、党源杰博士、宦若虹副教授、梁荣华教授共同完成。文章针对少样本视频动作识别中的匹配问题，提出一种多速率子空间匹配机制。具体而言，文章通过全局上下文语义融合，构建子空间动作类别原型，实现视频级动作实例匹配，以保留更完整的视频级语义信息。此外，文章提出了一种多速率动作匹配策略，该策略以尺度无关的子空间视频级表征为基础，构建多速率子空间特征并融合多速率动作相似度，进而克服帧级匹配伴随的动作速率单一性缺陷。实验证明，所提方法在UCF101、HMDB51、Kinetics-100数据集上优于最先进的方法。

题目：Multi-Speed Global Contextual Subspace Matching for Few-Shot Action Recognition

作者：Tianwei Yu, Peng Chen*, Yuanjie Dang, Ruohong Huan, Ronghua Liang

科研成果2：“Spatial-angular Quality-aware Representation Learning for Blind Light Field Image Quality Assessment” 由博士生项建军、党源杰博士、陈朋教授（通讯）、梁荣华教授以及宦若虹副教授等共同完成。文章针对光场图像质量评价中的感知学习问题，提出了一种基于自监督对比学习的空间-角度质量感知表示方法。具体而言，通过对比学习范式将同个光场图像和它的带通变换建立映射关系，学习图像的语义和失真信息。此外，文章提出了一个包含了40K的光场图像失真数据集用于实现光场图像中的自监督学习。在四个数据集上的实验结果表明，与其他对比方法相比，所提方法取得了与人类视觉感知更加一致的结果。

题目：Spatial-angular Quality-aware Representation Learning for Blind Light Field Image Quality Assessment

作者：Jianjun Xiang, Yuanjie Dang, Peng Chen*, Ronghua Liang, Ruohong Huan, Zhengyu Zhang

科研成果3：“A Prior Instruction Representation Framework for Remote Sensing Image-text Retrieval”由马青博士、白琮教授及2022级硕士生潘建成共同完成。文章提出了一种利用先验知识指导视觉和文本表征自适应学习的范式，旨在解决遥感领域视觉-语言理解任务中的语义噪音问题。在视觉表征方面，基于空间的视觉指令表征利用遥感场景识别的先验指导知识，通过建立信念矩阵来筛选关键特征，从而降低语义噪声的影响。在文本表示方面，基于时空的语言循环注意利用前一时间步循环激活当前时间步，以增强文本表示能力。并且提出了一种基于聚类的归属损失来约束类间关系，减少公共子空间中的语义混淆区。实验证明，所提方法在 RSICD 和 RSITMD 数据集上优于最先进的方法。

题目：A Prior Instruction Representation Framework for Remote Sensing Image-text Retrieval

作者：Jiancheng Pan, Qing Ma, Cong Bai

科研成果4：“A Lightweight Collective-attention Network for Change Detection” 由博士生冯宇超、郑建炜副教授（通讯）、许金山副教授等共同完成。文章针对遥感数据变化检测问题，提出一种基于集体注意力的时序交互机制。具体而言，通过注意力机制中查询序列的时序拼接和键序列的空间差值，联合获取共享的全局注意力分布。此外，文章提出了一种非变化区域的一致性约束，在抑制无关干扰的同时实现了任务相关变化的聚焦，并通过时序和空间上的自注意力完成多尺度特征聚合。实验表明，所提方法在四个遥感数据集的变化检测应用中均优于其他对比方法。并且，该模型仅需要1.71M参数量以及 1.98G FLOPs运算量。

题目：A Lightweight Collective-attention Network for Change Detection

作者：Yuchao Feng, Yanyan Shao, Honghui Xu, Jinshan Xu, and Jianwei Zheng*

科研成果5：“Latent-space Unfolding for MRI Reconstruction” 由博士生蒋嘉伟、郑建炜副教授（通讯）和郭东岩副教授等共同完成。文章针对核磁共振影像加速重建问题，提出了一种基于潜空间的解卷网络。通过一个精心设计的可逆架构，该网络首先将输入映射到一个通道提升的潜在空间，并在其中展开一个加速优化算法，实现有效可行解的迭代优化。同时，文章首次提出了一种并行的双域更新策略，以促进域间信息的交互互补。在多个公开数据集和不同采样率/模式上进行的实验结论表明，所提方法在视觉和数值上都获得了新的SOTA效果。

题目：Latent-space Unfolding for MRI Reconstruction

作者：Jiawei Jiang, Yuchao Feng, JiaCheng Chen, Dongyan Guo, and Jianwei Zheng*

科研成果6：“Little Strokes Fell Great Oaks: Boosting the Hierarchical Features for Multi-exposure Image Fusion”由穆攀博士、白琮教授及2020级本科生杜智颖等共同完成。文章提出一种层次特征“积少成多”的无监督模型，旨在完成多曝光图像的深度融合。通过自适应的伽马矫正模块，逐步挖掘隐藏在源图像中的潜在信息，同时利用提出的注意力引导的细节补充模块，对各层次特征有重点的融合，并利用颜色域信息的转换矫正，解决无监督方法导致的对比度问题。实验表明，所提方法在四个数据集上的量化结果均优于最新方法，并取得了最佳的视觉效果。

题目：Little Strokes Fell Great Oaks: Boosting the Hierarchical Features for Multi-exposure Image Fusion

作者：Pan Mu, Zhiying Du, Jinyuan Liu and Cong Bai

科研成果7：“A Generalized Physical-knowledge-guided Dynamic Model for Underwater Image Enhancement” 由穆攀博士、白琮教授及2020级本科生许函宁、2020级本科生刘哲源等共同完成。文章设计了一种通用的物理知识指导的水下图像增强模型，解决复杂多变的水下环境带来的挑战，并具有泛化性。通过改变全局大气光和透射率来模拟复杂的水下图像类型，引入大气光和传输率引导的动态结构从水下图像中自适应地提取先验信息，并以超参数引导的形式指导基本模块。基于先验的多尺度结构和通道注意模块估计每个特征图的权重，并将其自适应的融合以增强网络的感受野。实验表明，所提方法在定量、视觉效果方面均优于最新研究方法，并具有很好的泛化能力。

题目：A Generalized Physical-knowledge-guided Dynamic Model for Underwater Image Enhancement

作者：Pan Mu, Hanning Xu, Zheyuan Liu, Zheng Wang, Sixian Chan, Cong Bai

首页

学院概况

学科建设

科学研究

人才培养

师资队伍

党建和工会

学生工作

学院校友

国际合作

专业认证

实验中心