|
我院6项成果被多媒体领域顶级会议ACM MM 2025录用
作者:
发布日期:2025-08-25
浏览次数:
近日,我院6项研究成果被中国计算机学会(CCF)推荐的A类国际顶级学术会议ACM MM 2025录用。ACM MM 2025 将于2025年10月27日至31日在爱尔兰都柏林举办。 成果一:ViTraj: Learning Dual-Side Representations for Vehicle-Infrastructure Cooperative Trajectory Prediction 作者:尤胜哲,翁立波,高飞(通讯) 该论文针对自动驾驶中车路协同轨迹预测的感知局限与特征冗余问题,提出了一种模型无关的通用框架。通过协同交互和特征端选择机制,实现车端与路端特征的高效融合。通过车路端知识蒸馏策略规范多端预测的一致性,同时捕捉关键非线性轨迹模式。 成果二:Physics-Coupled Frequency Dynamic Adaptation Network for Domain Generalized Underwater Object Detection 作者:骆霖轩,穆攀(通讯),白琮 该论文提出了一种根据环境信息自适应变化的域泛化目标检测框架,框架通过基于元学习的动态架构合成域泛化参数,并通过多频特征动态自适应模块有效弥补退化特征,同时解决了水下目标检测中遇到的域偏移和图像退化问题。 成果三: Arbitrary-scale Fusion Neural Operator 作者:朱军伟,李卫,徐宏辉,蒋嘉伟,刘志(通讯),郑建炜(通讯) 该论文以神经算子为核心,提出了一种轻量级高光谱图像融合模型,实现了任意尺度下低分辨高光谱与高分辨多光谱图像的高质量融合。通过强大的泛化能力,将跨尺度重训练策略转变为了免训练策略。 成果四:SpecSolver: Solving Spatial-Spectral Fusion via Semantic Transformer 作者:李卫,朱军伟,徐宏辉,蒋嘉伟,郑建炜(通讯) 该论文提出了一种基于语义变换器的空间光谱融合求解器,它通过学习高光谱图像中的内在语义状态来克服超像素分割的局限性。该方法采用语义注意力机制将像素分组为可学习的切片,从而实现有效的语义相关性捕捉和高效的计算。 成果五:Dual Teacher with Dempster-Shafer Guidance for Decision Making in Semi-Supervised Small Object Detection 作者:高楠,朱俊超,张怡龙,梁荣华(通讯),孙国道,陈朋 该论文提出一种多模态半监督小目标检测框架,通过引入两种互补教师模型:混合尺度教师和熵基多模态教师,利用德姆斯特-谢弗理论有效融合双教师预测结果并解决检测冲突。基于自适应类别阈值机制,动态调整伪标签选择策略,进一步提升小目标召回率。 成果六:ZJUT-MM@MUCG Challenge: Agent Network for Multimodal Video Understanding 作者:卢美伊,陈良圆,胡凯琦,袁锦文,蔡景翔,王铮(通讯),白琮 该论文提出了一种用于长视频理解的智能体网络架构,基于 MCP 协议实现模块化、工具无关的智能体协作方法。系统采用三层结构:编排智能体、思维智能体和多个专家智能体,通过 ReAct 式迭代推理和自适应精细化机制协调运行,兼顾推理质量与计算效率,具备良好的可扩展性。该论文在MUCG@ ACM MM 2025,统一理解与生成的多模态通才挑战赛中取得了最佳表现。
|



