|
我院4项成果被计算机视觉与人工智能领域定级会议ICCV 2025录用
作者:
发布日期:2025-06-27
浏览次数:
近日,我院4项研究成果被中国计算机学会(CCF)推荐的A类国际顶级学术会议ICCV 2025录用。ICCV 2025 将于10月19日至25日在美国夏威夷举办,今年共收到11239份有效投稿,程序委员会推荐录用2699篇论文,最终录用率为24%。 成果一:Transformer-based Tooth Alignment Prediction with Occlusion and Collision Constraints 作者:董振兴,陈佳舟 该论文属于AI医疗领域的交叉研究成果,提出了一种考虑了咬合与碰撞等医学约束的牙齿正畸目标位预测方法,该方法将三维牙齿点云重构为多通道二维图像,并巧妙地结合了Swin-transformer神经网络,从而提高了预测的精度和效率。该工作还联合产学研合作企业花费2年多的时间收集并整理了855份珍贵的正畸样本数据,并利用计算机图形学技术高保真地增强数据集,弥补了该领域缺乏数据集的不足。 成果二:SMSTracker: Tri-path Score Mask Sigma Fusion for Multi-Modal Tracking 作者:产思贤,励泽栋,张笑钦,李文浩,吕士健,沈春华 该论文聚焦于计算机视觉领域中的多模态目标跟踪任务,提出了一种名为SMSTracker的创新性三通路打分掩码Sigma融合框架。该方法通过设计三通路打分融合模块评估各模态特征的可靠性,优化互补特征的利用;引入先驱性的Sgima交互模块实现三通路特征的深度融合与共享,提升特征交互效果;并提出Drop Key Fine-tuning策略,解决多模态学习中数据贡献不均的问题,增强模型对多模态信息的综合处理能力,为多模态目标跟踪提供了新的有效解决方案。 成果三:Laboring on less labors: RPCA Paradigm for Pan-sharpening 作者:徐宏辉,郑建炜 该论文聚焦于遥感图像的空间-光谱融合任务,提出了一种名为RUN的鲁棒主成分分析(PRCA)展开网络。基于遥感图像空间偏移残差的稀疏性,该方法将原始融合问题转化为基于RPCA的结构化去噪问题,并将传统双退化建模简化为单退化建模,避免了对复杂空间退化矩阵的显式估计;提出了基于非线性变换的张量核范数模块,以深度可分离卷积替代高开销的奇异值分解;并灵活嵌入至Transformer以及CNN框架中以提升特征学习效果,拓展了遥感图像融合任务的建模思路。 成果四:Unified Open-World Segmentation with Multi-Modal Prompts 作者:刘阳,尹宇飞,景宸琛,朱慕之,陈昊,席玉玲,冯博,王昊,李石羽,沈春华 该论文提出了一种统一的开放世界分割模型COSINE,融合了多模态提示(如文本与图像)驱动的开放词汇分割与上下文分割任务。COSINE充分利用基础模型提取图像与多模态提示的表征信息,并通过SegDecoder对齐不同模态表征、建模其交互关系,从而实现多粒度的目标掩码生成。该方法有效统一了以往开放词汇分割与上下文分割在架构设计、学习目标和表征方式上的差异。大量实验证明COSINE在两类任务中均取得显著性能提升,进一步的分析则表明了视觉与文本提示的协同融合显著增强了模型的泛化能力,优于单模态方法。 |