科学研究

近期,西南财经大学计算机与人工智能学院新财经综合实验室吕新昱副教授课题组在多模态大模型幻觉与场景图生成领域取得了三项最新研究成果,并分别发表在人工智能与计算机视觉领域的国际顶级期刊或会议(IJCVTIPNeurIPS),具体如下:

成果一:Informative Scene Graph Generation via Debiasing,期刊International Journal of Computer VisionIJCV)(吕新昱副教授为通讯作者)。为解决场景图生成任务中的有偏预测问题,本研究分别从语义空间样本空间的不平衡角度,提出了语义去偏模块(SD)和平衡性谓词学习框架(BPL)。平衡性学习框架通过引入随机欠采样与语义消歧策略构建信息丰富且平衡的目标域,并通过轻量级微调实现高信息量的视觉关系预测;同时,语义去偏模块则利用混淆矩阵和二分图构建谓词关系转移矩阵,并在预测过程中结合转移概率进行语义校正,从而有效缓解预测偏差。

期刊介绍:IJCV为中国计算机学会(CCF)推荐的人工智能领域的4A类期刊之一,与TPAMI(财大A+)并列为计算机视觉领域最被认可的两大期刊之一,五年影响因子高达14.5,年发文量仅170篇左右,偏重视觉智能基础理论。


成果二:Multi-Concept Learning for Scene Graph Generation,期刊IEEE Transactions on Image ProcessingIEEE TIP)(吕新昱副教授为第一作者)。针对视觉关系类内多样语义不平衡表征问题,论文提出了多语义关系学习框架(MCL),该框架通过引入不同数量的概念原型,量化类内语义不平衡,并结合均衡记忆力(CBM)与原型正则(CR)技术帮助模型将关系特征与相应概念原型对齐,从而获得紧凑的概念级表征和差异化的谓词级表征,并实现更稳健的视觉关系识别。

期刊介绍:IEEE TIP是中国计算机学会推荐的计算机图形学与多媒体领域仅有的三大A类国际期刊(TPAMIIJCVTIP)之一,五年影响因子达12.1,其主要关注图像处理的前沿理论与方法,对创新性和完整性要求极高。


成果三:Alleviating Hallucinations in Large Vision-Language Models through Hallucination-Induced Optimization38届神经信息处理系统会议(Thirty-eighth Conference on Neural Information Processing SystemsNeurIPS)(吕新昱副教授为第一作者)。该论文对多模态大模型幻觉问题进行了深入的理论分析,并证明了区分幻觉标记目标标记可以显著提高对比解码方法在减轻幻觉方面的有效性;据此提出了基于幻觉诱导的对比编码策略(HIO),其通过引入逆布拉德利-特里模型(CBTM)与多重目标幻觉放大策略(AMTH),增大幻觉与目标词间的对比度,以降低幻觉发生概率,从而提升多模态大模型对视觉场景的鲁棒理解能力。

会议介绍:NeurIPS是机器学习与人工智能领域的三大顶级会议(NeurIPSICLRICML)之一,是CCF A类会议,录用率常年维持在约20%。根据Google最新统计,NeurIPSH5 index高达337(位列第7)。这是我校在可信人工智能:多模态大模型安全领域取得的重要突破。


团队介绍:新财经综合实验室由西南财经大学和中国农业银行2021年联合成立,刘贵松教授担任实验室主任。实验室聚焦可信人工智能基础理论、财经科技及数字经济深度融合等领域开展有组织科研和人才培养。团队现有教师16人、本硕博学生和博士后近80人,团队相关详情可查看网址:https://nicelab.swufe.edu.cn/