近日,國(guó)際學(xué)術(shù)會(huì)議CVPR 2026論文接收結(jié)果公布,數(shù)據(jù)科學(xué)與人工智能研究院多篇論文被錄用。CVPR全稱(chēng)為IEEE/CVF Conference on Computer Vision and Pattern Recognition(計(jì)算機(jī)視覺(jué)與模式識(shí)別會(huì)議),被認(rèn)為是深度學(xué)習(xí)領(lǐng)域的頂級(jí)國(guó)際會(huì)議之一,與ICCV、ECCV并稱(chēng)為計(jì)算機(jī)視覺(jué)領(lǐng)域三大頂會(huì)。CVPR 2026將于2026年6月3日-7日在美國(guó)科羅拉多州丹佛市舉行,會(huì)議將呈現(xiàn)和發(fā)布深度學(xué)習(xí)領(lǐng)域前沿研究成果。
論文題目:SynthRGB-T: Language-Vision Guided Image Translation for Diversity Synthesis
第一作者:丁健剛(長(zhǎng)安大學(xué)信息工程學(xué)院)
通訊作者:李偉(長(zhǎng)安大學(xué)數(shù)據(jù)科學(xué)與人工智能研究院)
論文概述:彌合紅外圖像與可見(jiàn)光圖像之間的模態(tài)差異,對(duì)于實(shí)現(xiàn)跨模態(tài)理解及豐富多模態(tài)基準(zhǔn)數(shù)據(jù)具有重要意義。然而,現(xiàn)有研究方法多局限于一對(duì)一映射范式,且通常僅在單向或封閉場(chǎng)景中進(jìn)行評(píng)估,難以滿(mǎn)足復(fù)雜開(kāi)放環(huán)境下的多樣化需求。針對(duì)上述問(wèn)題,論文將圖像轉(zhuǎn)換過(guò)程創(chuàng)新性地表述為一種由視覺(jué)與語(yǔ)言共同引導(dǎo)的去噪擴(kuò)散過(guò)程。通過(guò)引入開(kāi)放世界知識(shí),實(shí)現(xiàn)了可控的雙向圖像翻譯。此外,所提出的 SynthRGB-T 模型能夠合成多樣性強(qiáng)且高保真度的數(shù)據(jù)樣本,顯著拓展了多模態(tài)數(shù)據(jù)資源的規(guī)模與豐富度,為多模態(tài)領(lǐng)域后續(xù)研究提供了有力支撐。

論文題目:SkeletonContext: Skeleton-side Context Prompt Learning for Zero-Shot Skeleton-based Action Recognition
第一作者:王寧(長(zhǎng)安大學(xué)數(shù)據(jù)科學(xué)與人工智能研究院)
通訊作者:張亮(西安電子科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院)
論文概述:針對(duì)零樣本(Zero-shot)骨骼動(dòng)作識(shí)別中因缺乏環(huán)境上下文(如交互物體)導(dǎo)致動(dòng)作語(yǔ)義模糊、難以區(qū)分視覺(jué)相似動(dòng)作的挑戰(zhàn),論文提出了一種基于提示學(xué)習(xí)的新框架 SkeletonContext。該框架通過(guò)引入“跨模態(tài)上下文提示模塊”,利用大語(yǔ)言模型(LLM)生成的豐富背景語(yǔ)義來(lái)補(bǔ)全骨骼動(dòng)作中的缺失信息,實(shí)現(xiàn)了骨骼特征與語(yǔ)言描述的深層語(yǔ)義對(duì)齊;同時(shí),結(jié)合“關(guān)鍵部位解耦模塊”提取運(yùn)動(dòng)相關(guān)關(guān)節(jié)特征,進(jìn)一步增強(qiáng)了在無(wú)物體交互場(chǎng)景下對(duì)復(fù)雜動(dòng)作的理解能力。在多個(gè)主流基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,SkeletonContext 在傳統(tǒng)及廣義零樣本任務(wù)中均達(dá)到了領(lǐng)先水平,顯著提升了模型對(duì)細(xì)粒度動(dòng)作的推理精度與魯棒性。

(審稿:李偉 網(wǎng)絡(luò)編輯:和燕)