NeurIPS | 消除多对多问题,清华大规模细粒度视频片段标注新范式

论文题目:VERIFIED:AVideoCorpusMomentRetrievalBenchmarkforFine-GrainedVideoUnderstanding(NeurIPS2025TrackonDatasetsandBenchmarks)
一、介绍
(1)人工标注细粒度信息成本高昂,是否可以利用大模型技术实现这一过程?
(2)研究证明大模型存在幻觉问题,如果利用大模型进行标注,如何设计一种方法保证标注数据的质量?
图1:a)粗粒度VCMR中,因查询文本简单,存在许多潜在正匹配(绿色),但这些时刻未被标注,导致真实标注不合理。b)该研究提出的具有挑战性的细粒度VCMR中,查询更细粒度,方法需要从部分匹配的候选项(粉色)中检索出最匹配的一个(绿色)。c)该研究的VERIFIED生成了可靠细粒度标注,包括丰富静态(绿色)和动态细节(蓝色)。
图2:VERIFIED流程图。StaticsEnhancedCaptioning(A)和DynamicsEnhancedCaptioning(B),它们生成带有静态和动态细节的多个细粒度描述候选。此外,该研究设计了一个Fine-GranularityAwareNoiseEvaluator(C),该模块生成并选择被扰动的正负样本,通过难负样本增强的对比损失和匹配损失来微调UMT。这个评估器对描述进行评分,以识别不准确描述。
为了保证数据标注的质量,该研究设计了一个细粒度感知的噪声评估模块,其目的在于从前面模块标注的数据中,筛选出可靠的细粒度标注,主要通过以下步骤进行:
(1)扰动文本生成:评估器首先从原始粗粒度标注中生成正向和负向的扰动文本。这些文本通过引入难例(挑战样本)与原始标注进行对比,以提高模型对细粒度差异的敏感度。
(2)筛选最优扰动:通过使用预训练模型(如SentenceBERT),评估器从生成的扰动文本中挑选最合适的正向改写和最具挑战性的负向改写,保证生成的文本与原始标注的语义距离合理。
图3图4展示了该研究的标注中具有代表性的可视化样本。
图3:(1-3)分别节选自ActivityNet-FIG、Charades-FIG、DiDeMo-FIG数据集,静态和动态的细粒度内容分别用绿色和蓝色标出,不准确的内容用红色标出。
图4:(1)本文构建的标注捕捉到了狗与训犬师之间的互动以及狗的运动轨迹。(2)捕捉到了人物抛掷物体的细节,并传达了这个人多次抛掷的信息。(3)读取了视觉内容中的文字信息,并正确表达了使用原料的顺序。
三、VCMR实验
图5:细粒度VCMR、VR实验结果
图6:细粒度SVMR实验结果
图7:XML在Charades-FIG上使用不同细粒度训练数据的部分预测结果
四、结论
参考工作
[1]Unmaskedteacher:Towardstraining-efficientvideofoundationmodels
[2]Tall:Temporalactivitylocalizationvialanguagequery
[3]Localizingmomentsinvideowithnaturallanguage
[4]Dense-captioningeventsinvideos







