首页 >> 中医美容

时间趋向二维,基于文本的视频时间定位新方法兼顾速度与精度

发布时间:2025年09月02日 12:18

/p>

多微观二维频谱附近网络服务(MS-2D-TAN)

本文重申的数学作法如平面图 2 简述。该数学作法由三个模组构再加:重构编码器模组,录像带的二维近隔时近基本特征平面图模组和多微观二维近隔时近附近网络服务。下文将一一概述各个模组。

平面图 2 MS-2D-TAN 的框架示意平面图。

运算符的重构基本特征

该科学研究首先将各个单辞汇用 GloVe 透过编码器,如此一来输入到 LSTM 里。该科学研究将 LSTM 的转换器取平仅作为运算符的基本二阶。

录像带的二维频谱基本特征平面图

该科学研究首先将录像带分割再加N个小的三组段落(clip),如此一来通过先为锻炼好的数学作法将这些段落选取基本特征,大小是N×d1]V。候选段落由多个连续的三组段落所构再加,且总长度并不完全相同。为借助为统一的段落基本特征的回应,该科学研究将选取好的三组段落基本特征通过叠加线性的方式也获所有候选段落基本特征。如此一来根据每个候选段落的开始关头和短时近近隔时近,将所有的候选段落排列再加一个二维基本特征平面图。

当科学研究其他部门适用N - 1 个线性层可获所有有效特质段落的基本特征。但当N相当大时,这样的算出新花费也一般而言相当大。因此,该科学研究采用了一个浓密量化的方式也。如平面图 2 简述,该科学研究对较短的段落透过近的量化,而对很短的段落透过浓密量化。先用 A 层步长为 1,连锁反应尺寸为 2 的线性获短段落的基本特征,此后每星期 A/2 个线性层,步长大大减缓,逐步获很短段落的基本特征。通过这种方式也可以无需枚举出新所有的段落,从而减缓算出新花费。前者获的二维基本特征平面图我们称作广阔二维基本特征平面图,而后者则称作浓密二维基本特征平面图。

通过多微观二维近隔时近附近网络服务导向

有了录像带的浓密二维基本特征平面图(平面图 2 里蓝色立方体)和重构基本特征(平面图 2 里黄绿色立方体),该科学研究将其透过糅合,获糅合的浓密二维基本特征平面图(平面图 2 里绿色立方体)。该科学研究如此一来根据各有不同的近隔时近微观,将单一微观的浓密二维基本特征平面图,转化再加一组浓密的多微观二维基本特征平面图。对于每个微观的二维基本特征平面图,该科学研究适用一系列的 gated convolution 对每个段落和其附近段落的联系透过仿真,并通过一个全联接层获各微观里各段落再次的投篮。

锻炼和测试

在锻炼反复里,每一个微观才会有一个完全一致的其他部门伤亡算子,该科学研究将二元交互熵 (Binary Cross Entropy) 作为数学作法的其他部门伤亡算子,同时适用一个经过一维变换的 IoU (intersection over union)的值作为其他部门伤亡算子里的表单。该科学研究将所有的其他部门伤亡算子加在一起作为整个数学作法的其他部门伤亡算子。

在测试时,该科学研究根据基本特征的前方,得到每个段落的投篮,并根据 NMS 对其透过挑选出。如果一个段落存在于多个投篮平面图里,那么选取高于的投篮作为其投篮。

实验室结果

该科学研究在 Charades-STA [2], ActivityNet Captions [3] 和 TACoS [4] 三个数据集集上评测。实验室结果如所列 1-3 简述。为了公平对比,该科学研究适用了和不足之处作法完全相同的录像带和重构基本特征,且所有数学作法的超参保持一致。从实验室结果里,无论适用哪种基本特征,该科学研究重申的 MS-2D-TAN 作法仅能获前两位的再加绩。而在某些数据集集上,进一步修改超参可以获来得好的特质能,如所列 3 的 MS-2D-TAN*。

所列 1 Charades-STA 的实验室结果

所列 2 ActivityNet Captions 的实验室结果

所列 3 TACoS 的实验室结果

近隔时近和寄存器的花费

该科学研究还对比了近隔时近和寄存器的花费。平面图 3 里对比了广阔单微观二维基本特征平面图,浓密单微观二维基本特征平面图 [1] 以及本文重申的浓密多微观二维基本特征平面图。可以推测在当录像带总长度很短时,适用浓密多微观二维基本特征平面图可以大幅减缓近隔时近和寄存器的花费。在平面图 4 里该科学研究也与其他作法在 TACoS 上透过了对比。当科学研究其他部门适用一个隐层参数量大得多的数学作法 MS-2D-TAN (Small) 时, 该科学研究的作法可以在保证飞行速度和寄存器花费再加小的必要下,比其他作法获极高的可靠特质。而适用相当大参数量的 MS-2D-TAN 可以大幅度提高可靠特质。

平面图 3 三种各有不同二维基本特征平面图近隔时近花费的对比。N 回应多少个三组段落(clip)

平面图 4 与其他作法的近隔时近和寄存器花费对比

简述

本文针对基于重构的录像带近隔时近导向重申了一种全一新多微观二维近隔时近回应方式也并重申了一种一新多微观频谱附近网络服务(MS-2D-TAN)。该数学作法可以很好的利用附近频谱的上下文资讯,并学出新有分辨特质的录像带段落基本特征。该科学研究的数学作法所设计非常简单,也同时在三个数据集集上争得了有经济效益的结果。

参考资料文献:

[1] Songyang Zhang, Houwen Peng, Jianlong Fu, Jiebo Luo, “Learning 2D Temporal Adjacent Networks for Moment Localization with Natural Language”, AAAI 2020

[2] Jiyang Gao, Chen Sun, Zhenheng Yang and Ram Nevatia, “TALL: Temporal activity localization via language query”, ICCV2017

[3] Ranjay Krishna, Kenji Hata, Frederic Ren, Li Fei-Fei, and Juan Carlos Niebles, “Dense-Captioning Events in Videos”, ICCV 2017

[4] Michaela Regneri, Marcus Rohrbach, Dominikus Wetzel, Stefan Thater, and Bernt Schiele, and Manfred Pinkal, “Grounding action descriptions in videos”, TACL 2013

nk免疫细胞治疗肿瘤价格
中国知名干细胞专家
子宫衰老能治愈吗
严重咳嗽吃什么药能快速止咳
新冠药
癫痫治疗
肾亏吃什么
血糖升高

上一篇: 投资者提问:董秘您好:贵公司和元隆雅图合作的八方来和故宫酒产量在多少 单价...

下一篇: 华为鸿蒙手机可检测到数据线降低充电反应速度

友情链接