带发生器的端到端视频问答生成-预测试网络

作者: | Hung-Ting Su | Chen-Hsi Chang | Po-Wei Shen | Yu-Siang Wang | Ya-Liang Chang | Yu-Cheng Chang | Pu-Jen Cheng | Winston H. Hsu |

摘要:研究了一种新的多媒体视频问答任务--视频问答生成(VQAG).由于昂贵的数据注释成本,许多广泛使用的大规模视频QA数据集,如视频-QA、MSVD-QA和MSRVTT-QA,都是使用标题问题生成(CapQG)自动注释的,它输入字幕而不是视频本身。由于字幕既不完全代表视频,也不总是实际可用的,因此通过视频问答生成(VQAG)生成基于视频的问答对是至关重要的。现有的视频到文本(V2T)方法,尽管以视频作为输入,但只产生一个问题。在本文中,我们提出了一种新的模型生成器-预测试器网络,主要包括两个部分:(1)联合问答生成器(JQAG),它生成一个具有相应答案的问题,允许视频问题“回答”训练。(2)预测试器(PT)通过尝试回答生成的问题来验证所生成的问题,并根据模型提出的答案和地面真实的答案对预先测试的答案进行检验。我们用仅有的两个现有的大规模人注视频QA数据集来评价我们的系统,并实现了最先进的问题生成性能。此外,仅在视频QA任务上使用我们生成的QA对,我们可以超过一些受监督的基线。我们将生成的问题应用于视频QA应用程序,并且仅使用生成的问题超过一些监督基线。作为一种训练前策略,当采用半监督(20%)或带注释数据的全监督学习时,我们优于CapQG和Transfer学习方法。这些实验结果为视频QA训练提供了新的视角。

论文地址

https://arxiv.org/abs/2101.01447v1

下载地址

https://arxiv.org/pdf/2101.01447v1.pdf

全部源码

https://github.com/htsucml/VQAG

问答生成转换学习视频答疑

相关推荐

暂无评论

微信扫一扫,分享到朋友圈

带发生器的端到端视频问答生成-预测试网络