CelebV-Text:一个大规模面部文本视频数据集
目前,文本驱动的生成模型以其引人注目的结果在视频编辑领域蓬勃发展。然而,对于以人脸为中心的文本到视频的生成,由于缺乏具有高质量视频和高度相关文本的合适数据集,挑战仍然严峻。在这项工作中,我们提出了一个大规模、高质量和多样化的面部文本视频数据集CelebV-Text,以促进面部文本到视频生成任务的研究。
CelebV-Text 包含 70,000 个野外面部视频剪辑,涵盖各种视觉内容。每个视频片段与所提出的半自动文本生成策略生成的 20 个文本配对,能够精确描述静态和动态属性。我们对 CelebV-Text 的视频、文本和文本-视频相关性进行了全面的统计分析,验证了其优于其他数据集的优势。此外,我们还进行了广泛的自我评估,以展示 CelebV-Text 的有效性和潜力。
相关导航
暂无评论...