影音编辑

CelebV

标签：AI视频面部视频

链接直达手机查看

CelebV-Text:一个大规模面部文本视频数据集

目前，文本驱动的生成模型以其引人注目的结果在视频编辑领域蓬勃发展。然而，对于以人脸为中心的文本到视频的生成，由于缺乏具有高质量视频和高度相关文本的合适数据集，挑战仍然严峻。在这项工作中，我们提出了一个大规模、高质量和多样化的面部文本视频数据集CelebV-Text，以促进面部文本到视频生成任务的研究。

CelebV-Text 包含 70,000 个野外面部视频剪辑，涵盖各种视觉内容。每个视频片段与所提出的半自动文本生成策略生成的 20 个文本配对，能够精确描述静态和动态属性。我们对 CelebV-Text 的视频、文本和文本-视频相关性进行了全面的统计分析，验证了其优于其他数据集的优势。此外，我们还进行了广泛的自我评估，以展示 CelebV-Text 的有效性和潜力。