MovieLLM: 长视频理解的创新性 AI 框架

AI快讯 1年前 (2024) admin
3,007 0

腾讯和复旦大学的研究团队最近提出了 MovieLLM,这是一项创新性的 AI 生成框架,专注于长视频理解。该框架不仅成功解决了长视频分析中的挑战,而且通过自动生成问答数据集,极大地拓展了数据维度和深度,实现了自动化的同时极大减少了人力投入。

MovieLLM: 长视频理解的创新性 AI 框架

内容概述:

在视频理解领域,短视频分析已取得重大突破,但对于电影级别的长视频,传统模型显得力不从心。 MovieLLM 的创新之处在于通过 GPT-4 和扩散模型的结合,采用"story expanding"连续帧描述生成策略,以及"textual inversion"引导扩散模型生成一致场景的方法,成功构造了高质量、多样性的长视频数据与问答对。

方法概述:

  1. 电影情节生成: 利用 GPT-4 的生成能力,不依赖网络或现有数据集,为后续生成过程量身定制电影级关键帧描述。
  2. 风格固定过程: 使用"textual inversion"技术将剧本中生成的风格描述固定到扩散模型的潜在空间上,以保持统一美学。
  3. 视频指令数据生成: 利用已固定的风格嵌入和关键帧描述,通过风格嵌入指导扩散模型生成符合关键帧描述的连续帧,并逐步生成各种指令性问答对。

实验结果:

通过在 LLaMA-VID 模型上微调 MovieLLM 构造的数据,显著提高了模型处理不同长度视频内容的理解能力。虽然 MovieLLM 主要专注于长视频理解,但在短视频基准上也观察到了性能提升,尤其在 MSVD-QA 与 MSRVTT-QA 这两个测试数据集上相较于 baseline 模型有显著提升。

这一突破性的进展为超长视频的理解提供了新思路,也为长视频数据集的稀缺性与偏差方面的挑战提供了创新性解决方案。

版权声明:admin 发表于 2024-03-11 10:03:35。
转载请注明:MovieLLM: 长视频理解的创新性 AI 框架 | ai导航网

暂无评论

暂无评论...