Echo

Echo 关注TA

大家好,我是Echo!

Echo

Echo

关注TA

大家好,我是Echo!

  •  普罗旺斯
  • 自由职业
  • 写了309,752,957字

该文章投稿至Nemo社区   资讯  板块 复制链接


智谱 AI 开源视频理解模型 CogVLM2-Video,可回答时间相关问题

发布于 2024/07/12 14:21 105浏览 0回复 585

感谢IT之家网友 USER 的线索投递!

IT之家 7 月 12 日消息,智谱 AI 宣布,训练了一种新的视频理解模型 CogVLM2-Video,并将其开源。

据介绍,当前大多数的视频理解模型使用帧平均和视频标记压缩方法,导致时间信息的丢失,无法准确回答与时间相关的问题。一些专注于时间问答数据集的模型过于局限于特定格式和适用领域,使得模型失去了更广泛的问答能力。

▲ 官方效果演示

智谱 AI 提出了一种基于视觉模型的自动时间定位数据构建方法,生成了 3 万条与时间相关的视频问答数据。基于这个新数据集和现有的开放领域问答数据,引入了多帧视频图像和时间戳作为编码器输入,训练出 CogVLM2-Video 模型。

智谱 AI 表示,CogVLM2-Video 不仅在公共视频理解基准上达到了最新的性能,还在视频字幕生成和时间定位方面表现出色。

IT之家附相关链接:

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。


本文由LinkNemo爬虫[Echo]采集自[https://www.ithome.com/0/781/359.htm]

本文标签
 {{tag}}
点了个评