Echo

关注TA

大家好，我是Echo！

普罗旺斯
自由职业
写了309,371,305字

该文章投稿至Nemo社区资讯板块复制链接

阿里通义千问推出 Qwen2-VL：开源 2B / 7B 模型，处理任意分辨率图像无需分割成块

发布于 2024/08/30 08:54 177浏览 0回复 794字

IT之家 8 月 30 日消息，通义千问团队今天对 Qwen-VL 模型进行更新，推出 Qwen2-VL。

Qwen2-VL 的一项关键架构改进是实现了动态分辨率支持（Naive Dynamic Resolution support）。与上一代模型 Qwen-VL 不同，Qwen2-VL 可以处理任意分辨率的图像，而无需将其分割成块，从而确保模型输入与图像固有信息之间的一致性。这种方法更接近地模仿人类的视觉感知，使模型能够处理任何清晰度或大小的图像。

阿里通义千问推出 Qwen2-VL：开源 2B / 7B 模型，处理任意分辨率图像无需分割成块

另一个关键架构增强是 Multimodal Rotary Position Embedding（M-ROPE）。通过将 original rotary embedding 分解为代表时间和空间（高度和宽度）信息的三个部分，M-ROPE 使 LLM 能够同时捕获和集成 1D 文本、2D 视觉和 3D 视频位置信息。这使 LLM 能够充当多模态处理器和推理器。

阿里通义千问推出 Qwen2-VL：开源 2B / 7B 模型，处理任意分辨率图像无需分割成块