Q-wen2vl/Internvl2.5 | 动态分辨率输入方案解读

自动驾驶之心 · 公众号 · · 2024-12-13 07:30

文章预览

作者 | 梦想成真编辑 | 自动驾驶之心原文链接：https://zhuanlan.zhihu.com/p/12081484294 点击下方卡片，关注“ 自动驾驶之心 ”公众号戳我-> 领取自动驾驶近15个方向学习路线 >> 点击进入→ 自动驾驶之心『大语言模型』技术交流群本文只做学术分享，如有侵权，联系删文前言每一个网络都有下采样倍数，那么输入的图像尺寸按理说应该是他的整数倍，能保证刚好被整除。以qwen2vl（vision backbone 下采样 28 倍）为例，动态分辨率核心要考虑三个点图像在resize的时候，既需要考虑图像尺寸是 28 的整数倍也需要考虑尽可能的保证图像resize不失真，也就是保持宽高比。比如512x512的图像，如果resize 到了128x2048，那么图像就会严重失真。其次就是训练的泛化性，推理的时候输入更小/大的图像（尤其视频帧），模型能不能外推。一个冷知识：mac上显示 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博