专栏名称: 自动驾驶之心
自动驾驶开发者社区,关注计算机视觉、多维感知融合、部署落地、定位规控、领域方案等,坚持为领域输出最前沿的技术方向!
今天看啥  ›  专栏  ›  自动驾驶之心

Q-wen2vl/Internvl2.5 | 动态分辨率输入方案解读

自动驾驶之心  · 公众号  ·  · 2024-12-13 07:30
    

文章预览

作者 | 梦想成真 编辑 | 自动驾驶之心 原文链接:https://zhuanlan.zhihu.com/p/12081484294 点击下方 卡片 ,关注“ 自动驾驶之心 ”公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 >> 点击进入→ 自动驾驶之心 『 大语言模型 』 技术交流群 本文只做学术分享,如有侵权,联系删文 前言 每一个网络都有下采样倍数,那么输入的图像尺寸按理说应该是他的整数倍,能保证刚好被整除。以qwen2vl(vision backbone 下采样 28 倍)为例,动态分辨率核心要考虑三个点 图像在resize的时候,既需要考虑图像尺寸是 28 的整数倍 也需要考虑尽可能的保证图像resize不失真,也就是保持宽高比。比如512x512的图像,如果resize 到了128x2048,那么图像就会严重失真。 其次就是训练的泛化性,推理的时候输入更小/大的图像(尤其视频帧),模型能不能外推。 一个冷知识:mac上显示 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览