视觉模型落地：AI打工，干活全自动

赛博禅心 · 公众号 · · 2025-04-17 22:43

文章预览

算一下，一碟 15，这是吃了多少？答：一共14盘，合计210 AI 是可以拿来做盘点的方法：AI 数的，容我细细道来字节发了新模型今天是字节的发布会，我去了现场。豆包 1.5 深度思考模型上线，200B MoE，20B 激活参数，R1 级别的性能。豆包 1.5 深度思考模型上线但很多人没注意到是，伴随这个模型的，还有个有非常趣的小玩意儿： Doubao-1.5-vision-pro 。还有个视觉理解模型仔细看了文档后，注意到有这样一段：视觉定位能力大幅提升：支持对单目标、多目标、小目标等进行边界框或点提示进行定位，并支持基于定位进行计数，给出坐标位置，或描述所定位内容。支持 3D 定位，可基于图像进行深度预测、距离排序、深度比较等。可以广泛用在各类巡检等上商业化场景中。这是一个小小的、但很有意义的进步：大模型可以给图片稳定打标记了把图 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博