看啥推荐读物
专栏名称: 包包算法笔记
数据挖掘、机器学习、深度学习、Kaggle竞赛分享与交流。
今天看啥  ›  专栏  ›  包包算法笔记

挑战GPT4v?马斯克xAI刚刚发布Grok 1.5v

包包算法笔记  · 公众号  ·  · 2024-04-14 07:57
Grok-1.5V是xAI推出的首个多模态AI模型,不仅具有强大的文本处理能力,还能够处理各种视觉信息,包括文档、图表、截图和照片等。这使得Grok能够更全面地连接数字世界和物理世界。  ​Grok-1.5V在此前发布的语言模型Grok-1.5的基础上,增加了视觉处理能力。它采用了创新的架构,先提取图像或视频的特征,然后使用交叉注意力层将视觉特征与文本输入融合,实现统一的理解。 在VQAv2和NLVR2等测试视觉问答和推理能力的基准测试中,Grok-1.5V取得了最先进的结果,超越了GPT-4和Gemini-3等模型。这证明了它在多模态理解方面的强大能力。 ​  xAI认为像Grok-1.5V这样的多模态AI在现实世界应用中具有巨大潜力。例如分析医学扫描图像、理解电商产品图片,以及处理机器人和自动驾驶汽车中的视频信息等。   文章中提供了交互式演示,用户可以上传自己的图片 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照