Grok-1.5V是xAI推出的首个多模态AI模型,不仅具有强大的文本处理能力,还能够处理各种视觉信息,包括文档、图表、截图和照片等。这使得Grok能够更全面地连接数字世界和物理世界。 Grok-1.5V在此前发布的语言模型Grok-1.5的基础上,增加了视觉处理能力。它采用了创新的架构,先提取图像或视频的特征,然后使用交叉注意力层将视觉特征与文本输入融合,实现统一的理解。 在VQAv2和NLVR2等测试视觉问答和推理能力的基准测试中,Grok-1.5V取得了最先进的结果,超越了GPT-4和Gemini-3等模型。这证明了它在多模态理解方面的强大能力。 xAI认为像Grok-1.5V这样的多模态AI在现实世界应用中具有巨大潜力。例如分析医学扫描图像、理解电商产品图片,以及处理机器人和自动驾驶汽车中的视频信息等。 文章中提供了交互式演示,用户可以上传自己的图片
………………………………