看啥推荐读物
专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
今天看啥  ›  专栏  ›  新智元

大视频模型是世界模型?DeepMind/UC伯克利华人一作:预测下一帧就能改变世界

新智元  · 公众号  · AI  · 2024-03-03 12:46
  新智元报道  编辑:润 好困【新智元导读】谷歌DeepMind、UC伯克利和MIT的研究人员认为,如果用大语言模型的思路来做大视频模型,能解决很多语言模型不擅长的问题,可能能更进一步接近世界模型。没人怀疑,OpenAI开年推出的史诗巨作Sora,将改变视频相关领域的内容生态。但Google DeepMind、UC伯克利和MIT的研究人员更进一步,在他们眼里,「大视频模型」也许能够像世界模型一样,真正的做到理解我们身处的这个世界。论文地址:https://arxiv.org/abs/2402.17139在作者看来,视频生成将彻底改变物理世界的决策,就像语言模型如何改变数字世界一样。研究人员认为,与文本类似,视频可以作为一个统一的接口,吸收互联网知识并表征不同的任务。例如,经典的计算机视觉任务可以被视为下一代帧生成任务(next-frame generation task)。模型可以通过生成操 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照