主要观点总结
谷歌推出的视频生成模型Veo 3具有强大的电影质感短片生成能力,只需一句提示词即可生成音画同步的短片。DeepMind首席技术官在访谈中透露了Veo 3背后的技术,包括Deep Think模式,该模式能构建并推理多条并行的思维链,以及AGI竞赛的进展。Veo 3目前不是免费开放的,需要订阅Google Gemini的AI Ultra才能使用。
关键观点总结
关键观点1: Veo 3功能强大,能够生成电影质感的短片,且通过文本实现原生的音画同步生成。
Veo 3能够理解和遵循文本指令,生成高质量的短片,包括对话、音效和背景噪音。网友对其效果表示惊叹,认为好莱坞可能会受到影响。
关键观点2: Deep Think模式改变了模型的思考方式,让模型在推理时能够花费更多时间来思考。
Deep Think模式的核心在于构建并推理多条并行的思维链,这更接近于人类的复杂思维过程。DeepMind首席技术官认为,这种模式的价值很难量化,但如果能提高模型的理解能力,将带来巨大的进步。
关键观点3: AGI竞赛已经超越单纯的算力竞赛,涉及到模型规模、架构、算法、数据等多个方面的改进。
DeepMind首席技术官认为,实现AGI需要在基础研究上实现突破和发明。AGI是一个雄心勃勃的研究问题,需要尝试不同的方法,包括改进模型的关键要素和创新。
文章预览
新智元报道 编辑:英智 犀牛 【新智元导读】 Veo 3实测来袭:从会说话的松饼到电影质感的短片,一句提示词就能打造电影质感短片,还能音画同步,好莱坞真的要慌了?DeepMind首席技术官更在访谈中透露,Deep Think模式像多线程大脑般并行推理,而AGI的竞赛早已超越单纯「堆算力」。 外星人驾驶飞碟给你送披萨,月球撞上地球——这不是科幻电影作品,而是来自于谷歌刚刚推出的视频生成模型Veo 3。 只用一句提示词就拍出电影质感的短片。 不仅如此,Veo 3还能通过文本实现原生的音画同步生成。 上几个实例先。 视频的场景设定在一个复古的餐厅,当氤氲的烟雾在餐桌上翻腾时,女郎的唇形却配着清晰立体的对白。 画面中,一个穿着黑色晚礼服的女人和一个穿西装的男人坐在一张小圆餐桌上。桌面点着一盏小灯,旁边还有一杯威士忌和一个
………………………………