专栏名称: 腾讯研究院
【腾讯研究院 ★ Tencent Research Institute】 网聚智慧,连接世界!网罗互联网前沿理念、传递互联网发展声音、汇集互联网研究成果、推动互联网法治进程。
今天看啥  ›  专栏  ›  腾讯研究院

腾讯研究院AI速递 20250522

腾讯研究院  · 公众号  · 科技媒体  · 2025-05-22 00:01
    

主要观点总结

本文介绍了关于生成式AI的多个进展,包括谷歌的Veo 3、文本扩散模型Gemini Diffusion、腾讯混元加速模型、字节的语音播客模型,谷歌的Flow AI剪辑工具,Google眼镜的复活和Android XR新进展,英伟达的新研究项目DreamGen,FaceAge模型在医疗领域的应用,微软CPO关于AI时代产品经理工作方式的看法,以及关于AI未来的思考等。

关键观点总结

关键观点1: 谷歌的Veo 3实现音画同步生成功能。

Veo 3能根据提示词同时生成视频画面、对白、唇动和音效,实现完整的视听体验。

关键观点2: 字节推出豆包语音播客模型。

该模型实现了文本到双人对话播客的秒级转化,支持热点内容快速生成,具备深度搜索功能和灵感创作能力。

关键观点3: 谷歌发布Flow AI剪辑工具。

该工具支持三种生成方式,包括文生视频、图生视频和素材转视频,并具备视频剪辑功能。

关键观点4: Google联合Xreal推出Project Aura智能眼镜。

该眼镜搭载Gemini 2.5 Pro和Project Astra,实现实时翻译、视觉搜索和多模态上下文理解等功能。

关键观点5: 英伟达推出DreamGen项目。

该项目让机器人在神经网络生成的梦境世界中自主学习,通过生成大量带标签的神经轨迹实现技能掌握和泛化。

关键观点6: FaceAge登上柳叶刀。

该AI模型通过人脸照片预测生物年龄,有望用于评估癌症患者治疗预后。但目前存在训练数据局限性、隐私和医疗伦理风险等问题。

关键观点7: 微软CPO认为AI时代产品经理的工作方式将彻底改变。

在AI时代,产品经理需要强调品味和编辑能力,注重原型验证和关注用户真实反馈。未来趋势是人与Agent协作,将重新定义产品体验和工作方式。


文章预览

生成式AI 一、  真碾压Sora!谷歌Veo 3直接「开口说话」 物理 遵循 性 更 好 1. Veo 3实现音画同步生成功能,能根据提示词同时生成视频画面、对白、唇动和音效,实现完整的视听体验; 2. 基于V2A(Video-to-Audio)技术,模型能将视频像素转化为语义信号,配合文本提示生成匹配音频; 3. 模型支持长提示词理解和多步骤事件流生成,但目前仅限8秒视频,面向美国Ultra订阅用户开放,定价249.99美元/月。 https://mp.weixin.qq.com/s/rJFwZ1lLiWzFLE7jd4jGyA 二、  12秒1万token!谷歌文本「扩散模型」Gemini Diffusion 1. Gemini Diffusion采用扩散技术生成文本,速度达2000token/秒,12秒可生成1万tokens; 2. 区别于传统自回归模型从左到右生成,通过逐步优化噪声学习生成输出,可快速迭代和错误纠正; 3. 性能可与更大的模型Gemini 2.0 Flash-Lite相媲美,支持非因果推理,能一次生成整个标 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览