专栏名称: 腾讯研究院

【腾讯研究院 ★ Tencent Research Institute】网聚智慧，连接世界！网罗互联网前沿理念、传递互联网发展声音、汇集互联网研究成果、推动互联网法治进程。

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

腾讯研究院AI速递 20250522

腾讯研究院 · 公众号 · 科技媒体 · 2025-05-22 00:01

主要观点总结

本文介绍了关于生成式AI的多个进展，包括谷歌的Veo 3、文本扩散模型Gemini Diffusion、腾讯混元加速模型、字节的语音播客模型，谷歌的Flow AI剪辑工具，Google眼镜的复活和Android XR新进展，英伟达的新研究项目DreamGen，FaceAge模型在医疗领域的应用，微软CPO关于AI时代产品经理工作方式的看法，以及关于AI未来的思考等。

关键观点总结

关键观点1: 谷歌的Veo 3实现音画同步生成功能。

Veo 3能根据提示词同时生成视频画面、对白、唇动和音效，实现完整的视听体验。

关键观点2: 字节推出豆包语音播客模型。

该模型实现了文本到双人对话播客的秒级转化，支持热点内容快速生成，具备深度搜索功能和灵感创作能力。

关键观点3: 谷歌发布Flow AI剪辑工具。

该工具支持三种生成方式，包括文生视频、图生视频和素材转视频，并具备视频剪辑功能。

关键观点4: Google联合Xreal推出Project Aura智能眼镜。

该眼镜搭载Gemini 2.5 Pro和Project Astra，实现实时翻译、视觉搜索和多模态上下文理解等功能。

关键观点5: 英伟达推出DreamGen项目。

该项目让机器人在神经网络生成的梦境世界中自主学习，通过生成大量带标签的神经轨迹实现技能掌握和泛化。

关键观点6: FaceAge登上柳叶刀。

该AI模型通过人脸照片预测生物年龄，有望用于评估癌症患者治疗预后。但目前存在训练数据局限性、隐私和医疗伦理风险等问题。

关键观点7: 微软CPO认为AI时代产品经理的工作方式将彻底改变。

在AI时代，产品经理需要强调品味和编辑能力，注重原型验证和关注用户真实反馈。未来趋势是人与Agent协作，将重新定义产品体验和工作方式。

文章预览

生成式AI 一、真碾压Sora！谷歌Veo 3直接「开口说话」物理遵循性更好 1. Veo 3实现音画同步生成功能，能根据提示词同时生成视频画面、对白、唇动和音效，实现完整的视听体验； 2. 基于V2A（Video-to-Audio）技术，模型能将视频像素转化为语义信号，配合文本提示生成匹配音频； 3. 模型支持长提示词理解和多步骤事件流生成，但目前仅限8秒视频，面向美国Ultra订阅用户开放，定价249.99美元/月。 https://mp.weixin.qq.com/s/rJFwZ1lLiWzFLE7jd4jGyA 二、 12秒1万token！谷歌文本「扩散模型」Gemini Diffusion 1. Gemini Diffusion采用扩散技术生成文本，速度达2000token/秒，12秒可生成1万tokens； 2. 区别于传统自回归模型从左到右生成，通过逐步优化噪声学习生成输出，可快速迭代和错误纠正； 3. 性能可与更大的模型Gemini 2.0 Flash-Lite相媲美，支持非因果推理，能一次生成整个标 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博