专栏名称: 腾讯研究院

【腾讯研究院 ★ Tencent Research Institute】网聚智慧，连接世界！网罗互联网前沿理念、传递互联网发展声音、汇集互联网研究成果、推动互联网法治进程。

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

腾讯研究院AI速递 20250507

腾讯研究院 · 公众号 · 科技媒体 · 2025-05-07 00:01

主要观点总结

这篇文章主要介绍了生成式AI领域的多个新闻和进展，包括OpenAI的非营利转型、英伟达的开源模型发布、多个工具的PDF渲染功能、音乐生成模型的升级、语音识别模型的开源、音乐生成大模型的提速和多语言支持，以及AI在古希腊著作重建中的应用和AI在数学生成工具中的价值等。

关键观点总结

关键观点1: OpenAI放弃完全营利性转型，将由非营利组织继续控制，并承诺继续专注AGI发展造福人类使命。

OpenAI进行架构调整，取消利润上限制度，专注于发展生成式人工智能以造福人类。

关键观点2: 英伟达发布Llama-Nemotron开源模型家族，在推理性能和吞吐量上超越DeepSeek-R1。

英伟达推出的模型家族包含多种规格，支持动态切换推理模式，并优化了部署效率。

关键观点3: Grok新增PDF渲染功能，支持一句话指令快速生成格式化PDF文档。

该功能基于LaTeX代码实现，支持多种文档类型，相比ChatGPT在排版质量和用户体验上有明显优势。

关键观点4: Suno V4.5正式上线，支持长达8分钟的音乐生成。

该版本提升了音乐描述识别能力，可精准理解抽象表达，并支持音乐元素的精细解构。

关键观点5: 英伟达开源语音识别模型Parakeet，能在1秒内转录60分钟音频。

该模型采用FastConformer-TDT架构，可一次性处理长时间音频片段，并开创了语音识别的新纪录。

关键观点6: ACE-Step音乐生成大模型实现15倍提速，并支持多语言。

该模型结合了深度压缩自编码器、扩散模型和线性Transformer，可以快速生成多语言音乐。

关键观点7: AI技术帮助重建古希腊著作，重新解读碳化古卷中的智慧。

研究人员利用AI图像分割和墨迹检测技术成功读取了赫库兰尼姆古卷的部分内容，展现了AI在古籍保护领域的潜力。

关键观点8: 陶哲轩在ChatGPT的协助下独立开发了一个数学验证工具，展示了AI在复杂数学工具开发中的实用价值。

顶级数学家陶哲轩利用ChatGPT完成了数学工具的开发，并认为到2026年AI将成为数学研究的可靠合作者。

关键观点9: GPT生成的吉卜力风格图像不侵权问题引发讨论，艺术家的核心竞争力在于思想深度和时代洞察。

法律专家表示单纯模仿吉卜力画风通常不构成侵权，但使用其具体角色和情节可能存在风险。

文章预览

生成式AI 一、刚刚，OpenAI放弃营利性转型！奥特曼：非营利组织继续掌控 1. OpenAI放弃完全营利性转型，将由非营利组织继续控制，同时营利性机构转为公益公司（PBC）； 2. 公司架构调整后取消利润上限制度，采用常规股权结构，非营利组织将成为PBC主要股东； 3. 承诺继续专注AGI发展造福人类使命，并计划开源部分高性能模型。 https://mp.weixin.qq.com/s/Z1bl0zfwNXeEcoDZFtpWmQ 二、公开一切，优于DeepSeek-R1？英伟达开源Llama-Nemotron家族 1. 英伟达发布Llama-Nemotron开源模型家族，包含8B到253B三种规格，支持动态切换推理模式，遵循开放商业许可； 2. LN-Ultra运用Puzzle框架和FFN融合技术优化部署效率，在推理性能和吞吐量上超越DeepSeek-R1； 3. 通过Qwen和DeepSeek-R1教师模型支持，结合多阶段训练和强化学习，全面提升模型推理与通用对话能力。 https://mp.weixin.qq.com/s/Ofw7l ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博