AI日报：小米开源首个原生端到端语音大模型；通义万相Wan2.2-Animate正式开源；腾讯混元3...

AIbase基地 · 公众号 · AI 科技自媒体 · 2025-09-19 16:14

主要观点总结

这篇文章主要报道了关于人工智能领域的最新进展，包括语音大模型、动作生成模型、音乐模型、AI商业化、漏洞修复、浏览器功能增强、视频生成模型、开源推理模型和AI智能体的发布或更新。这些进展展示了人工智能在不同领域的应用和突破。

小米公司宣布开源其首个原生端到端语音大模型，该模型基于创新的预训练架构和上亿小时的训练数据，在少样本泛化能力方面表现出色，并在多个评测基准中超越了其他闭源模型。

通义万相团队推出的动作生成模型Wan2.2-Animate在人物一致性、生成质量等方面有显著提升，支持动作模仿和角色扮演两种模式，广泛应用于短视频创作、动漫制作等领域。

Suno的v5音乐模型被视为AI音乐创作的里程碑，预计将进一步模糊人类作曲与机器生成的界限，引入更先进的语义控制和多模态输入功能。

生数科技在多模态AI领域取得显著进展，成功获得数亿元融资。通过Vidu视频大模型实现商业化成功，视频生成技术有望改变数字内容生产方式，但也需要应对版权和虚假信息等问题。

网络安全公司Radware发现了ChatGPT的漏洞，可能被黑客利用窃取用户Gmail数据。OpenAI迅速修复该漏洞，并重视用户信息安全。

谷歌将Gemini集成到Chrome浏览器中，以增强用户体验并应对竞争压力。Gemini支持跨选项卡工作、任务安排等功能，并与谷歌的多个应用深度整合。

Luma AI推出的Ray3视频生成模型以HDR能力和强大的“推理”功能为特色，支持高精度的视觉控制和专业工作流程整合，为视频创作带来革命性变化。

法国公司Mistral AI推出了其最新开源推理模型Magistral Small 1.2，该模型具备24B参数，以Apache2.0开源许可方式发布，支持高达128k的上下文处理，并引入了[THINK]特殊token增强模型表现力和灵活性。

Notion推出了首个AI智能体，能够自动生成会议笔记、分析报告、竞品评估等。该智能体支持从外部平台触发操作，并提供自定义档案页面指导行为和输出风格。

腾讯混元3D Studio的发布为设计师、游戏开发者和建模师提供了强大的AI工作台，通过原生3D分割算法、AI语义UV展开技术等实现3D资产生产周期的革命性缩短。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
推荐产品: 推荐产品
文章地址：访问文章快照

分享到微博