文章预览
本文转载来源:机器之心公众号,不代表官方立场 今天凌晨,OpenAI 突然开启了新产品发布直播,这次新发布的内容全是音频模型。 据介绍,它们实现了新的 SOTA 水平,在准确性和可靠性方面优于现有解决方案——尤其是在涉及口音、嘈杂环境和不同语速的复杂场景中。 这些改进提高了语音 / 文本转录应用的可靠性,新模型特别适合客户呼叫中心、会议记录转录等用例。 基于新的 API,开发人员第一次可以指示文本转语音模型以特定方式说话,例如让 AI「像富有同情心的客户服务人员一样说话」,从而为语音智能体开启新的定制化维度,可以实现各种定制应用程序。 OpenAI 还开放了一个网站,让你可以直接测试音频大模型的能力: https://www.openai.fm/ OpenAI 于 2022 年推出了第一个音频模型,并一直致力于提高这些模型的智能性、准确性和可靠性。
………………………………