OpenAI深夜发布3个全新的语音模型，一手实测都在这了。

大数据文摘 · 公众号 · 大数据 · 2025-03-21 18:02

文章预览

大数据文摘受权转载自数字生命卡兹克作者：卡兹克、dongyi OpenAI最近总是喜欢搞突袭。昨晚11点的时候突然发了一个预告，4秒钟的音频的大概意思，就是太平洋时间10点我们发个产品。然后就在北京时间凌晨1点，开了一场直播，发了一些新玩意。总结一下就是： 2个比Whisper更好的语音转文本的STT模型： gpt-4o-transcribe 和 gpt-4o-mini-transcribe ，1个文本生成语音的TTS模型 : gpt-4o-mini-tts 。这些模型都提供了API的接入方式。没了。一个一个说。 1. STT模型：gpt-4o-transcribe gpt-4o-transcribe 和 gpt-4o-mini-transcribe 说是两个，其实也就是一个了，后者是前者的小参数版。这个模型的作用跟当年的 Whisper是一样的，跟大家在剪映里用的一键生成字幕的作用也是一样的，就是把一段语音，转成对应的正确的文本。我们一般把他们称为，STT（Speech-to-Text）模型。这个模型 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博