今天看啥  ›  专栏  ›  硅星人Pro

在RTE2024,窥见实时AGI的未来

硅星人Pro  · 公众号  · 科技媒体  · 2024-10-30 09:13
    

文章预览

作者 | 周一笑 邮箱 | zhouyixiao@pingwest.com 1 AI+RTE:让《Her》走进现实 GPT-4o的高级语音模式让我们看到了AI也可以具备低延迟且自然流畅的对话能力。丝滑的体验让智能助手真正摆脱了“智障”的帽子,科幻电影《Her》中的场景,走进了现实。 10月,OpenAI发布的Realtime API,让开发者可以轻松地将这种丝滑的语音体验植入自己的应用。 在此之前,需要串联多个模型的繁琐过程才能实现,例如,开发者需要使用自动语音识别工具,比如Whisper,来转录音频,将转录的文本传递给推理模型,然后使用文本转语音模型来播放响应。这种方法不仅耗时,且常常导致对话中情感、腔调和口音等重要元素的丢失。 相比之下,OpenAI的Realtime API能进一步降低语音交互的延时,能够实现更接近真人的情感和情绪表达,提供更自然的对话体验。 要实现这种体验,离不开端 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览