机场延误广播瞬间被手机 App 用母语解释并给出改签建议;会议中边说边看到中英字幕并自动生成要点。是什么技术让这些场景成为可能?答案是 OpenAI 于 2026 年 5 月在 Realtime API ...
刚刚,OpenAI 放出了三个全新的实时语音模型,其中一个翻译模型,能把 70 多种语言实时翻译成 13 种语言输出,每分钟成本 2 毛钱。 GPT-Realtime-2,是 OpenAI 目前最强的语音模型,具备 GPT-5 ...
OpenAI Realtime API 的「说明书」。 OpenAI 实时 API 的架构 对话语音是 OpenAI 实时 API 支持的核心用例。对话语音 API 需要: 管理多个用户和 LLM 轮次的对话状态; 确定用户何时结束对话(并期待 LLM 的响应); 处理用户中断 LLM 输出; 用户语音的文本转录、函数调用 ...
5月8日,OpenAI在API中加入三款新一代语音模型:主打语音推理与对话的GPT‑Realtime‑2、突出实时多语言翻译的Realtime‑Translate以及聚焦语音转文本的Realtime‑Whisper。
GPT-Realtime-2 专为实时交互设计,是首款具备 GPT-5 级推理能力的语音模型。它在保持对话自然流畅的前提下,能在对话过程中进行推理、调用工具,并处理用户的打断或纠正。这意味着开发者可以构建更复杂的语音助手,并能执行多步骤任务。
昨天凌晨,OpenAI发布了三款音频模型:GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper。
10月25日,RTE 2024 第十届实时互联网大会正式开幕。本次大会由声网和RTE开发者社区联合主办,以“AI 爱”为主题,推出覆盖实时互联网全生态的论坛及周边活动共计20余场。声网创始人兼CEO赵斌在主论坛以《实时互动十年:从Web RTC到生成式AI时代的RTE》为题作 ...
OpenAI近日正式推出三款全新实时语音模型,为开发者社区带来突破性技术工具。这三款模型分别聚焦不同应用场景,通过集成至Realtime API向全球开发者开放,标志着语音交互技术进入多模态实时处理新阶段。
OpenAI 近日推出三款面向实时语音场景的专用模型,通过Realtime API向全球开发者开放调用。这三款模型分别聚焦语音推理、多语言翻译和低延迟转录三大核心需求,旨在破解传统语音交互中存在的延迟响应、打断处理困难及跨语言支持不足等痛点,为智能语音助手、实时会议系统等应用提供底层技术支撑。
IT之家 10 月 2 日消息,科技媒体 The Decoder 昨日(10 月 1 日)发布博文,报道称 OpenAI 在旧金山开发者大会(DevDay)上,发布了 Realtime API,可以让开发者调用该 API 在第三方应用中集成语音合成技术。 OpenAI 表示开发者通过调用新的 Realtime API,可以在其应用中添加 ...
在语音人工智能领域,Inworld AI近日宣布推出一款名为实时TTS-2的新型语音模型,通过其Inworld API和Inworld Realtime API的研究预览版本,为传统语音交互方式带来全新变革。这款模型突破了传统语音合成仅依赖文本输入的局限,能够实时分析对话中的音频信号,捕捉用户的语调变化、节奏特征和情感倾向,从而生成更符合人类交流习惯的语音响应。 该模型的核心创新在于其闭环系统架构 ...