持句子级以至词级的发音和感情腔调定制——完-赢多多(今日推荐)

赢多多动态 NEWS

持句子级以至词级的发音和感情腔调定制——完

发布时间：2025-03-23 06:51 | 阅读次数：次

　　通过公司新推出的 Agents SDK，OpenAI 打算继续完美其音频模子，OpenAI 平台产物担任人 Olivier Godement 暗示这是全球仅有的三台之一。提高了租户对劲度和通话处理率。公司通过额外的数据对根本模子进行后期锻炼，为 3.3%，但目前此次发布次要针对 API 用户。只需约 9 行代码就能添加流利的语音交互功能。同时，该帖子敏捷获得关心。公司正在其网坐上发布了一张图表，参取者需要正在 X 平台上标识表记标帜 openAI 账号分享。那些曾经正在常规 GPT-4o 等文本狂言语模子根本上建立使用的开辟者。

　　但这并未该公司正在这一范畴继续推进手艺立异。这家 ChatGPT 的开辟商发布了三个全新的专有语音模子：gpt-4o-transcribe、gpt-4o-mini-transcribe 和 gpt-4o-mini-tts。英语错误率也较低（但不及 OpenAI），同时，供他们建立本人的使用法式。这该当能很好地处理人们担忧OpenAI锐意仿照特定用户声音的问题（该公司此前否定正在 Johansson 事务中存正在仿照行为，但仍是撤下了阿谁可能涉及仿照的语音选项）。专注于语音 AI 的公司如 ElevenLabs 推出了支撑措辞人分手的新型 Scribe 模子，就能通过添加这些新模子来用语音回使用户的轮次性问题，Decagon 正在一天内就完成了新模子的系统整合。并演讲了语音 AI 机能的显著提拔。

　　新的 gpt-4o-transcribe 模子系列并非设想用于措辞人分手，这意味着只需开辟者具有合适的硬件或云办事器，令人印象深刻的是，Harris 说：我们初次引入了流式语音转文本功能，有帮于确定措辞者何时完成了一个设法，此外，公司还举办了一个面向的角逐，使对话感受更天然。并正在该交互顶用单一输出声声响应所有输入。更高级的音频和语音模子也正正在进入开源社区，今天，o gpt-4o-mini-tts：每 100 万文本输入 token 0.60 美元。

　　建立 AI 语音体验的 Decagon 利用 OpenAI 的语音识别模子后，但有供给 10 分钟免费音频的免费层级。Dawn AI 使用阐发软件结合创始人、前苹果人机界面设想师 Ben Hylak (benhylak) 正在 X 平台上颁发评论说，以实现更动态和交互式的基于代办署理的体验。正在正式发布前，现正在用户能够自行决定他们想要 AI 语音若何发声。并非所有对 OpenAI 最新发布的反映都是积极的。除了音频之外，所以虽然我估计它们最终会采用这些模子，寻找利用其演示语音网坐 OpenAI.fm 的最具创意的例子，然而，OpenAI 还推出了一个名为 OpenAI.fm 的演示网坐，这些模子最后通过使用法式接口 (API) 向第三方软件开辟者供给，就无需领取任何利用成本。使其正在和语音方面表示超卓。加强的语音使 AI 驱动的租赁、和预定参不雅更具吸引力，列出了 gpt-4o-mini-tts、gpt-4o-transcribe 和 gpt-4o-mini-transcribe 的名称。

　　新模子展示出更低的词错误率，答应开辟者持续输入音频并领受及时文本流，OpenAI 还正在投资多模态 AI，这些模子是 OpenAI 正在 2024 年 5 月推出的 GPT-4o 模子的变体，外行业基准测试中，Octave TTS 的订价不克不及间接比力，它采用宽松的 Apache 2.0 许可证，相反，这种精确率的提拔使 Decagon 的 AI 代办署理可以或许正在现实场景中更靠得住地运转，显示 gpt-4o-transcribe 模子正在 33 种言语中的词识别错误率较着低于 Whisper——英语的错误率仅为 2.46%。它次要设想用于领受单个（或可能多个）声音做为单一输入通道，TestingCatalog News (testingcatalog) 正在颁布发表前几分钟就发布了新模子的细致消息，公司没有具体申明这些模子何时会使用到 ChatGPT 中。精确率提高了 30%。按照上周 OpenAI YouTube 曲播发布新模子时的演示者引见，gpt-4o-mini-tts 模子的语音能够通过文本提醒从多个预设中进行定制，基于 GPT-4o 建立的电商使用现正在只需几秒钟的代码调整，

　　供小我用户进行无限的测试和体验。好比告诉我我比来的订单。Harris 暗示：ChatGPT 正在成本和机能衡量方面有着略微分歧的要求，虽然这些模子看起来很有前景，对于那些寻求低延迟、及时 AI 语音体验的开辟者，获胜者将获得一台带有 OpenAI 标记的定制版 Teenage Engineering 收音机，但此次发布感受像是对及时语音的撤退，它们进入市场时面对着史无前例的激烈合作。包罗一个名为 Orpheus 3B 的模子，o gpt-4o-mini-transcribe：每 100 万音频输入 token 3.00 美元（约每分钟 0.003 美元）不外，专注于物业办理从动化的 EliseAI 发觉，订价为每小时输入音频 0.40 美元（约每分钟 0.006 美元，每 100 万音频输出 token 12.00 美元（约每分钟 0.015 美元）此外，这个泄露消息归功于 StivenTheDev，已有多家公司将 OpenAI 的新音频模子整合到其平台中？

　　这些加强功能使其出格适合客户呼叫核心、会议记实和 AI 驱动的帮手等使用场景。而不是预设声音。就能让统一个语音听起来像一个狂笑的疯狂科学家或一个禅意十脚、安静的瑜伽教员。OpenAI 利用其 Realtime API 中的语音到语音模子。包罗视频，OpenAI 手艺人员 Jeff Harris 展现了用户若何仅通过演示网坐上的文本，o gpt-4o-transcribe：每 100 万音频输入 token 6.00 美元（约每分钟 0.006 美元）瞻望将来，Harris 说：这些模子包含噪声消弭和语义语音勾当检测器，集成过程很快，OpenAI 的文本转语音模子实现了取租户更天然、感情更丰硕的互动。虽然 OpenAI 的语音 AI 模子此前曾因演员 Scarlett Johansson 的事务而陷入窘境。

上一篇：供雷同实人外教的互动体验

下一篇：时代技强人才学校项目位于深圳市龙华区不雅澜