智东西3月21日报道,OpenAI在其API中推出全新一代音频模型,分别为语音转文字模型gpt-4o-transcribe、gpt-4o-mini-transcribe,以及文字转语音模型gpt-4o-mini-tts。据OpenAI介绍,这些模型大幅降低了单词识别错误率、语言识别能力与准确性,尤其是在涉及口音、嘈杂环境和不同语音速度等具有挑战性的场景。
开发者还可以让文本转语音模型以特定的方式说话,如“像富有同情心的客户服务人员一样说话”,或是“机器人腔调”、“疯狂科学家风格”。这一功能提升了语音智能体的定制化程度,让智能体与用户的交互更为逼真、丰富。
为展示本次发布的模型,OpenAI还专门创建了一个独立网站,用户可在网站内免费体验模型文字转语音的能力,而语音转文字能力需要通过API访问才可使用。
发布后,智东西也第一时间上手体验了新模型的文字转语音能力。它不仅能流利、富有情感地说英文,还能用意大利语报菜名,用粤语打推销电话,不过,在大部分中文场景中,这款文字转语音模型还有较大的提升空间。
价格方面,gpt-4o-transcribe的定价为每分钟0.006美元(约合人民币0.04元);gpt-4o-mini-transcribe的定价为每分钟$0.003美元(约合人民币0.02元);gpt-4o-mini-tts的定价为每分钟0.015美元(约合人民币0.11元)。
体验链接:https://www.openai.fm/
一、定制化程度大幅提高,中文语音效果略显生硬
进入体验网址首页,可以看到目前OpenAI提供了11种预置的声音选项。不过,他们给声音起的名字不太直观,用户需要逐一试听才能了解背后的声音到底有什么特点。
在未经提示词调整前,这些语音的听感大多较为普通,不带过多情感,保留了一定的“机器感”。
用户可以在选择声音后,指定特定的风格或人设,如“冷静”、“耐心老师”、“友好”、“美食主厨”等等。
智东西尝试了OpenAI提供的“美食主厨”选项,这位“主厨”的人设是一位意大利人,需要以充满激情的腔调讲述当晚的菜单。
提交内容后,模型在数秒内返回了结果。不得不承认,这一语音的感染力很强,也符合对意大利人语音语调的刻板印象。这位“主厨”不仅能用意大利语报菜名,还能自如地切换回英文进行讲解,细听之后,我们可以发现他所说的英文并非完全标准,带有一定意大利口音,可谓是细节拉满了。
模型还能模仿特定历史时期的说话方式,这是通过定制化的提示词实现的。选择“中世纪骑士”选项后,模型在情感、语气、情绪、发音、停顿等方面都收到了极为详细的指引。可以看到,实现这一效果的提示词长达100多个单词,涉及多个方面的定义,如果用户自行撰写,应该需要具备一定提示词工程基础。
正如提示词所要求的那样,这段语音具有较强的戏剧性,发音清晰、从容,略带正式感,在涉及特定古英语内容时也做了应有的处理。不过,平心而论,这一效果并非完全单靠模型本身所实现,还需要与恰如其分的文本内容配合,才能完美实现。
智东西也测试了模型在中文场景的能力。为提高效率,我们使用大模型仿照OpenAI提供的提示词范本,撰写了中文提示词和文本。这一声音的人设是一位语文老师,文本内容是一堂古诗课。
模型在生成中文语音时的速度也较为理想,基本实现了秒出结果,但与英文语音丰富的情绪和语音语调变化相比,中文的语音效果略显生硬,声音缺乏起伏与变化,也没有亲和力。
智东西还尝试了多个不同角色的中文表现,依旧出现了类似的问题。下方案例是一个常见的推销场景,相信大部分人在接到这样的电话时,都能第一时间判断出这是由AI生成的。
在方言上,智东西尝试了闽南语、粤语、山东话、河南话等指令,最终只有粤语成功返回了结果,其他的指令返回的结果与普通话没有太大差别。
二、超越whisper,转写准确度提升
本次OpenAI还带来了2款新的语音转文字模型。OpenAI上一代语音转文字模型whisper最早于2022年发布,后陆续更新至whisper-large-v3版本。
本次发布的gpt-4o-transcribe和gpt-4o-mini-transcribe在多个基准测试上超过了原有的whisper模型,在单词识别错误率上有明显进步。
从语言上来看,gpt-4o-transcribe和gpt-4o-mini-transcribe在“高资源语言”,即使用人数较多、训练数据充足的语言上表现出色,如英语、西语、葡萄牙语、法语、中文等。众多高资源语言中,模型在中文上的表现相对较差。
而在低资源语言上,gpt-4o-transcribe和gpt-4o-mini-transcribe实现了较大的改进,如孟加拉语(bn)的错误率就从whisper的1%左右下降至0.3%左右,而在印度地方语言古吉拉特语(gu)的错误率也下降至0.4%。
OpenAI还将这两款模型与谷歌、Anthropic等厂商的模型进行对比,在大部分语言上,OpenAI新模型的表现要优于其他模型。
OpenAI称,这些新的语音转文本模型能更好地捕捉语音的细微差别,减少误识别,并提高转录的可靠性。
在博客文章中,OpenAI分享了语音模型能力提升背后的技术细节。gpt-4o-transcribe和gpt-4o-mini-transcribe分别基于GPT-4o和GPT-4o-mini架构,并在专门的音频数据集上进行了大规模预训练。
此外,OpenAI使用改进模型蒸馏技术,将大型音频模型的知识迁移到更小、更高效的模型。这一过程中采用了自博弈技术,蒸馏数据集有效地捕捉了真实的对话模式,有助于小型模型提供出色的对话质量和响应速度。
OpenAI的语音转文字模型使用了以强化学习为主导的范式,这一方法显著提高了精确度并减少了幻觉。
结语:音频生成和转录技术前景值得期待
根据实测结果来看,OpenAI本次发布的语音转文本模型在whisper的基础上并未实现明显提升,有不少网友称这种程度的提升不值得专门付费。而在文本转语音方面,这款模型确实带来了一些惊喜,不过更多的是在英语与其他西方语言上,中文场景的真实性和可用性还有待改进。
OpenAI称,他们未来会进一步提升音频模型的智能性和准确性,并允许开发者引入自定义声音,从而构建更个性化的体验。作为一个能极大提升交互体验的模态,OpenAI在音频生成和转录方面的探索值得期待。
“特别声明:以上作品内容(包括在内的视频、图片或音频)为凤凰网旗下自媒体平台“大风号”用户上传并发布,本平台仅提供信息存储空间服务。
Notice: The content above (including the videos, pictures and audios if any) is uploaded and posted by the user of Dafeng Hao, which is a social media platform and merely provides information storage space services.”
凤凰网数码官方微信