标贝科技高质量数据集 打造精准维语语音识别服务
科技
科技 > 传媒 > 正文

标贝科技高质量数据集 打造精准维语语音识别服务

听说新疆又上热搜了。当然,这次还是因为传说中神秘的“喀纳斯水怪”。

虽然最后景区工作人员回应了水中黑影是哲罗鲑,否认了“水怪”的说法。但是并不妨碍人们对于神秘、美丽的新疆喀纳斯的向往。

近年来,随着“一带一路”的推进,拥有极其丰富资源的新疆作为“丝绸之路经济带”核心地区,已经成为我国西部地区经济增长重要支点,与其他民族之间的交融与日俱增,越来越多的人开始了解新疆。

新疆作为我国少数民族自治区,近50%的人口是维吾尔族,以维吾尔语为其主要使用语言,其中有很大一部分人不懂得汉语。

随着AI的飞速发展,应用场景不断扩展,智能语音设备无处不在,对于方言语音识别的需求也在日渐增加。为了让维吾尔族民众也能够享受人工智能、大数据、云计算等新技术为工作生活所带来的便利,标贝科技基于深度学习平台以及维吾尔语大量词汇,推出维吾尔语语音识别服务,助力维汉之间商业文化的交流,推动当地经济社会全面发展。

标贝维语语音识别能力

语音识别是解决让机器听得懂的问题,但是受复杂的外部因素影响,如环境噪声、多人对话、方言口音等,都会对识别结果造成一定干扰,一旦识别错误,就可能影响沟通双方对信息的理解。

标贝科技基于自研的深度神经网络训练声学模型,并采用大量维语语料数据进行模型和系统的迭代调优,最终输出可以商业化的维语语音识别服务能力,整体识别速度和准确率可以满足多种语音交互场景的个性化需求。

例如,在智能客服领域,针对人工坐席与客户的通话录音进行智能话务质检,帮助客服提升服务质量;在政务应用方面,可以为新疆地区公安、司法等机构提供智能会议语音转写方案,为法院提供智能庭审实时语音转写系统,让信息沟通变得顺畅,有效提升政法机构业务效率;在线教育场景中,精准识别维语学习者的口语发音、表达能力并进行分析,快速提高口语能力。

标贝维语语音数据库

众所周知,基于机器学习的各种技术,往往都离不开算法和数据的积累。而想要提高语音识别的准确率,就需要大量的优质语音数据作为模型训练支撑。

维吾尔语是新疆维吾尔自治区的官方语言之一,目前我国境内使用人口约有1,500万。由于其黏着性语言的特征,利用丰富的词缀可以产生超大词汇,让维吾尔语语音在采集、标注上的难度高于国内其他语言,导致维语的语音识别训练语料始终稀缺,给语音识别带来很大困难。

面对以上难题,标贝科技在上线维语语音识别服务前,就已经推出800小时、1000多人参与录音的成人维语朗读及自由交谈数据库,已经完成标注,数据质量达到商业化的要求。

成人维吾尔语朗读数据库

数据库特点:朗读类语音录音环境:安静室内

数据时长:600 h

录音人数:605人

录音语料:通用

文件格式:WAV

语音参数:16kHz/16bits

录音设备:手机

适用领域:可应用于智能客服、智能家居等语音识别场景

成人维语自由交谈数据库

数据库特点:自由交谈类语音

录音环境:安静室内

数据时长:200 h

录音人数:450人

录音语料:通用

文件格式:WAV

语音参数:16kHz/16bits

录音设备:手机

适用领域:可应用于智能会议系统、输入法、社交等语音识别场景

欢迎对以上数据集感兴趣的行业伙伴联系我们~

邮箱:business@data-baker.com

伴随此次维语语音识别能力的上线,当前标贝科技可以支持中文、英文、粤语、维语四种语言的语音识别,广泛应用于工作、生活、学习多种场景。未来,标贝科技将在技术创新和数据服务的基础上,持续为AI产业打造更准确、更高效的语音识别服务。

免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。

亲爱的凤凰网用户:

您当前使用的浏览器版本过低,导致网站不能正常访问,建议升级浏览器

第三方浏览器推荐:

谷歌(Chrome)浏览器 下载

360安全浏览器 下载