标贝科技语音合成技术再升级,倾力打造AI语音极致体验

来源:东方网    2021-03-25 14:52
来源: 东方网
2021-03-25 14:52 
分享
分享到
分享到微信

2020年是智能语音交互技术加速落地的一年。防疫常态化的要求下,远程会议、在线教育、在线办公已成为人们生活中的标配,智能语音交互技术规模化发展由此得到了极大的推动。

为了赋予合成声音更丰富的情感表现力和个性化,打造AI语音极致体验,近期,标贝科技再一次进行语音合成技术“升级改造”,于3月25日完成TTS3.0版本的验收,正式上线标贝科技官方网站。

全新技术升级,让AI声音更富表现力

发音效果显著提升

标贝科技升级的TTS3.0技术采用全新的非自回归声学模型,在发音效果上有了显著提升,对不同角色和情感表达的判断更加准确,输出的音质稳定、清晰、顺畅,音色富有表现力;声码器则采用GAN结构,可以高效且真实的还原波形,增加了合成声音的真实质感。

多音字、停顿更加准确

此外,标贝科技TTS3.0在发音细节上也进行了优化。例如,基于Mask-based Model神经网络多音字模型,对所有多音字进行统一建模,提升了语音合成时多音字发音的准确率;在韵律方面,采用多任务的神经网络模型,利用韵律间的层次关系,在同一个模型结构下,对多个韵律等级进行建模,对合成语音在高低音和停顿的处理更加自然和流畅。

模型兼容

标贝科技本次TTS3.0使用了全新的声学模型和声码器,同时,保持了对TTS2.0旧模型的全部兼容,最大程度地保证系统服务的无缝升级,减少老客户升级带来的开发成本。

更多音色加持,助力语音场景快速落地

此前,基于海量语音数据的优势,在TTS1.0、TTS2.0技术基础上,标贝科技已经推出男声、女声、老人、童声等多音色,中文、英文、中英混读、小语种、方言等多语种的解决方案,并支持用户个性化的需求定制,可以满足大部分客户在车载、有声阅读、智能客服、新闻媒体、影视解说等多领域应用需求,并已与国内外百余家企业客户建立合作,服务项目累计超过500项。

本次TTS3.0技术升级,标贝科技经过多次大规模产品体验评测后,再次扩充音库量及场景化方案。在官方网站正式上线了9大音色,包括童声、青年男女生,深度覆盖有声阅读、语音交互、智能客服等领域更多场景需求。

与TTS1.0、TTS2.0相同,本次TTS3.0同样支持SDK 、流式/非流式API 、MRCP协议等对接形式,接口同步/异步调用,且整体合成速度较之前提升了1.6倍,全效助力各开发者快速落地声音场景应用。

丰富情感表达,助推有声阅读创作

近些年,我国有声书市场发展迅速,各大音频平台,阅读应用、视频网站甚至是传统出版行业也都尝试进入有声书市场。据相关资料显示,2020年中国有声书市场规模已达到了95.6亿元,同比增长50.3%。5G时代的到来,有声阅读必将引起更大规模的爆发。

标贝科技TTS3.0结合最新的语音技术、海量的文本和声学数据以及大规模计算能力,让机器的声音情感表现力更加真实自然,充分满足当下有声阅读场景的需求。

比如有声小说中,最难表达的人物情绪和对话,TTS3.0技术做到很多细节的处理,让合成的声音突出对话重音及语气,让人物情感表达更加细腻,犹如真人“配音”,使听众更直接明白小说情节,进一步享受听觉“盛宴”。

标贝科技作为一家聚焦智能语音交互和AI数据服务的企业,经过五年的发展,现已推出了AI数字虚拟人、智能客服、智慧媒体等一站式解决方案;在产品方面,推出标贝悦读、恐龙贝克两大C端产品,已经实现从原有的单点语音技术服务升级至语音、图像、虚拟形象等多技术模块融合的行业解决方案。

标贝科技TTS3.0技术升级,迎合了语音合成发展的新趋势,将智能语音应用提速增效,实现用户极致体验新突破。未来,标贝科技将继续深耕智能语音技术研究与发展,为更多语音合成应用场景提供服务。

免责声明:该文章系我网转载,旨在为读者提供更多新闻资讯。所涉内容不构成投资、消费建议,仅供读者参考。
【责任编辑:钟经文】
中国日报网版权说明:凡注明来源为“中国日报网:XXX(署名)”,除与中国日报网签署内容授权协议的网站外,其他任何网站或单位未经允许禁止转载、使用,违者必究。如需使用,请与010-84883777联系;凡本网注明“来源:XXX(非中国日报网)”的作品,均转载自其它媒体,目的在于传播更多信息,其他媒体如需转载,请与稿件来源方联系,如产生任何问题与本网无关。
版权保护:本网登载的内容(包括文字、图片、多媒体资讯等)版权属中国日报网(中报国际文化传媒(北京)有限公司)独家所有使用。 未经中国日报网事先协议授权,禁止转载使用。给中国日报网提意见:rx@chinadaily.com.cn