作业帮受邀出席AISummit全球人工智能技术大会 并出任智能语音专场出品人

来源:东方网    2022-08-12 15:24
来源: 东方网
2022-08-12 15:24 
分享
分享到
分享到微信

近日,以“驱动·创新·数智”为主题的AISummit全球人工智能技术大会在线上举办,作业帮首席算法专家宋旸受邀出席大会,并出任“智能语音的应用与探索”论坛专场出品人。在该专场论坛上,来自作业帮、字节跳动、微软亚洲研究院、Soul语音、58同城等业内资深技术负责人、专家从各自业务实践的角度,分享了智能语音应用领域的前瞻思考。

智能语音即声音信息在人机间的交互模拟,是AI三大核心基础技术之一,同时也是人工智能落地最早的技术之一。作业帮首席算法专家宋旸出任该技术方向论坛专场的出品人。他说,自己是在上世纪90年代中期接触语音识别技术,早期产品如IBM via voice,是当时为数不多的成熟语音识别软件,使用前需要花十几分钟录制本人的声音语料做适应性训练,使用中还需要字正腔圆缓慢的朗读。

但是今天,日趋成熟的语音识别技术可以将开会、电话、视频节目等各种场景下自由的语音对话以极高准确率转写成文本,可以让三岁孩子很自然的和音箱交互,问问题,听儿歌。宋旸表示,未来,随着多模态,预训练大模型等新技术逐步在智能语音领域落地成熟,可以更大程度利用好现有的海量数据,借助预训练大模型的优势,在少数据低资源的领域获得更大的突破。

在本次智能语音论坛专场上,作业帮语音技术团队负责人王强强首先从语音识别、评测、发音纠错、语音合成几个方向,介绍了作业帮的语音技术实践。在语音识别方面,作业帮主打数据高效的端到端语音识别系统。端到端语音识别的优势比较明显,不需要传统的 HMM-GMM/DNN 方案中的决策树聚类操作和 alignment 操作,流程更简单,也不需要发音词典,避免额外的人为操作。数据高效的端到端语音识别系统将常见端到端模型(CTC、 CTC-CRF 、Hybrid CTC/Attention)和语言模型(ngram、rnnlm、transformer-lm)融合,能够更高效利用音频和文本数据。目前,作业帮的所有场景均切换到了端到端语音识别系统。

发音纠错是作业帮目前在做的比较有代表性的探索场景。王强强说,通过计算机发音评测技术帮助学生纠音,在告诉学习者读的不好的同时指出哪里读的不好,帮助大家改进口语发音。而且发音纠错服务一旦部署,就可以随时随时指导学生发音。

“实际上,在语音技术实践中,我们还积累了很多原子能力。” 王强强说,比如,在识别方向做了声纹、中英混合识别、话者分离等。在评测方向也做了非常多的维度,包括连读、浊化、重音、升降掉等。通过这些原子能力,作业帮的语音技术支撑了内部多条产品线。

会上,字节跳动、微软亚洲研究院、Soul语音、58同城等业内资深技术负责人、专家也分别从各自业务实践的角度,分享了智能语音应用领域的前瞻思考。

AISummit全球人工智能技术大会由51CTO主办,广泛邀请业内资深技术负责人、专家论道人工智能的行业驱动力,研讨人工智能的前沿创新技术,共话人工智能时代下的“数智”浪潮。大会设置一个主会场和十个分论坛,专题覆盖计算机视觉、自然语言处理、算法与模型、推荐系统、机器学习、智慧金融等众多技术细分领域。

免责声明:该文章系我网转载,旨在为读者提供更多新闻资讯。所涉内容不构成投资、消费建议,仅供读者参考。
【责任编辑:钟经文】
中国日报网版权说明:凡注明来源为“中国日报网:XXX(署名)”,除与中国日报网签署内容授权协议的网站外,其他任何网站或单位未经允许禁止转载、使用,违者必究。如需使用,请与010-84883777联系;凡本网注明“来源:XXX(非中国日报网)”的作品,均转载自其它媒体,目的在于传播更多信息,其他媒体如需转载,请与稿件来源方联系,如产生任何问题与本网无关。
版权保护:本网登载的内容(包括文字、图片、多媒体资讯等)版权属中国日报网(中报国际文化传媒(北京)有限公司)独家所有使用。 未经中国日报网事先协议授权,禁止转载使用。给中国日报网提意见:rx@chinadaily.com.cn