作业帮受邀出席AISummit全球人工智能技术大会并出任智能语音专场出品人

近日，以“驱动·创新·数智”为主题的AISummit全球人工智能技术大会在线上举办，作业帮首席算法专家宋旸受邀出席大会，并出任“智能语音的应用与探索”论坛专场出品人。在该专场论坛上，来自作业帮、字节跳动、微软亚洲研究院、Soul语音、58同城等业内资深技术负责人、专家从各自业务实践的角度，分享了智能语音应用领域的前瞻思考。

智能语音即声音信息在人机间的交互模拟，是AI三大核心基础技术之一，同时也是人工智能落地最早的技术之一。作业帮首席算法专家宋旸出任该技术方向论坛专场的出品人。他说，自己是在上世纪90年代中期接触语音识别技术，早期产品如IBM via voice，是当时为数不多的成熟语音识别软件，使用前需要花十几分钟录制本人的声音语料做适应性训练，使用中还需要字正腔圆缓慢的朗读。

但是今天，日趋成熟的语音识别技术可以将开会、电话、视频节目等各种场景下自由的语音对话以极高准确率转写成文本，可以让三岁孩子很自然的和音箱交互，问问题，听儿歌。宋旸表示，未来，随着多模态，预训练大模型等新技术逐步在智能语音领域落地成熟，可以更大程度利用好现有的海量数据，借助预训练大模型的优势，在少数据低资源的领域获得更大的突破。

在本次智能语音论坛专场上，作业帮语音技术团队负责人王强强首先从语音识别、评测、发音纠错、语音合成几个方向，介绍了作业帮的语音技术实践。在语音识别方面，作业帮主打数据高效的端到端语音识别系统。端到端语音识别的优势比较明显，不需要传统的 HMM-GMM/DNN 方案中的决策树聚类操作和 alignment 操作，流程更简单，也不需要发音词典，避免额外的人为操作。数据高效的端到端语音识别系统将常见端到端模型（CTC、 CTC-CRF 、Hybrid CTC/Attention）和语言模型（ngram、rnnlm、transformer-lm）融合，能够更高效利用音频和文本数据。目前，作业帮的所有场景均切换到了端到端语音识别系统。

发音纠错是作业帮目前在做的比较有代表性的探索场景。王强强说，通过计算机发音评测技术帮助学生纠音，在告诉学习者读的不好的同时指出哪里读的不好，帮助大家改进口语发音。而且发音纠错服务一旦部署，就可以随时随时指导学生发音。

“实际上，在语音技术实践中，我们还积累了很多原子能力。” 王强强说，比如，在识别方向做了声纹、中英混合识别、话者分离等。在评测方向也做了非常多的维度，包括连读、浊化、重音、升降掉等。通过这些原子能力，作业帮的语音技术支撑了内部多条产品线。

会上，字节跳动、微软亚洲研究院、Soul语音、58同城等业内资深技术负责人、专家也分别从各自业务实践的角度，分享了智能语音应用领域的前瞻思考。

AISummit全球人工智能技术大会由51CTO主办，广泛邀请业内资深技术负责人、专家论道人工智能的行业驱动力，研讨人工智能的前沿创新技术，共话人工智能时代下的“数智”浪潮。大会设置一个主会场和十个分论坛，专题覆盖计算机视觉、自然语言处理、算法与模型、推荐系统、机器学习、智慧金融等众多技术细分领域。

免责声明：该文章系我网转载，旨在为读者提供更多新闻资讯。所涉内容不构成投资、消费建议，仅供读者参考。

【责任编辑：钟经文】

作业帮受邀出席AISummit全球人工智能技术大会 并出任智能语音专场出品人

作业帮受邀出席AISummit全球人工智能技术大会并出任智能语音专场出品人