有着"科技界达沃斯"之称的Web Summit团队来到香港,开启了为期四天的RISE科技大会。包括微软总裁Brad Smith、亚马逊CTO Werner Vogels在内的上百位全球顶级科技企业高管和先锋创业者齐聚一堂,就人工智能、大数据、区块链等时下热门主题,进行思想和灵感的交流,分享全球科技领域最新发展情况。
2018年7月11日,搜狗CEO王小川作为国内AI领军人物代表,受邀出席此次峰会并进行了题为《人工智能的下一个应用突破》的演讲,分享了他对"人工智能的意义"、"语言与AI的关系"等问题的新锐思考,并通过多款产品全面秀出了搜狗的"AI肌肉"。
(图1:搜狗CEO在RISE大会发表演讲)
自然交互+知识计算 搜狗的语言AI版图
在王小川看来,“语言”是AI的未来,“掌握一种语言就是掌握了一种灵魂”,而语言则是人工智能皇冠上的明珠。无论是百箱大战中Amazon Echo、Google Home等多款围绕着语音交互打造的智能音箱,还是会打电话的Google Duplex、会辩论的IBM Projector Debater,都聚焦于让机器拥有“语言”这颗明珠。
搜狗以“让表达与获取信息更简单”为使命,多年坚持以语言为核心,围绕于自然交互和知识计算两大方向,在语音、图像、翻译等语言类AI技术上不断突破。王小川认为,通过自然交互,人与机器能够更自由地表达;通过知识计算,让机器来帮助人类,实现智能的体外进化。
在自然交互版块,搜狗不断在语音识别和语音合成方面进行开拓创新。搜狗输入法是中国最大的语音输入法,目前语音识别准确率已超98%;日均语音输入调用次数峰值达4亿次;支持外文多语种和中文方言识别;智能断句、标点预测、识别结果顺滑等功能也领先于业界。语音合成支持多种音色选择,通过少量数据即可生成说话者自己的合成音色,还可实现说话人风格的迁移。
王小川现场展示了用“王小川讲话训练数据”,结合庞麦郎的《我的滑板鞋》歌曲素材,经机器进行语音识别、语音合成后,生成王小川版的《我的滑板鞋》。这版歌曲中既包含了歌曲的曲调和节奏,也融入了王小川的声线及语言风格,生动有趣地呈现了搜狗语音合成和情感迁移技术。
(图2:搜狗CEO王小川现场展示语音合成与情感迁移技术)
虚拟主播生动播报RISE新闻 搜狗语音技术的最新尝试
在此次活动上,王小川展示了搜狗推出的全球首个高度实用化、定制化的虚拟主播。结合唇语合成、语音合成、音视频联合建模与深度学习技术,可驱动机器生成对应的唇语图像与声音,进而输出统一的音视频素材。此次展示的虚拟主播,是搜狗使用央视新闻主播姚雪松数十个小时的音视频素材进行训练与计算的结果,最终生成了一段音视频同步的RISE大会新闻播报,与真人播报无异。
(图3:虚拟主播新闻播报画面)
AI技术为搜狗全线产品赋能 问答、对话、翻译是搜狗的产品方向
除了新产品外,搜狗已让AI技术为搜狗的全线产品赋能,无论是搜狗搜索,还是搜狗输入法,都做到了更懂用户,给出的选项和推荐也能直捣用户内心的需求。王小川认为,AI时代企业要做的不是多面开花,而是应该认准战略方向让技术有的放矢。
对于未来,王小川的判断是:搜索会升级为问答,输入法会演化成辅助对话系统。当输入关键词或问句后,搜索引擎将会直接给出你想了解的答案;用机器帮助人类完成更便捷、更高质量的对话。
(图4:RISE大会参会者)
此外,随着人们跨国交流需求的增加,翻译的需求将会激增。运用领先的神经网络机器翻译技术,加之以上亿级双语平行语料训练,搜狗目前已经支持61种语言的互译,凭借丰富的产品场景,翻译技术已经运用在了输入法和搜索产品中。结合用户出国和学习工作的使用场景,搜狗在今年连续推出了搜狗旅行翻译宝和搜狗录音翻译笔两款智能硬件,进一步推动了AI翻译技术的实用化。
提及搜狗AI的下一步,王小川说:“以语言为核心,一方面我们在年底之前还会再发布四款新的智能硬件;另一方面会把这种计算能力用到医疗、法律这些垂直的领域,使得机器在垂直领域会变得更加的聪明。”
关于AI整体技术发展和产业落地,王小川有着这样的判断:美国固有的优势在于顶尖的科研技术,而中国的优势在于用户规模和应用领域。目前全球已实现知识共享的联通,前沿的人工智能学术论文发布后,中国可以学习和借鉴前沿的学术成果,并把它转化为生产力。所以在人工智能领域,中国有机会跟美国在应用层面上齐头并进。同时,应用层面生态的进化,可以反过来推动整个系统的发展,最终实现良性循环。
“技术改变世界”正在成为现实,搜狗不仅持续在技术领域开拓创新,更驱动着技术的不断落地化、打造消费级产品,将“中国制造”转变为“中国智造”。相信在未来,搜狗可以持续“让表达和获取信息更简单”,让科技真正地惠及人们的生活。