华为云EMS弹性内存存储服务正式推出,已在官网上线

来源: 东方网
2024-06-24 10:05 
分享
分享到
分享到微信

在华为开发者大会(HDC 2024)上,华为云CTO张宇昕正式发布了EMS弹性内存存储服务。这一服务主要为了解决当前大模型训练与推理领域所面临的“内存墙”挑战,即单个神经处理单元(NPU)的高带宽内存(HBM)容量限制,该问题长期制约着AI算力的高效利用。

华为云EMS的创新之处在于它在NPU卡与持久化存储之间增设了一层弹性内存存储,运用Memory Pooling专利技术,综合显存扩展、算力卸载和以存代算三大策略,有效打破了内存瓶颈。具体来说:

显存扩展: 大模型推理中,由于模型太大,通常需要使用大量的NPU卡才能将模型参数装下来进行推理,但是NPU的算力往往利用率不高。EMS将模型参数分层存储在显存和EMS,只用了一半的卡,就可存下万亿参数的大模型,NPU部署数量减少50%。

算力卸载 : 大模型推理过程中包括模型计算和KV相关计算,其中KV相关计算的显存占用很大。EMS将KV相关计算的步骤卸载到EMS,而模型计算仍在NPU中进行,将AI推理性能提升了100%。

以存代算: 大模型推理中为了节省显存,历史对话的KV Cache都不会保存,后续推理都只能重新计算,导致新推理的首Token时延超过1秒。现在可以将历史KV Cache保存在EMS里,供后续推理直接调用。优化后推理首Token时延降低到0.2秒以内,优化了80%。

目前,EMS弹性内存存储服务已在华为云官网上线,面向开发者与客户开放。

免责声明:该文章系我网转载,旨在为读者提供更多新闻资讯。所涉内容不构成投资、消费建议,仅供读者参考。
【责任编辑:钟经文】
中国日报网版权说明:凡注明来源为“中国日报网:XXX(署名)”,除与中国日报网签署内容授权协议的网站外,其他任何网站或单位未经允许禁止转载、使用,违者必究。如需使用,请与010-84883777联系;凡本网注明“来源:XXX(非中国日报网)”的作品,均转载自其它媒体,目的在于传播更多信息,其他媒体如需转载,请与稿件来源方联系,如产生任何问题与本网无关。
版权保护:本网登载的内容(包括文字、图片、多媒体资讯等)版权属中国日报网(中报国际文化传媒(北京)有限公司)独家所有使用。 未经中国日报网事先协议授权,禁止转载使用。给中国日报网提意见:rx@chinadaily.com.cn