七牛视频直播技术详解 直播云、SDK 性能测试模型

来源:七牛云
2016-10-12 20:50:00

北京2016年10月12日电 /美通社/ -- 七牛云于6 月底发布了一个针对视频直播的实时流网络LiveNet 和完整的直播云解决方案,很多开发者对这个网络和解决方案的细节和使用场景非常感兴趣。

七牛结合实时流网络 LiveNet 和直播云解决方案的实践,用八篇文章,更系统化地介绍当下大热的视频直播各环节的关键技术,帮助视频直播创业者们更全面、深入地了解视频直播技术,更好地技术选型。

本篇是《视频直播技术详解》系列的最后一篇。直播云SDK 性能测试模型,SDK 的性能对最终App 的影响非常大。SDK 版本迭代快速,每次发布前都要进行系统的测试,测试要有比较一致的行为,要有性能模型作为理论基础,对SDK 的性能做量化评估。本文就是来探讨影响SDK 性能的指标并建立相应的性能模型的。

影响视频质量和大小的重要参数

在进行测试之前需要明确几个对视频的质量和大小影响最大的参数:帧率、码率和分辨率。

1)如何制定帧率

一帧就是一副静止的画面,连续的帧就形成动画,如电视图象等。所谓帧数,简单地说,就是在1 秒钟时间里传输的图片的数,也可以理解为图形处理器每秒钟能够刷新几次,通常用fps(Frames Per Second)表示。每一帧都是静止的图象,快速连续地显示帧便形成了运动的假象。高的帧率可以得到更流畅、更逼真的动画。每秒钟帧数(fps) 愈多,所显示的动作就会愈流畅。

2)如何制定码率

首先看视频编码的目的,是为了在有限的带宽中传输尽可能清晰的视频。以每秒25 帧的图像举例,25 帧图像中定义了GOP 组,目前主要是有I、B、P 帧三种帧格式。I 帧是关键帧,可以想象它就是一幅JPEG 压缩图像;B、P 帧是依靠I 帧存在的,如果丢失了I 帧,B、P 帧是看不到图像的。B、P 帧描述的不是实际的图像像素内容,而是每个相关像素的变化量,他们相对于I 帧信息量会很小。GOP 组是指一个关键帧I帧所在的组的长度,每个GOP 组只有1 个I 帧。

一组画面的码流大小跟什么有关?当视频编码的压缩方式都一样,清晰度要求都一样的时候,GOP 组的长度格式决定了码流的大小,例如:每秒25 帧画面,GOP 组长度为5,那么帧格式为IBPBP,那么1 秒钟有5 个I 帧、10 个B 帧、10 个P 帧;如果GOP 组长度为15,帧格式就是IBBPBBPBBPBBPBB,那么1 秒钟内会有2 个I 帧和16 个B 帧和7 个P 帧,那么5 个I 帧比2 个I 帧占用的数据信息量大,所以GOP 组的长度格式也决定了码流的大小。

3)如何指定分辨率

分辨率概念视频分辨率是指视频成像产品所成图像的大小或尺寸。常见的视像分辨率有640×480、1088×720、1920×1088。在成像的两组数字中,前者为图片长度,后者为图片的宽度,两者相乘得出的是图片的像素。

影响SDK 性能的指标

有了上述的前置知识,可以开始准备测试SDK 的性能了,首先分析一下都有哪些指标可以反映SDK 的性能,分成Android 和iOS 两个平台:

AndroidGC :可以通过GC 日志记录、Mirror GC 和Full GC 的频次和时间,Full GC 会造成比较明显的卡顿,需要评估UI Loop 就是VSync Loop :反映SDK 对App 流畅度的影响,理论上60 fps 是最流畅的值Memory :反映SDK 占用内存的大小CPU Usage :反映SDK 占用计算资源的大小

iOSUI Loop :反映SDK 对App 流畅度的影响,理论上60 fps 是最流畅的值Memory :反映SDK 占用内存的大小CPU Usage :反映SDK 占用计算资源的大小

除了上面的一些系统级别的指标外,下面是直播SDK 中特有的一些指标,这些指标可以反映出SDK 的核心竞争力和一些主要的差异,涉及到视频的清晰度和流畅度,也是可以量化的。

1)影响视频清晰度的指标

帧率码率分辨率量化参数(压缩比)

2)影响视频流畅度的指标

码率帧率

3)其他重要指标

直播是流量和性能的消耗大户,有一些指标,直接影响了用户的感受,也是我们需要重点关注的:

耗电量发热(不好量化,大部分情况发热和耗电量正比,可以使用耗电量暂时替代)

测试计划

测试过程需要先固化一些测试条件,然后根据不同的测试条件得出测试结果,这里选择了两个现在最常见的条件,是七牛云通过回访大量的客户得出的一些统计数字,可以反映大部分直播应用所处的场景。主要从分辨率、视频处理、码率和网络环境几个维度进行限制。

最后分为几个两种测试指标:客观和主观指标,前者反映了SDK 对系统的消耗程度,但虽说是客观指标并不是说对用户没有影响、只是说得出的结果用户感受不明显。主观指标则会直接影响最终用户体验,但在传统的测试中反而容易被忽略,因为不好量化,这里拍砖引玉的提出一些量化的方式,希望引起读者的思考。

测试条件A

分辨率480p无水印,无美颜码率1 M网络保证在0.5 M ~ 2 M

这个条件,反映了大部分低速网络情况下的使用场景,也反映了SDK 基本的性能情况,可以作为SDK 基本推流和拉流情况下的基准测试,不引入太多的测试依赖。

测试条件B分辨率720p无水印,有美颜码率1 M网络保证在0.5 M ~ 2 M

这个条件,反映了大部分客户的使用场景,具有较高的分辨率和美颜视频处理,可以作为SDK 竞品分析的重要依据,测试结果非常接近真实场景。

1)客观指标测试计划

客观影响App 稳定性和性能的指标:

Memory测试10 分钟,内存曲线测试1 小时,TP99,TP95,TP90,需要归档测试1 小时,内存增量,考察是否有内存泄露,需要归档参考值:上次结果

CPU测试10 分钟,CPU Usage 曲线测试10 分钟,TP99,TP95,TP90,需要归档参考值:上次结果

码率测试10 分钟,TP99,TP95,TP90,重点说明,这里的码率控制需要分开来看,如果网络抖动造成码率降低,这样的点不计入进来,只测试SDK 码率控制,需要归档参考值:1 M(大小都是偏差)耗电量测试一小时,记录进程总耗电量、屏幕显示耗电量、CPU 耗电量,需要归档参考值:上次结果

2)主观指标测试计划

主观影响App 使用者的指标:

UI Loop App 本身可以达到的最大帧率,不同于视频帧率,统计他的原因是我们的SDK 可能会影响整个App 的流畅度,需要跟踪测试10 分钟,UI Loop 曲线测试10 分钟,UI Loop TP99,TP95,TP90,需要归档反复比较参考值:60 fps

Android GC测试1 小时,记录Mirror GC 和Full GC 的频次,记录GC 时长的TP99,TP95,TP90,需要归档反复比较参考值:上次结果帧率(fps)测试10 分钟,TP99,TP95,TP90,需要归档反复比较参考值:30 fps

PSNR 比较视频清晰度的指标测试10 分钟,需要归档反复比较,这个指标可以使用固定视频作为输入参考值:上次结果

3)结果显示

表格显示具体指标曲线显示原始数据和时间轴的数据热图显示和参考值的偏差热图显示距离上次归档值是改善了还是恶化了

通过这种反复迭代的自动化的、系统化的测试,七牛云以职人之心近乎偏执地反复打磨着SDK 的性能,只为给最终用户带来最好的直播体验,帮助客户通过次时代的媒体最大化自己的商业价值。