帧享是什么?
帧享是一个超高清的解决方案,从 2B 到 2C 的视角,帧享具备 4 个技术能力:
前三个方向的特性分别体现了帧享对于时间、空间、亮度、色度的超高分辨与呈现能力,第四点是声音特性和声场效果,这四点组合起来,既是帧享能给用户提供的关键特性,也涵盖了观众对于超高清的诉求。
要真正将帧享落地,需要深入到视频制播产业的各个环节中,从左到右有 5 个关键词:拍摄、制作、生产、传输和呈现,这五个环节环环相扣,每一步都与最终视频的呈现质量息息相关。我们首先要保证每一步都能够正确地处理,尽可能采集和保留更多内容信息;其次是挖掘链路上各环节的处理能力,利用我们在制作、生产和呈现上的人力和算力,进行信息的重建和增强,提升视频体验。
具体来讲,在拍摄和制作环节,我们会给出明确的超高清视频的要求规范;在制作环节,开放云剪辑能力,为后期的剪辑提质提效;在介质环节,做严格品控,保证介质内容的基础质量。在生产环节,减少转码的损失,利用我们平台的计算能力进行恢复和重置增强,同时对视频进行结构化分析,拿到视频的各种分类、场景、标签等高低层的语义信息,将其与码流一起传输到终端设备上,并进行适配的后处理增强和渲染。这种适配包括对内容、设备和用户偏好的适配等,确保最终的体验和效果。
帧享的关键技术:高帧率重置、高动态渲染、云加端增强
1. 高帧率重制
从视频中可以明显看出,低帧率的竖线运动时一直在颤动,而高帧率的运动就很平滑。 为什么低帧率会抖动?
如上图,x 轴表示时间,y 轴表示位移,物体的匀速运动在坐标系中是一条斜线,如图中有箭头标记的蓝线。而实际的物体位置在这条蓝线之上。由于低帧率的刷新率是有限的,物体的实际位置在一帧内是固定的,到下一帧会跳跃到另一个位置,就像上台阶一样。人的眼睛会天然的跟踪运动的物体,也会根据当前位置和运动速度,去推测物体的下一个位置,如图中绿星星所标记的。我们看到物体的实际位置和物体的预测位置一直不重合,且预测位置一直在实际位置的上下抖动,非常伤害观看体验。
高帧率重置,在算法上就是插帧。插帧技术已经存在很久了,方法大概分成两类,一类是基于特征的传统方法;另一类是基于数据的网络方法。两者思路是一致的,根据像素的帧间相关性去推算光流,再做插值。
在传统算法中,先根据多帧的视频图像去做光流,预测出前后向光流,来映射到需要插帧的相位上。这时候就需要考虑很多特征,比如到底是用前向光流还是后向光流、用双向光流还是单向光流,哪些地方是露出遮挡区域等,根据这些去做插值重建,得到高帧率视频,这是一种完全基于运动特性的传统方法。
网络方法非常类似,只是将光流的预测还有像素的差值都用网络来实现,还有一些网络方法可能更极端,它会把光流网络和插值网络合二为一,直接用一个端到端的数据训练,得到一个插帧网络。但无论是传统还是网络办法,在插帧中有一个难以解决的问题——在一些运动的交界处,光流很难严格贴合物体的实际边缘,这样会导致各种各样的问题。
优酷是如何优化的?
首先是基于成熟的插值算法,将各点效果做到极致,在实际场景中有效解决问题;其次是拆解问题,尝试把通用的插帧问题,分层分类成不同的垂类,用不同的插帧方法来解决,实现整体最优。
2)目标的分割。在空间维度将图像分成多个目标区域,例如台标角标的区域、字幕区域、前景背景、露出遮挡的区域。
3)垂类场景的插帧完成后,再经过一些柔性的融合得到最终的插帧结果。
4)人工校对。无论用多么精巧的办法、算法,总会有一些疑难的 case,是技术无法处理的,所以在设计算法时,会自动对疑难 case 进行标记。在审核后台,这些标记区域进行人工审核,对于有问题的插帧结果进行回退处理。
上图是对比图,左侧上方飞掉的字幕,通过对字幕区域的特殊处理以后,已经能够正常做插帧了。右侧,将运动光流进行精细化,让光流更贴合运动的前景轮廓,有效去除在运动物体周报的光圈效应。
2. 高动态的渲染
高动态渲染其实就是 HDR。上图是对比图,左侧是 SDR 效果(画面偏灰,看不清细节);右侧是 HDR 效果,画面很美,点点繁星和山势的暗部细节轮廓都非常清楚。
HDR 是一个成熟概念,行业中有各种各样的 HDR 标准。我们如何区别中间的差异,并选择一个好的 HDR 算法?HDR 解决的是一个从高动态到低动态,从宽色域到色域的映射效果问题。自然景物能够呈现出的亮度范围是非常高动态的,从 1/万 nit 到 1 万 nit 以上都有。但显示设备能够呈现的亮度范围是低动态的,大部分只有几百 nit,而低亮也不够低。要把自然景物呈现到显示器上,就面临着一个从高动态到低动态的映射问题。所以,HDR 的关键不是 8ibt 还是 10bit,也不是 4k 或者 1080,而是去理解内容和设备,确定在什么设备什么环境下,用什么样的映射去渲染内容,达到主观效果的最优。
上图,左侧是亮度从高到低映射,右侧是色彩映射,需要把马蹄形的大的宽色域映射到内部小三角形上面的窄色域。
帧享 HDR 在技术上做了哪些改进?
下图是 HDR 对比图。
第 1 幅是颜色准确性、渲染颜色准确性的对比。右下角是优酷在苹果上的播放效果显示,其他三张都是同一个安卓手机的不同 APP 的显示效果。因为屏幕本身是有些偏色的,所以可以看到友商两幅图的效果,人脸比较红润,就会红的不太正常。 但是优酷,人的脸色比较正常,更像苹果的颜色显示,所以对比就能说明在我们优酷通过测屏校屏,能够去纠正错误的颜色渲染,然后得到更好的颜色效果。
上幅图是帧享 HDR 的对比图,左侧是 HDR 前(画面颜色整体偏亮,对比小、画面偏灰偏白);右侧是 Tone mapping 后的 HDR 效果,动态 TM 后,扩大对比度,提升了画面质感。
3. 云加端增强
以前,我们常遇到这些问题:为什么视频流很好,到电视上却效果不佳?每个设备的效果不一致,如何兼顾?如果知道内容特性,算法参数可以设置得更好,但实际上我们无法知晓内容特性,所以效果只能打折。以上都反映了一个共同问题,体验是整条链路的体验,必须将云和端协同起来,一起为体验负责。
云和端如何做协同?
云上,在编码前做前处理;端上,在解码后做后处理。我们在云上处理的优势,主要是算力丰富、算力高,并且它是非因果和离线的,可以算得很慢。劣势是云上算的时候,不知道设备信息,所以只能够去做统一的处理,不能单独调优。其次,云上的增强恢复重建,都是增加信息量,所以压缩效率低,压缩后的码率高,导致传输效率降低。在端上,我们知道设备、用户以及环境的信息,用多参数、多种算法做适配,是一个多样性的能力。
我们将云和端联合在一起,用云上的丰富算力做分析,用端上的多样性做呈现,实现优势互补的效果。右图的 4 种情况,1 是纯云端的处理,2 是纯端上的处理,3 是云端都可以处理,4 是云加端的协同处理。
云+端的联合处理到底有哪些应用?
基于算力优势,我们会在云端做复杂的探测、分析、分类,打标签、编码,再将码流和探测出的语义信息、一些结果通过控制流去传输到设备端。用来指导端上的后处理模块进行参数的设置、算法的选择,以及适配处理。例如,通过去块、锐化、超分等让端上效果更出色。
案例一,去块。 块效应是压缩导致的,在码率不够或者低亮的场景中。统一的去块,有可能会损失信号的有用细节,使图像变得模糊。但如果我们能够做云加端的配合,可以在源头将流上块的强度、类型都探测出来,然后把信息传到端上,用这种信息去控制端上的去噪去块算法的强度,达到既有效去块又能够保护细节的效果。
案例二,智能满屏的效果对比。
优酷有大量的年代剧,往往是 4:3 比例,现在屏幕尺寸是 16:9,甚至是 23:9、22:9。如果直接播放 4:3 视频,画幅会很小。普通平铺是以图像的中心为中心,这样的构图布局经常会丢一些重要画面。优酷智能平铺是利用 CV 的识别分析能力,将眼睛更关注的信息保存下来,让画面的布局更合理。
所以整个应用过程就是在云端利用分析理解能力,对画面进行自动的分析、提取,将信息与码流一起传到端上,根据信息进行渲染窗口的调整,达到实时的拆切满屏的目的。优势是一个流能够满足各种尺寸屏幕的观看需求。
优酷超高清的愿景
帧享的愿景是,在 5G 和 AI 的背景下,为国内的互联网视频超高清路线提供解法和答案,推进视频的超高清体验的升级,让 C 端用户早日进入到超高清的观影时代。另一个愿景是超高清产业共赢。我们需要有超高清的标准去约束视频产业链条的各方,制作生产出符合超高清标准的内容、设备,培养提升用户心智,使他们愿意为体验买单。只有用户愿意买单,平台才愿意为超高清买单,制作公司才会愿意为超高清买单,实现超高清的商业化、规模化,实现用户、制作、平台、终端整个链条上的共赢。
作者介绍: :阿里文娱高级算法专家 张行