视频云诞生于视频化的大时代背景下,当前,全趋势的视频化、线上化,驱动着全新的超视频化时代,而视频云所打造的音视频数智化能力,在不断延展新技术、缔造新物种。
对于竞争激烈、快速迭代的大视频产业,视频云技术已经逐渐发展成大视频产业的关键底座。
7 月 10 日,2021 阿里云视频云全景创新峰会暨全球视频云创新挑战赛决赛颁奖典礼在北京举办。现场,阿里云智能视频云负责人林昊表示,“融合了 5G、云、AI、音视频,乃至虚拟技术,视频云是一个交叉学科领域,如何在这样的融合基础上重塑技术的新价值和商业的新方向,是视频云赛道关注的重点”。
阿里云智能视频云负责人林昊
超视频化时代
阿里云智能视频云负责人林昊在演讲中,聚焦视频化在新内容和新交互的演进历程,畅谈场景的革新和创造,探索驱动体验升级的关键技术。
(以下为林昊演讲精华内容,有删减,经编辑)
自今年开始,阿里云特别强调云上创新。因为,很多企业已经走过了上云的阶段,很多企业的业务天然就在云上诞生,所以现在最大的问题是, 在云上诞生的业务怎么继续创新 ?
阿里云认为,基于视频可以非常好的往前推进创新, 视频是全景式的创新 。
现在社会,各项数据表明,基于视频做各种各样的业务场景的趋势持续上升。这意味着,与以前的视频化相比,现在已经 进入 了 超视频化时代 ,内容 更多 地 往视频演进,交互的形式 也 更多 了。此外,5G 技术的发展,更好地解决延时及带宽问题,带来更好的超高清视频体验。
林昊表示,云和视频的结合,体现在三个方面。
第一在边缘端做处理,进一步降低交互延时,提升很多场景下视频的效果。
此外,AI 与视频结合是现在的视频化与过去相比最大的不同点,如在生产制作环节的智能翻译、智能字幕等,AI 可以辅助视频制作。
第三,混合现实是未来的发展趋势。在内容上的演进和在交互上的演进是最强的诉求,而目前视频是可以推进内容往前演进及交互演进,最成熟的一项技术。例如 AR 的发展能提供更加沉浸式的内容和交互形态。
现在交互在往沉浸式方向不断演进,未来人与人之间的交互可能不再是线下或者线上的视频,交互可能会很难感受到虚拟的差别, 数字跟物理的环境 将 更加共存化 。
从技术层面看,内容和交互在融合式的演进。 因为内容和交互在技术层面的很多东西很难完全分开,但对用户来讲,大多数情况下感受到的是,内容和交互两者的结合体,因为,以后内容会越来越带交互性。
视频在技术领域的要求跟其他很多技术领域不同, 视频云涉及到非常多技术领域, 视频是一个对 AI、大数据、视频本身的技术还有背后的分布式系统都有全面要求的技术体系,不是某个单点能够构成的技术。另外,视频云不仅仅是云端的技术,在移动端、各种端设备上的整个音视频的能力也都非常重要。
目前我们可以看到,音视频技术往前继续演进,要做更好的内容形式,更好的交互形式。在现在的视频整体技术上都要不断的演进。其中最重要的一点是,以前的一张大面积的网络主要服务于偏静态和简单的动态处理,现在大家都希望构建一张专门用来更好地,可以全球处理音视频网络的网,因为这对于交互的延时及速度来说非常重要。
此外,内容方向不论在朝清晰化、三维化还是全息化,更沉浸式的方向演进的时候,视频在各块技术领域都需要不断的往前进步,否则很难落地,交互也同样。
AI 技术驱动高清“视”界
达摩院资深算法专家谢宣松的分享中,他就达摩院在超高清的生产实践展开介绍,通过 AI 关键技术和典型算法,深度剖析了 AI 技术如何驱动视听升级。
(以下为谢宣松演讲精华内容,有删减,经编辑)
AI 能在视频中发挥什么作用?
达摩院资深算法专家谢宣松表示,AI 发挥的作用主要有两个:
第一,基础作用,即对于视频或图像的理解,包括分类、打标、检测、分割等。第二,与生产类相关,如生产、编辑、加工、擦除、擦入等操作,还包括底层视觉相关的操作。
那么,AI 如何在底层视觉上赋能视频?
对于视觉来说,体验很重要。体验又与分辨率、色彩、沉浸式等因素相关。
2014 年,国家发布了 4K 战略,7 年间,在从 4K 往 8K 发展的过程中,内容永远是滞后的,基础设施反而是超前的。在内容生产过程中,技术能够发挥很大的作用,比如要做视觉,最基本的要观察细节,跟细节最相关的是分辨率,第二能不能流畅的看东西,流畅度不够的信息怎么能够比较好的用技术的方法达成,第三关注色彩。
从这三个层次来看采用的技术,追求细节可能会出现很多瑕疵,如很多学生常用高 GAN 系列技术,生产过程当中会经常出现不可控因素。视觉生产应该是可控的视觉内容生产,既能够保证细节的还原又能够保证瑕疵的控制,这是很核心的技术。
另外,算法要控制超分辨率。算法的源头是什么?是数据。数据怎么获取?主要的办法是用人工、高成本的方式,那么,能否用技术的方式真正产生高仿真、高真实的数据对,这是很大的一个课题。
最后,AI 技术如何在实践中使用,且平衡好效果和效率,这本身也是个问题。
第一个要解决的是画质。对于 AI 数据来讲,数据规模庞大,在一些场景,大家感受到画质比较差,在很多细节上损失掉了,可能有很多模糊、色彩不对的地方。所以,能不能设计一个方式,以自动的用算法获取真实的数据,这是非常难的一个课题。
接下来怎么做增强?比如怎么增强人像,我们现在比较重要的方法就是加入 GAN 系列技术进去,我们开源了 GPEN 的高清算法。
那么,怎么解决流畅度的问题呢?在很多时候尤其在运动变化率非常大的时候经常出现一些瑕疵,所以,在不同的尺度,在不同的瑕疵时检测到并弥补上,有很多事情可以做,除了细节增强,数据的还原、生成,瑕疵的检测,差分的检测,颜色,有非常多算法可以发挥作用,这一系列组合起来才能够完成从低清到 4K 到 8K,这本身也是个系统工程。
AI 驱动视频往更高清的方向走的过程中,AI 技术能不能自适应去做一些事情。自适应好像很简单,但事实上在不同的场景,AI 技术并没有所谓的普适性的能力。因此,AI 能在能够自适应的针对不同场景采用最优质的算法,这是很重要的。
视频云是一个基础设施,我们有一个平台,可以高效率、规模化的做各种各样的 AI 视频视觉增强的任务。
解密优酷视频智能生产
当时代对视频的新文化消费不断扩需,一方面,我们需要数字化的短视频供应系统,一方面我们需要超高清视频的生产能力,把大众带入数字化内容浪潮中、带入到真正的 8K 时代。
就此,阿里巴巴大文娱资深算法专家李静从短视频领域的内容生产困境出发,以概念级视频解构赋能生产,分享 Media AI 平台的技术能力及解密优酷短视频智能生产。
(以下为李静演讲精华内容,有删减,经编辑)
我要讲的数字化一定会从视频整个生命周期来讲。
作为一个长视频网站,从长视频最初的拍摄到制作到完成,优酷有一个 内容评估的数字化系统。 当一个长视频拍摄出来之后,如何利用这种版权内容再进一步进行二次创作,这就是 创作的数字化 。接下来在生成短视频后,加一些特效,让用户看起来更好看,更有趣,这就是 特效的数字化。 最后在终端上,用户拿着手机或者通过平板或者通过电视大屏观看视频的时候如何进行互动,这是 互动的数字化。
第一个内容是长视频内容评估的数字化。
在阿里大文娱,我们有一个北斗星团队专注做长视频的内容评估,它的核心点是希望通过后验的数据来衡量整个视频内容的质量,视频生产的元素及外延信息。
所有信息都基于我们 ALP 语音或者 CV 的能力进行解构。解构之后,通过这些信息去预测用户的心理感受或者内容是不是受用户的喜欢。
所以从数据侧我们获得的先验数据包括收视率,用户的互动、评论等,但我们希望通过这些数据进一步挖掘用户的心理状态、生理状态,以此推动我们的核心能力去做内容评估。
具体应用的能力,一个是 AI 评估,一个是 AI 体检。
什么是 AI 评估,比如一个视频是否好,以前用人来审,但即便如此,去预测一个剧是否是爆款,还是很困难。所以,我们希望利用北斗星的系统,从最开始演员、供应商、IP 等级、导演和编剧等信息去预估其水平。我们可以进一步对剧中的演员做进一步深度分析,如粉丝价值,口碑等。通过这些信息让专家做辅助性决策,再利用 AI 技术帮助最终评估这部剧到底是什么档次。
AI 体检,是指,当一个视频拍完剪辑好后,我们希望用算法预测,哪些片断是看点,哪些是高潮点,哪些是剧情拖沓的点.....找到用户可能弃剧的风险点,并给出建设性的意见,帮助最终的剪辑进行优化。
如何进行二次创作?
短视频最近几年非常火,去年短视频用户达到 7 亿多,市场规模超过两千亿。在如此庞大的短视频消费市场下,我们面临了一些问题, 高质量的短视频非常稀缺 ,大量的低质、粗制滥造的视频存在市场上,所以我们想 用自动化生产的方式代替掉那些质量低劣的短视频,让智能创作接近于人创作的水平。
我们研发出了 概念级的视频的解构能力去赋能智能创作。
每次提到视频解构、CV 能力,大家可能会自然联想到一些标签,如视频场景中的人、美女、士兵等。在过去的 CV 领域,这些是特别客观的标签描述,但进行视频创作时,这些东西并不是创作者们非常需要的,创作者们需要的元素和素材是能够让观众有深切感受的,如拥抱让人感觉甜蜜,战争让人觉得燃..... 所以我们重新定义了语义级的标签,赋能智能创作。
基于这种概念级的标签解构能力之后,我们可以进行一系列的二次创作,如在某视频片段中加入浓缩手段,减掉平淡的场景,对有意思的场景进行拼接、混剪等。
我们过去这一年来所沉淀下来的 AI 技术,所有的视频都可以实现自动化的生产。目前整个团队的智能生产技术的产能,每天在万条以上。每一条都要经过人工审核,整个通过率为 90%,远远高于普通的优酷 UP 主上传视频的通过率。
目前,这些二次创作的视频每天 VV 量千万级,虚拟 UP 主有百万粉丝。
下面讲一下 剧情浓缩 。
现在大家碎片化的消费习惯,不太愿意看长视频了,我们针对这种情况采用了不同细粒度浓缩的手段,浓缩就是把关键剧情择出来,在很短时间内让你了解到故事的主线。比如,3 分钟看一部电影,15 秒前情提要等。现在优酷每一个剧前面都有一个前情提要,那就是通过自动化生产出来的。我们具有风格化的解构能力,可以提取不同风格的前情提要,如对于女生做甜向的前情提要。对
针对解说类短视频,我们重新定义了 tts video 技术,把视频进行解构化,同时把剧本进行解构化,两者进行匹配,最后通过剧本生成视频。解说的 tts 能力由达摩院提供。目前 tts 已经有 10 多种风格。
接下来还有图文转视频,配图可以直接生成视频,结合 IP 版权把图片对应的视频内容截出来。
接下来讲讲特效的数字化。我们会针对于视频中的人动作,动作的幅度,多人以及主角等进行自动化的加特效,这里涉及到的 CV 技术包括动作检测、动作幅度检测、范围检测、明星识别、BGM、幅度检测等。特效可以用于综艺,也可以用于内生植入广告,强化广告注意点。
另外在互动上,也有很多新玩法,第一个是视频横转竖。例如在地铁等拥挤的空间大家都是竖着看视频,很少有横着看的。基于这样的需求,我们的技术可以讲将横视频转为竖的。
还有一个技术是自由视角视频,这是国内也是业内第一个在 C 端用户上可以做到体验的自由视角的产品,利用这个技术,让用户多角度观看他们想看的视频内容。
阿里云天池数据集开源计划发布
超视频化的时代,视频云的想象力不止步于商业场景,更多价值是普惠全民、创造的多元化的社会价值。就此,阿里云联手英特尔主办、与优酷战略技术合作的全球视频云创新挑战赛于今年 2 月启动,并在此次峰会上举办最终的颁奖典礼。
据悉,本届大赛吸引了全球 4600 支参赛战队。峰会上,阿里云联动技术方英特尔,对大赛 “算法“和”创新应用“两大赛道,进行冠军、亚军、季军、及最佳实践奖的奖项颁布。
值得一提的是,通过与优酷平台联手,大赛提供了一个大规模高精度视频分割数据集,供参赛选手训练模型,并最终成功打磨成为视频分割领域的权威数据集
该数据集夯实的数据量级,共计有 18 万帧以及高达 30 万的最多视频目标数据集,无论是标注精度还是内容广度,均处于行业领先地位。此外,丰富的视频来源覆盖主流内容类型,高度贴合真实生产场景,囊括古装、现代、街拍、街舞、运动等多场景,并对人物手持物、附属物进行了细节标注,对于视频产业具有高度实用意义。
除此之外,天池平台还整合全平台资源,在本届大会上推出了 数据集开源 计划,开放真实的业务场景和数据,希望打造专业的科研大数据平台,应用在教育、社交、电商、医疗等众多领域,并为全球计算机视觉的人才培养做出贡献。