以下为 InfoQ 与杨紫陌对话全文,有删减
InfoQ:首先请您做一下自我介绍,您自何时加入爱奇艺,以及目前主要负责的工作?
杨紫陌: 我加入爱奇艺快两年时间,现在主要负责爱奇艺 APP 的推荐算法。具体来说主要有视频内容推荐、个性化海报图及推荐语的生产分发、流量中控等项目。
InfoQ:爱奇艺 APP 每天大概产生的视频数规模有多少?
杨紫陌: 每天产生的视频数量级不太一样。爱奇艺主页的电影、电视剧,综艺,儿童,动漫等优质频道的内容,大概是几百上千数量级。如果加上游戏、主播、体育等偏 PGC(专业内容制作)的视频内容,数量大概在上万数量级。如果要加上 UGC(用户自己制作的视频内容),数量规模甚至有可能上百万。
InfoQ:推荐系统对于海量内容的传播至关重要,爱奇艺的视频推荐系统整体架构是什么样子的,主要运用到了哪些 AI 技术?
杨紫陌: 推荐系统是 AI 算法最早看到商业价值的领域之一,所以业界推荐系统的整体架构都比较通用成熟了。一般来说,推荐系统分成这样几个阶段:
首先是生成推荐池。整个视频库的量级非常大,可能是千万或亿量级。先从视频库里选出一些可以被推荐的内容,我们称为推荐池,大概会有百万量级的内容可以进这个推荐池。这一阶段核心是,根据内容特征筛选掉一些低质或者违规的内容,比如低画质、年代久远、涉及到政治敏感、黄色暴力的内容。
第二阶段是召回,召回思路一般会根据用户的观看历史记录、搜索记录、偏好类目选择一些用户可能喜欢的内容,召回策略主要包含协同过滤, 意图预测,偏好召回和向量召回等。这一阶段的核心定位是,对每一个用户根据其偏好和行为,对所有的内容进行一次初筛。
第三阶段是排序。排序环节,会对内个用户召回的内容进行打分,获取分数最高的少量结果,分数计算的规则是通过用户上亿次的线上点击行为学习出来的。分数值会参考的特征也是很丰富的,包括内容的特征(如热度、题材、时效性、外部舆情),用户特征(如用户偏好、浏览记录、登录频率、是否会员),以及环境特征(如 wifi、gps、时间)等。
最后会有一个规则层,通过降权过滤等手段,处理一些算法无法顾及的用户体验的问题,比如不再推荐用户已经看过的视频、尽量向用户多样化展示视频内容等。
InfoQ:针对长短不一的不同视频内容,算法是如何做分类并分发推荐的?
杨紫陌: 首先用户对于长视频、短视频的需求不同。用户观看短视频的意图和行为多表现为简单“刷一刷”,打发闲散时间。而消费长视频,大部分用户需要一段相对完整的时间,所以消费长视频的心理门槛也较高。例如,晚上是长视频的高峰期,上下班路上则是短视频的高峰期。基于上述规律性的差异,我们会对用户的意图和行为进行预测,预测用户是更倾向于是看长视频还是看短视频。
用户在一个视频上观看的时长,可以很大程度上反映用户对这个视频的喜好程度,所以在做混合推时,我们也会对长短视频的样本做一些处理。最开始我们的样本是用“观看时长”来决定样本权重,但这样长视频明显有优势。后来我们考虑用“完成度”来衡量,但这样对短视频有优势,用户很容易就看完了,甚至有时候用户不喜欢也懒得跳过。最终我们采用的是一个相对折中的方案,用当前行为相比于“平均观看时长”(指所有用户观看这个视频内容的平均时长)这个指标来衡量用户对该内容的喜欢程度,如果用户观看该内容的时长超出平均时长,我们就认为,相对于其他用户,他更喜欢这个内容。这个策略让排序服务的精度提升非常明显,它可以更好的平滑长短视频之间的打分差异,使得模型打分更注重于真实相关性。
InfoQ:所谓“个性化”,判定标准可能千差万别,机器根据用户的行为去推荐给他可能感兴趣的行为,但很多时候,用户可能并不真正感兴趣,如何来做界定?
杨紫陌: 判断一个用户是否真的喜欢某一个视频内容,这很大程度上是通过用户观看内容的时长来衡量的。对用户在该视频内容上的停留时间、是否倍速播放、是否托拉拽、是否有二刷等观看行为做综合分析,来判断用户对该内容是否真正感兴趣。
InfoQ:有时候,算法推荐的可能并不是用户想要的,算法往往推荐给用户大量相似内容,这反而会给用户带来困扰,您怎么看?
杨紫陌: 在做推荐分发时,为照顾用户体验,针对用户行为较丰富的用户,在“规则”层会做打散。但如果用户在平台上的行为非常少,他/她只看了某一类内容,那么确实有更大的可能会发生被推荐类似内容的情况。对于这类低粘性用户,我们会给一个相对大的概率去出各频道的优质内容,更多的去探索用户的兴趣,帮助他发现平台上更多样性的内容。
InfoQ:个性化海报的生产和分发具体是如何操作的?
杨紫陌: 有很多视频内容,单单通过一个海报者展示,用户可能很难真正理解到这个内容吸引人的地方。我们希望通过改变内容本身的分发形式,来提升内容对用户的吸引力。而相对人工生产/分发,机器制作具有自动高效、可复用、千人千面等特点。
个性化海报的生产主要有三种途径:一是,通过官方运营海报本身的二次加工或者预告片、外部数据生成海报。二是,通过视频内容本身出发,对优质画面进行截帧,对剧照进行再加工。三是,运用模版组合方式,通过素材缩放和位置移动等形成不同模版、尺寸。
海报分发环节,我们会根据用户偏好的标签,匹配出用户最有可能能感兴趣的海报。并且建立退场机制,将一些质量不高的,用户点击率不高的海报从内容推荐池去掉。在人工审核时,运营也会结合画面评分,和用户的线上反馈情况(ctr)进行综合的判断。
InfoQ:在海报分发和生产过程中都用到了哪些 AI 技术?效果如何?
杨紫陌: 在海报生产方面,会用到图像增强、目标检测,图像分割等技术。在生成演员特征时会用到人脸、动作、场景的识别、以及对于海报有没程度的打分。在智能检查时也会用到 AI,比如如何避免在智能裁剪时避开人脸、避开文字等。此外,在对一些老影视剧做重塑时会运用到图像增强技术,将以前模糊的、分辨率低的海报变得更清晰。相较于传统的海报生成,个性化海报上线效果提升明显,线上分发效率(ctr)提高了 10%左右。
InfoQ:在海报标签语的制作上,是怎样做的?
杨紫陌: 推荐语的生成主要运用到了 NLP 技术。针对同一个内容生成推荐语,需要考虑的因素比较多,如情节、主题、用户喜好、召回方式、内容弹幕等。
InfoQ:AI 参与内容创作目前还在探索阶段,爱奇艺在这方面做了哪些尝试?
杨紫陌: AI 为传统的内容制作行业提供工具。如,前面提到的利用图像增强技术对经典内容的重塑、在原有内容基础上做智能剪辑、拼接等均属于再创作。在一些影视剧、综艺节目的后期制作环节,在渲染、剪辑、对镜等操作中也会广泛运用到 AI 技术。
嘉宾介绍
杨紫陌,爱奇艺研究员,负责视频内容的个性化分发、个性化海报图推荐语的生产分发、流量中控等项目。2013 年阿里星,在阿里集团负责精准营销、商品推荐、支付宝智能运营等项目。曾获全美数学建模特等奖、最佳组织奖、最佳创意奖。发表 SCI 期刊论文十余篇,其中一篇入选 ESI 全球高引用论文。