离取代人类还有多远 腾讯用AI自动创作内容 (离取代人类还有多少年)

离取代人类还有多远 腾讯用AI自动创作内容 (离取代人类还有多少年)

腾讯游戏之名,如雷贯耳。在其盛名的背后,腾讯游戏也有着专门的团队进行游戏内容处理和创作的研究和探索工作。为了解腾讯在相关领域的种种实践及获得的各种经验,InfoQ 采访了腾讯专家研究员 孙子荀老师。另外,孙子荀老师还将会在今年 11 月 21 日举行的AICon全球人工智能与机器学习技术大会(北京站)2019上分享相关方面的重要技术和经验。

以下是 InfoQ 对孙子荀老师的采访:

InfoQ:孙子荀老师您好,请简单介绍一下您和您目前所在团队的业务和主要的技术研究领域是什么?

孙子荀: 我过去几年一直在负责信息流类产品的内容算法工作。目前我们团队是面向腾讯游戏的内容技术团队。

团队当前主要职责是腾讯游戏在内容体系的全流程建设,帮助游戏业务提升游戏内容运营效率。包括对创作者和内容的管理 、挖掘、分析、分发,以及对游戏内容素材的处理、生产、创作等。

技术团队在能力建设上用到的技术主要是数据挖掘,多模态内容的处理、理解和生成相关的算法。因为我们主要面向腾讯游戏业务,所以团队会更加专注做好游戏世界的内容分析。

在我们看来,一款游戏就是一个小世界。就内容分析方面而言,由于不同游戏的物理渲染、材质纹理风格以及最终的美术视觉效果表现不同,所以很难说会有一个通用的算法能够应用于所有游戏图像(比如 U-Net Family,可以很好处理生物医疗图像的 Spatial Detail,但损失了 Global Content)。游戏中的 NLP 任务非常依赖领域知识,需要通过对预训练模型 fine-tune 和游戏本身构建的知识图谱融合进行增强。

由于用户每天所进行的游戏、创作的视频以及产生的直播流都是海量的,面对庞大的数据,团队往往需要更加实时的处理和高效的并行化调度,而且这对模型和工程来说也是一项巨大挑战。

InfoQ:目前您所在技术团队的人员组成是什么样的?他们是如何进行“角色”分工的?研究人员是否需要具备很强的工程能力?

孙子荀: 因为团队的整体业务相对整体,团队内有直接面向业务的研发同学,也有偏平台建设的后台工程同学,而算法团队在方向上可以分为语音、计算机视觉、图形处理和自然语言处理等应用研究方向,现在有十多位博士。在落地上则按照进行业务专项来分成各个小组。

关于学术,团队会给有需要的同学时间投入到研究工作上,以进行沉淀和提升,其产出形式,则可以是开源代码、文章、期刊论文等。我们的研究同学也需要去参与算法对应的工程开发,能抽象优化掉开发中重复低效率的部分,对团队乃至公司的基础框架做贡献。避免因为对整体目标的忽视导致局部选型不合理。

InfoQ:谈及内容创作,便不自觉的会联想到自己的编辑工作 5,考虑到自己的“饭碗”问题,想要请孙老师大致阐述一下,现阶段 AI 技术在内容自动化创作方面达到了什么程度?我距离被 AI 取代还有多久?

孙子荀: 内容自动化创作是一个工程系统和模型并进的工作。工程需要构建整个生产的 Pipeline,算法模型在这个问题上的努力就是不断去拆分,解决内容创作的各个部分以及每个部分中的不同成分。

从当前内容自动化创作已经落地的系统来看,在可以结构化描述的场景下(如叙述型的内容), 人们是可以进行自动化内容创作的,比如财经新闻、天气预报等类似>

而在内容创意的部分, 人们则需要去收集更多的数据,人工并结合一些无监督算法的手段分析,如 RPCA ,AAE。把整体任务分成子维度,再分解成不同数据特征的任务,在每个维度寻找可落地的技术(包括算法和工程结合)去逼近这个维度人能产生的数据效果。

另外,关于人类被取代还是很未来的事情。拿 ChatBot 来说,从最早出现在 60 年代的 ZLIZA,到现在微软小冰作为通用的聊天机器人,它们与人类相比,在通用场景依旧存在着各种各样的不足。不过,必须认同的一点是,技术一直在进步,内容创作自动化也很有可能在越来越多相对封闭的问题场景下得到落地。

InfoQ:AI 在内容自动化创作方面肯定存在着许多不同的应用方向,这些方向具体包括哪些?又分别运用了什么 AI 技术?

孙子荀: 现在已经有很多的技术可以直接应用于内容生产的某些环节,如NLP 的 GPT-2,中的 ProGAN 等,它们都已经有了很好的落地场景。方向上除了内容领域的文章,视频生产可以应用,在游戏视频创作中的音效素材,场景,字体素材都可以提供辅助能力来提升效率。

但是类似,或 Voice Conversion 方向的工作,要生成非常自然的效果还需要结合多种技术进行逐个环节的优化,而且每个任务所面临的优化点都是有所不同的。

另外,虽然单一模型是重要生产力,但是想要变得业务可用,并且能够上线提供服务,这整个过程还需要解决非常多的问题,而且往往二次处理“润色”的算法和工作是更加复杂的。

InfoQ:关于游戏内容自动化创作,腾讯有哪些具体的应用实践,这些应用实践都运用了哪些领先的 AI 技术或是算法?

孙子荀: 这里介绍一个团队正在做的工作:自动生成游戏精彩对局视频。

为了这个工作,我们需要充分的解析游戏视频的元素,将视频序列还原至用户操作流水的粒度,只有这样,才可以让下一阶段的工作更加高效。

团队在工作过程中,需要使用到的有 CV 算法模型,结合检测、识别、跟踪目标的特点,来进行反复模型实验和改进。其中,就检测而言,就有可能出现很多不同的状况:有的确定性目标,直接多尺度模板匹配算法就可以;有的目标因为跟踪摄像机的视角变化,则需要合成大量角度的样本才能更好的检测;有的目标外貌风格迁移太大(如多人战斗场景,技能渲染场景),可以通过 I3D 辅助其他任务提取的特征信息去融合识别。

再然后,团队还会根据结构化好的标签和原始的视频连续帧,音频等模态信息,一起进行下一阶段的素材生成工作。在这个过程中,文字素材包括了 NLG 任务、Image Caption 任务任务;图片,文字素材会尝试 GAN、VAE 进行游戏风格化转换,OpenGL 等工具进行绘制;语音则通过声学模型及 WaveNet 来加工合成。

InfoQ:在游戏内容自动化创作落地实践过程中,您的团队遇到的最大的挑战是什么?又是怎样克服这些困难的?

孙子荀: 对于团队来说,最大的挑战就是“如何把挑战落地”。

在团队的工作过程中,我们需要分析已有的人工创意,并尝试对这些人工创意进行多个维度的分析,然后讨论当前哪些部分可以用程序实现,算法能做到的局限性又是什么。同样的,团队在内容创作部分的工作,往往不是凭借一个模型就能完成的,比如自动生成游戏解说,就需要我们构建很多不同角色的 bot,而且每个 bot 背后的数据依赖,算法原理、工作流也都有所不同。

再举个例子,当我们需要去聚合一类叫做“越塔强杀”的王者荣耀集锦时,首先能够分解到的一个子问题就是“分析英雄当前是否在塔的攻击范围”,这就要求我们把看到的相机坐标系还原回游戏世界的坐标系,并进一步结合标定数据等对全局的场景建模去计算塔的攻击区域。

对于这些挑战,我们很难说有一个方法能克服所有困难,但如果说收益最大,我们过去很长时间在游戏图像、视频、文本分析上的积累是整个技术团队最大的收获。通过这些来之不易的经验,我们可以显式的还原整个游戏战场的剧情,进而使得我们下一阶段的工作更加顺利。

InfoQ: 是否能介绍一下,当前的计算机视觉生成和其他技术的结合点?

孙子荀: 随着深度学习图像生成技术的发展,模型从过去的输出不可预期,发展成了现在的可操作可干预。如 StarGAN 可以做到把图像转化到指定的目标域图像,实现对面部属性转移操作;谷歌 NeurIPS2018 上的工作可以通过 GAN 合成 3D 模型,支持形状和纹理编辑、3D 视角调整等。

然而当前的计算机视觉合成数据的主要原理,还是在于能够更好的解释海量样本数据,其稳定性和效果相比 CG 模型渲染出来的工业级效果还有很大距离。

现阶段,我们计算机视觉方面的 AI 技术已经能在游戏海报、游戏内容配图,视频增加特效等要求不高的场景中落地。另外,我们还在尝试通过多视点和单目 3D 姿态估计,在某些场景中做到平民化姿态捕捉,以生成视频人像元素。

同时,使用 U3D 和 UE4 引擎生成视频和图片训练样本,这相比于其他的数据增强技术更加直接,也是我们在腾讯游戏的优势。 同样的,在这里计算机视觉工作借力引擎能更好提升效率。

InfoQ:在游戏内容自动化创作方面,您认为腾讯未来的发展方向是什么?又会在哪些 AI 技术领域持续深耕?

孙子荀: 去年 9 月 30 日,腾讯成立了技术委员会,作为技术人员的我们切实感受到公司的技术氛围越来越浓,我们团队不仅参与到开源共建中,还和其他研究团队一起成立了多模态内容分析的开源协同小组。

未来,团队主要会立足于游戏内容处理,我们希望能够更多的去和游戏内容运营的各个阶段相结合,针对不同游戏品类去优化我们的算法。也尝试和兄弟团队合作,通过强化学习的游戏 AI,设计出多样的价值函数,生成各类目标导向的游戏对局,进一步丰富我们的视频素材,做好游戏内容自动化创作这一工作。

采访嘉宾介绍

孙子荀,腾讯专家研究员,负责腾讯游戏内容的算法工作。连续三年公司优秀讲师,在百度和腾讯期间多次获得公司级最高技术奖。

2009-2011 年 从事分布式的算法研究工作,2011 年在百度从事 HPC 并行化算法的落地。2012 年加入腾讯,2015 年起从无到有带领团队构建了信息流的内容工程和算法平台。一直从事负责内容处理,内容理解与生成的算法研究和落地工作。个人在内容质量、AI 内容生成上有较好的落地经验。和团队一起在 KDD,ICCV 等学术会议上有多篇论文发表,并作口头报告;在内容算法场景也有 30 多篇授权专利。

声明:本文来自用户分享和网络收集,仅供学习与参考,测试请备份。