人类从小就开始学习,了解周围的世界是一项必备的生存技能。人们通过观察环境、与周围环境以及其他人的互动直接或间接地学到了很多东西:比如一个叔叔指着一块闪亮的红色水果并讲述了他的侄子是苹果;或者一位老师读了一本关于毛毛虫的书,并告诉他毛毛虫最后变成了蝴蝶;又或者一个孩子观察着她的父母在谈论寄信的事情,以及寄出邮件的邮递员,她看到父母拿出了白色信封,上面印有刻字和邮票等等。
即使周围的环境发生新的变化,人类也能通过经验来理解这些变化。一枝花插在花瓶里,而后院的花园里种满了花,孩子们能够利用常识将这两者联系起来,并随着信息的获取而调整意识里旧的关联,利用他们的内在常识来弄清楚他们遇到的事情。人类与物理环境、照片和书籍等物品的互动越多,就越能更好地理解和使用语言来解释周围环境中存在的事物和发生的事情。
可是,对于机器而言,场景理解和语言理解很难训练,特别是在弱监督的条件下。如果没有确切的标签来学习场景中的所有组件,机器将难以获得扎实的基础,以建立需要了解场景和语言的其他功能。收集必要的标签通常代价很高,即使好的标签也只能提供对场景的合理理解,而不能提供语言信息。
那么,主要的问题就变成了:是否可以利用网络上可用的大量图文对,来模仿人类改善场景和语言理解的方式?能否建立一个统一机器功能的模型,以在视觉语言生成任务和理解任务上都表现出色?
在微软的论文《用于图像标注和VQA的统一视觉语言预训练》中,研究人员提出了一个统一的单模型编码-解码器系统,该系统能够完成两个不同的任务:生成图像场景描述和视觉问题解答(VQA)。
生成场景描述并回答有关场景的自然语言问题,可以很好地指示系统在场景理解和语言理解方面的整体有效性。研发人员相信该模型(又被称为视觉语言预训练(VLP)模型)是率先使用来自语言和视觉的数据来显示针对不同下游任务的重大改进的模型之一。
目前该模型已经在GitHub上开源,已使用三百万个图文对进行了预训练。微软方面表示:如果可以进一步利用文本数据来训练,并充分利用可公开获得的视觉数据集——比如带有标注的大型电影集,以及基于图像和视频的人类对话,或者在社交媒体上发布的图像或视频下的评论,或许将有机会看到机器场景和语言理解达到人类平等。
微软研究人员针对通用的视觉语言预培训开发了统一的编码-解码器模型,并对它们进行了微调,以进行图像标注和视觉问题解答。通过视觉语言预训练,与随机初始化或仅使用语言的预训练相比,下游任务的训练速度和整体准确性都得到了显著提高。
在当前模型上进行改进
现有的图像标注和 VQA 方法只有质量低下的标注和推理功能。这主要是由于三个原因:
而微软的 VLP 模型试图通过以下架构克服上述限制:
当前大多数对模型进行预训练以处理多个任务的方法中,采用的是分别对编码器和解码器进行预训练,或者仅对它们的编码器进行预训练。但是微软的研发人员将编码器和解码器一起预训练,并针对双向和序列到序列的预测进行优化,这样做可以创建更好地对齐的编码-解码器表示形式,从而允许将相同模型用于不同的任务,例如图像标注和 VQA。
测试与评估
研发人员在三个具有挑战性的基准上评估了 VLP 对图像进行标注和推理的能力:、和。结果是:VLP 在几个图像标注和 VQA 指标上的表现均优于基线模型和最新模型,在训练过程中,VLP 被证明更准确,收敛速度更快。
对 COCO 和 VQA 2.0 的定性结果(如下图 2 所示)表明,VLP 不仅可以在生成标注时键入更多细节(如第一张照片的标注所示),而且还可以回答有关图像的挑战性问题。以前仅接受过语言训练的模型无法正确回答此类问题。例如,VLP 能够在第一张照片中识别出不同人的服装设计相似性,以及第二张照片中的主角并不是在自拍等等。
图 2:上表显示了 COCO 和 VQA 2.0 的定性示例。第一列表示来自 COCO 验证集的图像;第二列显示了五个人工标注;第三列表示由三种不同模型生成的标注及其对应的 CIDEr 分数,这是一种用于评估标注质量的指标,只有 Unified VLP 具有视觉语言预训练;最后一列显示 VQA 问题和与图像相关联的正确答案以及由模型生成的答案,前两个是成功案例,后两个是失败案例。
该研发团队表示:未来将继续加强 VLP 架构和预训练方法,同时在预训练和一系列更多样化的下游任务中添加更多数据。