哈佛大学联合MIT研究人员发布了Clevrer数据集以推进视觉推理和神经符号AI的发展 (哈佛大学合作院校)

admin 2025-01-09 次阅读

Clevrer 是一个诊断视频数据集，用于系统评估各种推理任务上的计算模型。近期，在全数字化的国际表征学习会议 (ICLR) 上发表的一篇论文中，介绍了有关视频表征与推理 (Clevrer) 数据集碰撞事件的初步研究成果。

Clevrer 建立在 Clevr 基础之上。Clevr 是斯坦福大学 (Stanford University) 和 Facebook AI 研究团团队 (Facebook AI Research)于 2016 年发布的一组数据集，用来分析神经网络的视觉推理能力。该团队成员包括大名鼎鼎的 ImageNet 创始人李飞飞 (Fei Fei Li) 博士。在国际表征学习会议 (ICLR) 上，Clevrer 的共同创作者例如来自麻省理工学院-IBM 沃森实验室 (MIT-IBM Watson Lab) 的庄根和来自 Deepmind 的普希梅特·科利 (Pushmeet Kohli) 等人对神经符号概念 NS-DR (Neuro Symbolic Concept Learner，NS-DR)，一种应用于 Clevr 的神经符号学模型做了介绍。

该论文写道：“我们对视频的时间和因果推理进行了系统性的研究。视频的时间和因果推理这个问题非常深刻且具有挑战性，它困扰研究人员很久了，但我们才刚刚开始用‘现代化的’ AI 工具来对它进行研究。”“我们新开发的 Clevrer 数据集和 NS-DR 模型即是朝这个研究方向进行的初步探索。”

Clevrer 数据集由 Bullet 物理模拟器制作，包括 2 万部展示桌面上物体碰撞的合成视频和一组自然语言数据集，其中包括与视频内物体相关的问题和答案。总共有超过 30 万个这样的问题和答案，它们被分为描述性、解释性、预测性和反事实性等类别。

麻省理工学院-IBM 沃森实验室负责人大卫·考克斯 (David Cox) 在一次采访中向媒体透露，他坚信 Clevrer 数据集将有助于创造混合 AI，混合 AI 结合了神经网络和符号 AI。考克斯表示，IBM 研究团队 (IBM Research) 将把该方法应用于 IT 基础设施管理和工厂、建筑工地等工业环境。

考克斯称：“我认为这个数据集对几乎所有类型的应用都很重要。“通过该数据集，我们可以将世界简单化为许多到处移动的球，这也正是观察世界、了解世界、以及做计划并改变世界的第一步。因此，我们认为这个数据集的应用或将横跨多个领域，而视觉和机器人技术则是很好的开始。”

麻省理工学院-IBM 沃森 AI 实验室成立于三年前，旨在取得与广义 AI 主题相关的颠覆性进展。该实验室如 ObjectNet 等一些成果凸显了 ImageNet 之类的深度学习成功案例相对薄弱，所以该实验室已把重心转向了神经网络和符号或经典 AI 的结合上。

符号 AI 和神经网络一样，已经存在了几十年之久。考克斯认为，神经网络在等待着合适的条件出现，如足够多的数据和足够多的计算符号，与此同时 AI 也在等待着神经网络的发展，以便再度复苏。

考克斯说，这两种 AI 的互补性很好，如果能够结合，我们便可以用更少的数据和更高的效能来打造更稳健和更可靠的模型。在年初与 VentureBeat 的一次访谈中，IBM 研究团队负责人达里奥·吉尔 (Dario Gil) 称神经符号 AI 将成为 2020 年最重要的进展之一。

考克斯说，不论你想得到什么结果，通过神经符号 AI，你都可以表征知识或程序，而不是像神经网络那样映射输入和输出。因此，这或许能够使 AI 更好地帮助我们解决现实世界的问题。

考克斯称，“谷歌有一条数据之河，亚马逊也有，这些都不是坏事，但我们绝大多数的问题更像是智力游戏，所以我们认为，要向前发展，真正让 AI 不再是概念上的炒作，我们需要建立能够实现这一点的系统，这些系统有逻辑组件，可以能够灵活地重新配置自己，可以根据环境和实验采取行动，可以解释这些信息，并拥有其认知世界的内在心理模型”。

麻省理工学院-IBM 沃森 AI 联合实验室成立于 2017 年，总投资 2.4 亿美元。

原文链接：