本文要点
近年来,机器学习在许多问题的解决上都取得了很大的成功。
特别是,在语言翻译、对象识别、游戏、甚至自动驾驶等任务中,神经网络已经达到了人类(有时甚至是超人)的能力水平。
随着能力的增长,复杂性也随之增加。数据科学家和机器学习工程师必须执行特征工程,设计模型架构,并优化超参(Hyperparameters)。
由于机器学习的目的是自动化通常由人类完成的任务,因此,其下一步必然是自动化数据科学家和工程师的任务。
这一领域的研究被称为自动机器学习或。
最近,AutoML 取得了许多令人兴奋的进展,了解一下当前的技术状况,并学习当前正在发生的事情以及未来将要发生的事情是至关重要的。
InfoQ 采访了以下业内的主题专家,讨论了 AutoML 领域的现状及未来趋势。
专题小组成员
InfoQ:AutoML 是什么?为什么它很重要?
InfoQ:机器学习过程的哪些部分可以自动化,哪些部分不太可能自动化?
InfoQ:哪些类型的问题或用例更适合使用 AutoML?
InfoQ: AutoML 中有哪些研究问题是重要的?
InfoQ:现在从业人员可以使用的 AutoML 技术和开源工具有哪些呢?
InfoQ:AutoML 的局限性是什么?
总结
小组成员一致认为,AutoML 之所以重要,是因为它节省了时间和资源,省去了许多手动工作,并使数据科学家能够更快、更有效地交付业务价值。然而,专家们预测,AutoML 不太可能能消除对“人机回圈”(“human in the loop”)的需求,特别是在行业特定知识以及将业务问题转化为机器学习问题的能力方面。AutoML 的重要研究领域包括特征工程和模型解释。
小组成员重点介绍了几种现有的商业和开源 AutoML 工具,并描述了机器学习过程中可以自动化的不同部分。一些小组成员指出,AutoML 的一个局限性是其所需的计算资源量,而其他人则指出其局限是需要领域知识和模型透明化。
专题小组成员介绍
Francesca Lazzeri 博士是一位经验丰富的科学家和机器学习实践者,拥有超过 12 年的学术和行业经验。她是许多出版物的作者,包括技术期刊、会议和书籍。她目前在微软领导着一个由云计算倡导者和人工智能开发者组成的国际团队。在加入微软之前,她是哈佛大学技术与运营管理部门的研究员。她的 Twitter 账号:@frlazzeri,Medium 账号:@francescalazzeri
Matthew Tovbin 是(一个 DevOps 的软件自动化平台)的联合创始人。在创立 Faros AI 之前,他曾在 Salesforce 担任软件工程架构师,开发了 Salesforce Einstein AI 平台,该平台能为全球最智能的 CRM 提供支持。此外,Matthew 是TransmogrifAI的创建者、Scala Bay meetup的联合组织者、众多函数式编程小组的演示者和活跃成员。Matthew 和他的妻子及孩子一起住在旧金山的湾区,他喜欢摄影、远足,爱好威士忌和电脑游戏。
Adrian de Wynter 是 Alexa AI 安全人工智能基金会的应用科学家。他的工作主要涉足三个广泛但有时又重叠的领域:语言建模、神经结构搜索及隐私保护相关的机器学习。他的研究兴趣包括元学习(Meta-learning)和自然语言理解,特别强调这些主题的计算基础。
Leah McGuire 是 Salesforce 的一名机器学习架构师,致力于使尽可能多的机器学习步骤自动化。在 Salesforce,这种自动化在开发和交付大量面向客户的机器学习产品方面发挥了重要作用。其目标是为每个客户特有的数据和业务目标带来智能。在专注于开发机器学习产品之前,她在加州大学旧金山分校和加州大学伯克利分校获得了计算神经科学的博士学位和博士后奖学金,在那里她研究了感觉信号的神经编码和整合。
Marios Michailidis 是 H2O.ai 的一位竞争性数据科学家,正在 AutoML 领域开发下一代机器学习产品。他拥有希腊马其顿大学会计金融的学士学位、南安普顿大学风险管理硕士学位以及伦敦大学学院(UCL)的机器学习博士学位,专注于集成建模。他是的创建者,一个 100%用 Java 制作的用于信用评分和数据挖掘的免费 GUI,他还是StackNet元建模框架(StackNet Meta-Modelling Framework)的创建者。在业余时间,他喜欢参加数据科学挑战赛,在热门的数据科学平台Kaggle.com上,他在500,000名会员中排名第一。
原文链接:
State of the Art in Automated Machine Learning