Fastai 是一个基于 PyTorch 的高级深度学习库。Jeremy Howard 最近推出了该库的最新版本,同时还推出了非常方便、适合初学者的一本书和一门课程。我对它的抽象程度相当惊讶,它能帮助你在短短几分钟内就创建出最先进的模型,而无需担心背后的数学问题。
本文是为初学者写的,就算你没有多少编程经验,你也能按照这篇文章做出来。读完本文后,你就可以从头开始写一段代码,可以识别你最喜欢的超级英雄,甚至可以通过动物发出的声音来识别它。
下面是口罩分类器的结果快照,我使用了少量的训练数据、几行代码,以及在一个 GCP 集群上几分钟的训练。点击这里可以免费设置你自己的 FastAI GPU VM。
为了实现这一结果,我们首先需要在图像中找到人脸,也就是定位,然后对每个人脸进行分类,并根据它所述的类别(绿色:
with_mask;红色:no_mask;黄色:mask_worn_inproperly)绘制出彩色边框。现在,让我们来了解多类图像分类问题。
该项目的代码可以在这里找到。
我会在写一些代码的同时,解释深度学习和计算机视觉的一些基本概念。我强烈建议你在 Jupyter Notebook 上逐行运行代码,因为我们理解了抽象函数背后的思想。
处理数据
该库分为几个模块,主要有表格、文本和视觉。由于我们今天的问题将涉及到视觉,因此,让我们从 vision 库导入我们需要的 all 函数:
In [1]: from fastai.vision.all import *
复制代码
我们存储数据集所在的路径。Path 返回一个 apathlib 对象,它可以非常容易地用于执行某些文件操作。
复制代码在训练模型(即教会模型识别图像的算法)之前,我们首先需要告诉它一些事情:
Fastai 有一个名为>
In [3]: mask_datablock =>get_items=get_image_files,
get_y=parent_label,
blocks=(ImageBlock, CategoryBlock),
item_tfms=RandomResizedCrop(224, min_scale=0.3),
splitter=RandomSplitter(valid_pct=0.2, seed=100),
batch_tfms=aug_transforms(mult=2)
复制代码
例如:
parent_label('/home/kavi/datasets/with_mask/1.jpg') => 'with_mask'
复制代码
你可以根据数据的标签方式来编写自己的函数:
图像在电脑中是如何表示的?
每张图像都是一个像素密度矩阵。每个值的范围为 0~255。0 是各通道最黑的,255 是各通道最亮的。
彩色图像是一个三层矩阵/三价张量。每层由红(Red)、绿(Green)、蓝(Blue)强度组成,而黑白图像则是一维矩阵。
我们将 TransformBlock 类型的元组 (input_transformation, output_transformation) 传递给 blocks。在我们的问题中,需要预测图像的类别,因此传递 (ImageBlock, CategoryBlock)。如果假设你想根据一个人的图片来预测他的年龄,你需要传递 (ImageBlock, RegressionBlock)。
使用 ResizeMethod.Squish、ResizeMethod.Pad 和 ResizeMethod.Crop 方法调整图像大小。
Fastai 提供了各种调整大小的方法:裁剪、填充或压缩。它们中每个方法都有一些问题。有时候,我们甚至可能会丢失一些关键信息,就像在中心裁剪之后的第三张图像中一样。
我们可以使用 RandomResizedCrop 来解决这个问题。在这里,我们随机选择图片的一部分,并对模型进行几个轮数(epoch)的训练(即一次完整地遍历数据集中所有图片),每个轮数涵盖了每张图片的大部分区域。min_scale 决定了每次选择图像的最小值。
在训练数据集上进行模型正确率评估会导致评分出现偏差,可能会导致对未见过的数据的性能较差。我们需要告诉>
Fastai 有几个 split 函数,让我们用 RandomSplitter 来解决今天的问题,valid_pct 将确定需要保留的训练数据部分,并且 seed 将确保始终保留相同的随机图像。
使用 aug_transforms() 对单个泰迪熊图像进行增强。
上面的图片都是有一张泰迪熊的照片生成的。在现实世界中,我们经常需要对看不见的数据进行预测,如果模型只是记住训练数据,那么它的性能会很差(过拟合),而应该理解数据。事实证明,在很多情况下,数据增强对提高模型的性能很有帮助。
在 Fastai 中,我们有一个预定义的函数 aug_transforms,它执行一些默认的图像转换,比如翻转、改变亮度、倾斜等等。我们将这个函数传递给 batch_tfms,值得注意的是,这些转换是在 GPU 上执行的(如果可用的话)。
DataBlock 保存将在数据集上执行的列表指令。这将充当创建>
提示:!nvidia-smi 命令可以在 Jupyter Notebook 随时执行,以了解 GPU 使用的详细信息。你可以重新启动内核以释放内存。
In[10]: dls = mask_datablock.dataloaders(DATASET_PATH)
复制代码
dls 是一个>
训练口罩分类器模型
模型是一组值,也称为权重,可用于识别模式。模式识别无处不在,对于生物来说,这是一个认知过程,发生在大脑中,而我们却没有意识到它。就像我们小时候通过盯着颜色、物体和字母学会识别一样。训练模型就是确定一组正确的权值,它可以解决一个特定的问题,在我们的示例中,是将一幅图像分类为三类:with_mask、without_mask、mask_weared_incorrect。
如何快速训练模型?
作为成年人,我们几乎可以立即学会识别物体,这是因为我们从出生起就一直处于学习模式。最初,我们学会了辨别颜色,然后是简单的物体,比如球、花之类的。几年后,我们就能够识别人和其他复杂的物体。类似的,在机器学习中,我们有预训练模型,这些模型已经经过训练来解决类似的问题,并且可以通过修改来解决我们的问题。
resnet34 就是这样一个模型,它是在 ImageNet 数据集上训练出来的,该数据集包含大约 130 万张图片,可以将图片分类为 1000 多种类别。在我们的问题中,只有三个类别,因此,我们使用初始层来识别基本的模式,如线、角、简单的形状,然后在最后一层进行重新训练。
In[11]: learn = cnn_learner(dls, resnet34, metrics=error_rate)
复制代码
Fastai 提供了一个 cnn_learner 函数,该函数在计算机视觉模型的训练中特别有用。其中包括>
迁移学习是如何工作的?
最初,我们用一个或多个具有随机权重的新层替换我们预训练模型的最后一层,这部分被称为头部。我们使用反向传播算法更新头部的权重,有关这部分我将在另一篇文章中阐述。
Fastai 提供了一种方法 fine_tune,该方法执行调整预训练模型的任务,以使用我们整理的数据来解决我们的特定问题。
In[12]: learn.fine_tune(4)
复制代码
fine_tune 函数的输出。
Jeremy 的提示和我的经验教训:
使用模型进行推理
现在,我们已经有了经过训练的口罩分类器,它可以根据一个人的脸部照片来分类一个人是否正确地、或错误地佩戴口罩。我们可以导出这个模型,并用它来预测其他类。
In[13]: learn.export()
In[14]: learn.predict('path/to/your/image.jpg')
复制代码
我们可以使用 load_learner(‘path/to/model/export.pkl’) 来加载这个模型。
Web App 的截图
我接着做了一个 REST API,将这个模型公开到互联网上,并在朋友 Vaishnavi 和 Jaswanth 的帮助下,制作了一个 Web 应用程序,它获取输入图像,并根据人脸所述的类别以及人脸类别的计数绘制边框。Web 应用程序已上线,网址为:。
结语
现在,你可以构建图像分类器了。你还可以使用这一技术将声音转换成谱图或任何合适的图像形式来进行分类。
作者介绍:
Vinay Kudari,机器学习工程师、社会企业家。
原文链接: