“仪科知多少”第十三期 | 李潍:智能的视觉——模式识别,图像处理

编辑:李嘉懿审核:李嘉懿发布时间:2022-05-12浏览次数:404

图像处理与模式识别利用计算机技术与数学方法对图像、视频信息的表示、编解码、图像分割、图像质量评价、目标检测与识别以及立体视觉等方面开展科学研究。主要研究内容包括:图像、视频的模式识别和安全监控、医学和材料图像处理、演化算法、人工智能、粗糙集和数据挖掘等。在人脸识别、指纹识别、光学字符识别、自然语言处理以及多个领域的信息管理系统等方面均有广泛应用。

今天我们有幸邀请到了李潍老师,下面让我们跟着李老师一起走进图像处理与模式识别的世界。


01 人物介绍

李潍

副研究员,硕士生导师,博士毕业于京都大学智能信息学专业,主要研究方向为模式识别和机器学习技术在视觉图像分类、生物医学信号处理、博弈对抗等方面的创新和应用,应用场景包括包括行人重识别、身份认证、心律失常判别、情绪识别、畜牧养殖、病虫害监测、集群空战、星际争霸2.0竞技等。近年来,主持国家级项目3项、省部级项目3,并参与科研项目多项;以第一作者身份发表论文22篇,其中SCI论文15(包括IEEE TAFFCIEEE TIMIEEE TCDSPR等国际权威学术期刊)、国际学术会议论文3中文核心期刊论文4


02 采访内容

Q1 李老师,模式识别是近年来一个非常火热的话题,能不能给我们简单介绍一下模式识别技术以及它的发展现状?

李:模式识别指的是对表征事物或现象的各种形式的信息进行处理和分析,从而达到对事物或现象进行描述、辨认、分类和解释的目的。具体来说,一般的模式识别有有监督模式识别无监督模式识别,同时其整个过程可以大致分为两个阶段,分别是训练阶段验证阶段。在训练阶段,我们通过喂入模型(可以是传统机器学习模型,也可以是深度学习模型)相对应的训练样本,来令模型推理其相对应的特征。

对于有监督模式识别而言,模型通过标签来对模型进行监督,从而能够准确预测相应类别标签(对于分类任务),对于无监督模式识别而言,则通常通过考察不同样本之间的距离从而判断未知的事物(例如类别标签)。

在验证阶段,则通过模型推理未知样本,来得到相对应的测试精度,从而考察模型的泛化能力。就目前而言,深度学习已经越来越流行,在心电信号处理领域,我们可以基于模式识别技术完成心律失常判别与情绪识别;在脑电信号处理领域,我们可以通过模式识别来判断相对应样本的情绪类别以及身份类别;在计算机视觉领域,我们可以通过模式识别来对目标进行分类,检测,语义分割以及高分辨率图像重建等等。目前而言由于深度学习的广泛流行,模式识别技术已经在计算机视觉领域相对成熟。相信在未来一段时间内,模式识别在其他领域的融合会越来越迅速。

模式识别类型


Q2 老师,我想请教您目前用来做图像处理的神经网络模型有哪些,它们有哪些优缺点?

李:计算机视觉领域目前相当火热,因此做图像的神经网络模型也是层出不穷。但深度学习刚刚蓬勃发展时,一系列经典的神经网络模型被提出,这些模型包括VGG,ResNet,DenseNet在内的经典且高效的模型在现在仍然大规模应用于目标检测,语义分割,风格迁移等一系列下游任务中。随着模型越来越庞大,所需的计算成本越来越高,研究者将目光转向轻量化模型的设计,便产生了MobileNetEfficientNet等一系列追求更少的参数量以及更小的训练成本的模型。

最近一段时间,随着Vision Transformer在计算机视觉领域提出,并在ImageNet-1k的图像分类任务上超越大量的卷积神经网络。因此在计算机视觉领域掀起了研究Transformer的热潮,诸如Swin-TransformerMobile-former等等,在上游和下游任务都取得了优异的性能。

但是卷积神经网络的研究者也不甘示弱,提出了EfficientNetV2ConvNextRepLKNet等模型。目前看来Transformer和卷积神经网络的battle只会愈来愈激烈。当然以上模型有着各自的优缺点,对于Transformer系列而言,缺点是参数量和运算量相比于卷积神经网络更加庞大,同时缺乏归纳偏置导致在小数据集上表现不佳。

优点是Transformer系列由于其捕获长距离依赖的能力,在一系列大规模数据集表现良好,同时由于其特殊的结构,能够通过预测patch的形式进行无监督训练,但是卷积神经网络做不到。而对于卷积神经网络而言,其一般结构简单更易于理解,同时在小数据集上表现良好,但是大数据集上性能略微逊色于Transformer系列。

此外,对于计算机视觉的目标检测和语义分割领域而言,YOLO系列RCNN系列仍然是主流,是属于比较好用的目标检测框架。

图像处理结果


Q3 您认为本科生要较好地掌握模式识别技术,应该具备怎样的能力?

李:本科生要学习模式识别,首要就是了解一系列经典的机器学习算法,并且较好地掌握高等数学线性代数概率论。其次,首先要学习pytorchtensorflowjaxcaffe这几个深度学习编程框架的一个或多个。然后是阅读经典的baseline模型的相关论文,包括ResNetDenseNetShuffleNet等等,并从github上面拉下来代码将它们跑起来,毕竟实践才能更好地领悟。在本科生阶段的空余时间,可以多参加相关的深度学习比赛,多看相关论文。如果能力有余,可以和相关导师合作,去试着发表几篇论文


03 结语

本次对李老师的访谈使我们增进了对模式识别和图像处理的了解,也让我们知道了如何更好地掌握相关技术,提升自己的研究能力,为科研事业做出更多地贡献。


本期访谈到此结束,还有更多精彩内容在等着大家。让我们一起期待丁徐锴教授之“仪科知多少”(第十四期)| MEMS——“MEMS惯性传感器”大揭秘

来源|东大仪科公众号