人工智能学院举办 “计算机视觉前沿:Transformer和大模型”科学前沿讲座

  • 文/图 张明宇
  • 创建时间: 2024-01-09
  • 6147

  1月3日上午,中国科学院大学人工智能学院有幸邀请到了百度计算机视觉首席科学家王井东老师,在雁栖湖校区教一楼114教室为同学们带来科学前沿讲座——《计算机视觉前沿:Transformer和大模型》。讲座主要分为两个部分。第一部分关于transformer。Transformer已经成为视觉识别的主流网络,可以用作编码器和解码器。本报告首先介绍探索transformer编码器和卷积编码器的关系的工作DWNet。然后介绍基于query的transformer解码器在语义分割中应用OCRNet。最后,分享基于transformer解码器的目标检测的高效训练方法Group DETR等。第二部分关于大模型。首先介绍文心·CV大模型的算法以及应用包括以数据为中心的大模型技术,包括自监督预训练等。然后分享对视觉大模型以及在大模型时代计算机视觉研究范式的思考。

01

  计算机视觉在我们生活中无处不在,王老师首先介绍了计算机视觉广阔的应用前景,比如自动驾驶场景中对道路车辆的识别,智慧农业中的应用,抖音中人脸识别、人脸定位等娱乐化的应用以及监控安防等。

  视觉识别包括图像识别、目标检测、语义分割、关键点检测等任务。王老师从Hinton引入,介绍了深度学习的发展历程中的里程碑网络算法,以及深度学习的三大关键因素:算法、大数据和强算力。其中,2017年的ViT中用了Transformer作为主干网络,ViT的成功证明了Transformer架构也可以直接应用于图像数据。王老师随后介绍了Transformer和Attention的数学原理,然后讲解了用于识别的Transformer,并比较了Local Attention和Depth-wise卷积的异同。然后王老师讲了“Query-based Dense Recognition with Transformer”,并延申介绍了OCRNet、SAM、DETR等的网络原理和结构。

02

  目前,大模型的研究方兴未艾,视觉大模型也逐渐出现在人们的视野之中。那么,视觉大模型是什么呢?视觉大模型是通过合理的算法,基于大数据,预训练深度网络,解决多种视觉任务,它依托强大的深度学习平台和分布式计算,充分利用计算资源,高效训练大参数深度网络,包括大算法、大数据、大算力、大任务、大参数、大平台等六大要素。王老师介绍了自监督视觉大模型的几种应用,包括工业视觉大模型、OCR文字识别大模型和人体图象大模型等。

03

  通过本次讲座,同学们从理论和落地实践两方面了解了关于Transformer和大模型的知识,并体会到了在该领域数据的重要性,讲座的最后王老师详细回答了同学们提出的问题,大家受益匪浅。

更多专家信息:

  王井东,百度计算机视觉首席科学家,负责计算机视觉领域的研究、技术创新和产品研发。加入百度之前,曾任微软亚洲研究院视觉计算组首席研究员。研究领域为计算机视觉、深度学习及多媒体搜索。他发表论文200多篇,Google Scholar引用44000余次,其中有四篇会议文章引用数在当年的会议论文 (CVPR 2013, ICCV 2015CVPR 2019,ECCV 2020) 中列前。他的代表工作包括高分辨率神经网络HRNet基于Transformer的图像语义分割网络OCRNet、 以及基于近邻图的大规模向量搜索SPTAG(最早把基于近邻图的搜索方法用于实际产品中,是Bing搜索、广告和推荐底层向量搜索的核心技术) 等。在微软工作期间,科研成果10多次转化到微软的关键产品和业务中去,包括搜索、广告、OCR、小冰聊天机器人等。在百度带领团队研发的技术已经广泛应用于搜索、智能云以及自动驾驶等重要产品和业务中。王井东曾担任过许多人工智能领域会议的主席,如CVPR、ICCV、ECCV、 NeurIPS.AAAI、IJCAI、ACM MM等。他现在是IEEETPAMI、IJCV和ACM TOMM的编委会成员,曾是IEEE TMM和IEEETCSVT编委会成员。因在视觉内容理解和检索领域的杰出贡献,他被遵选为国际电气电子工程师学会和国际模式识别学会会士 (IEEE/IAPRFellow)、国际计算机协会杰出会员(ACM Distinquished Member)。