摘要:【应用背景】目标检测是计算机视觉的基本研究问题之一,目标检测数据集是评估目标检测
文献CSTR:方法性能的基础。【目的】对目标检测领域发展过程中产生的数据集进行分析和介绍可以有
效地揭示目标检测数据集的特点、发展趋势以及检测研究面临的主要问题,从时间和领域
CN10-1649/的角度展现目标检测数据集的现状,一定程度上也可以为研究人员提供数据集使用参考。
TP.2024.02.016【方法】主要从目标检测领域通用数据集和包含行人检测、人脸检测、交通道路场景目标检
测、航空遥感检测、文本检测多个应用场景的特定领域数据集两个角度出发,关注数据集的
文献DOI:挑战性,列举分析应用最为广泛且具有差异的数据集,给出不同场景数据集的图像示例并
10.11871/jfdc.issn.分析其主要挑战。【结论】对目标检测领域数据集进行介绍的同时,也揭示了目标检测数据
2096-742X.2024.集的重要意义、不同场景下的挑战性和特点以及构建目标检测数据集的主要挑战与未来发
为基础。从应用的角度来看,目标检测通常可计算机视觉领域包括许多不同细分任务,
以分为“一般目标检测”和“检测应用”两个方如目标检测、视觉问答、场景理解等,基于诸多
向,前者主要是探索统一框架下不同类型目标细分任务也产生了不同特点的数据集,如视觉
检测任务,如行人检测、人脸检测等。过去关集SUN等,根据数据集的标注特点,许多数据集
于目标检测的研究集中于对算法的研究改进,可应用于包括目标检测在内的多个视觉任务。
随着深度学习的突破性进展,目标检测领域有基于深度学习的目标检测任务中,应用最广泛
了长足发展,许多工作关注于构建数据集资源。的数据集无疑是PASCALVOC2007、PASCAL
构建数据集耗时费力,注释通常需要手工VOC2012和MicrosoftCOCO,而其他优秀的通
标记,其质量对于模型性能的影响较大,创建高用数据集也给了研究人员更多选择。通用数据
质量注释是一项艰巨的任务,需要避免错标对集有丰富的标注信息,研究者通常可以根据对
象、边界框不紧凑、定位错误等问题的出现。注释、图像数量、类别等方面的要求来选择
在深度学习领域,数据集资源是大多算法PASCALVOC数据集首次发布于2005年,
研究的基础,建立高质量的大型数据集对于开至2012年更新了多个版本,主要用于图像分类、
发先进的计算机视觉算法至关重要。已有的目图像识别、目标检测任务。主要优点是具有明
标检测数据集中有很多被广泛用以验证模型性确的评估指标和标准化的图像注释。其图像注
能的通用数据集,这些数据集通常有图像数量释精确,标注信息包括物体的边界框位置和大
大、注释质量高、类型丰富等特点。目标检测领小、物体类别、难度级别等信息。在目标检测方
域大量研究聚焦于人脸检测、行人检测、文本检面,主流的是VOC2007[1]和VOC2012[5]两个版
测等检测应用,产生了许多基于特定领域设计本。VOC系列数据集是发布最早、使用最广泛
的复杂性不足。随着目标检测研究的发展,有(2)MicrosoftCOCO
许多大规模的数据集被提出,除了更多的图像2014年,MicrosoftCOCO[6]数据集首次发
数量,还增加了挑战性设计及多模态数据的融布,是基于日常复杂场景的常见目标数据集,每
合。多模态数据集通过结合不同类型的数据,张图像有5段情景描述,情景描述提供了与图像
可以提供更多的信息来更全面地理解场景中的相关的文本信息,是一种简单形式的多模态数
目标,增强目标检测算法的准确性和鲁棒性。据集。MSCOCO是目标检测领域十分常用的
的评估,其每张图像仅包含一个物体。主要缺进行分类。数据集由区域描述、对象、属性、关
陷在于图像基本没有干扰条件、变化有限、不同系、区域图、场景图、问题答案对共7个主要部分
类别图像数量十分不均衡。Caltech256[8]改善了组成,其单个图像具有50个不同描述,相较于
Caltech101存在的一些缺陷,在尺寸和定位方面MSCOCO还关注了图像的不同区域,能更进一
有了更多的变化,类的数量从101增加到256,具步对图像进行完整的理解,问题答案对达到170
有更加均衡的数据。Caltech数据集规模适中,万个。VisualGenome数据集是一个多模态的数
对于初学者和研究者来说,可以在有限的计算据集,整体上非常复杂,一定程度上推动了图像
了在线注释工具,鼓励用户自由标注并分享注OpenImagesV4[14]是开放图像检测(OID)挑
释,基于此,数据集能够提供更多注释图像。数战中的目标检测任务所用数据集,包括190万张
据集包含对象的边界框、对象的语义标签和关图像和600个物体类别的1,540万注释边界框,
系标签等丰富的注释信息,图像都来自真实场其边界框大多数由专业人员手工注释,图像通
就基于ImageNet数据集。ImageNet中103万张目标检测特定领域数据集中包含特定的目
SUN[11]是一个大规模场景理解数据集,基于特点,将挑战性作为数据集对比分析的重要关
类、目标检测、语义分割等场景理解任务。在行人检测在监控、辅助驾驶、移动机器人等
SUN发布之前,场景分类最大的可用数据集仅方面有着广泛的应用,已经非常成熟和精确,但
包含15个类,SUN进一步推动了场景分类相关由于遮挡、目标众多、尺度变化等复杂的场景和
MSCOCO2014328,00091小目标较多、单幅图片目标多,大多数类别物体对应较多的实例
SUN2010131,072908具有丰富的场景分类,对图像上的场景和对象提供了完整注释
YFCC100M201499.2M图像+800K视频—包含图像和视频的多模态数据集,数据集规模十分庞大
VisualGenome2016108,24976,340多模态数据集,融合了区域描述、关系、问题答案对等多种模态信息
题,对于行人检测数据集有更高的要求。行人检具备快速而精准的行人检测能力。
测中,单一模态信息难以避免遮挡、尺度变化问(4)多种行人形态:数据集包含存在形态、
题,多模态行人检测成为了重要的研究方向,衣着、姿态等多方面差异的行人实例。
如Luo等通过融入鸟瞰图信息在Citypersons、图1很好的显示了行人检测图像中存在的
CaltechPedestrian数据集上提高了遮挡行人检遮挡、高密度、多尺度、形态多样性、光照变化等
测性能;李晓艳等提出了一种可见光和红外多挑战。表2列出了行人检测领域常用的数据集,
模态融合算法在KAIST双光行人数据集实现了其中城市数量能反映场景、天气条件等方面的
不同的尺度和比例,对检测算法提出更高要求。人脸检测是人脸对齐、人脸识别、人脸合成
(3)高密度:繁华街道、大型活动现场等许等人脸分析任务最重要的预处理步骤,检测的
多场景的图像具有高密度的特点,使得算法需准确性对这些任务有直接的影响。人脸检测有
诸如姿态、光照变化、不同面部表情、遮挡等挑天、黑夜等不同光照条件下的人脸实例,使数据
CNN的改进模型,在口罩人脸数据集上取得较挡情况,可以模拟真实世界中的各种场景。
好地检测效果。人脸检测数据集具有以下图2显示了人脸检测中存在的遮挡、多尺
(1)多样性:包含多个不同国家和地区的人脸检测是目标检测中最为成熟的应用领域之
脸实例,考虑人种、性别、年龄等多方面因素的一,数据集的开发者更加关注从不同的方面增
影响,存在高兴、悲伤、惊恐等多种表情。加数据集的挑战性。表3列出了人脸检测领域
(2)多视角、多尺度:包含正面、侧面、斜视常用数据集,许多数据集具有十分详细的标注,
等不同视角的人脸实例,人脸实例通常具有不标注的内容反映了数据集的关注点,如UFDD
(3)多样的光照条件:包含室内、室外、白的图像,也存在MegaFace、MS1M等未经标注的
IJB-C[36]201831,334图像+89,642边界框、性别、肤色、遮挡、粗姿手动/人工多模态,光照变化剧烈、遮挡、低分辨率
VGG-Face2[37]20183.31M—边界框、姿势、年龄、关键点半自动/人工人脸多样性、标注质量低
MS1MV2[38]20195.8M—无自动/无标注质量不高、包含人脸检测中的广泛挑战
大规模人脸数据集。对比数据清洗和检查的方测、交通道路障碍物检测、车道检测等。其挑战
式很大程度上能帮助研究者判断数据集的质量。性主要在于强烈的光照变化、运动模糊、恶劣天
交通道路场景中的目标检测任务可以为城频收集,许多数据集包括视频和图像两个模
市交通管理、自动驾驶、交通安全监测等领域提态。自动驾驶的应用研究对数据集有很高的要
供有力支持,主要有交通标志检测、交通灯检求,一方面,数据集需要关注的目标对象非常丰
到场景变化、地理分布等因素;另一方面,自动(2)多类别:包含限速、禁止、指示等不同类
驾驶领域的3D目标检测也要求构建包含3D目型的交通标志,不同类型的交通标志具有不同
标数据的数据集,使数据集的构建具有更高形状和颜色,部分数据集被开发者进一步对交
交通标志检测可以帮助自动驾驶汽车、智(3)多种角度和方向:包含各种不同的交通
交通标志检测中,远处的交通标志检测对于实(4)真实场景:图像通常采集自真实的交通
时检测非常重要,属于小目标检测问题,许多研场景,使数据集具有真实性和泛化能力。
究致力于提升小尺寸交通标志检测的效果,如表4列出了常用交通标志数据集,图像大多
胡均平等基于YOLOv5进行改进,在小目标数采集自不同国家和地区的道路,包含丰富的交
量非常多的TT100K数据集上具有较好检测性通标志类别。对数据来源进行对比是非常有必
能。交通标志的外观变化不大,其数据集通常要的,一方面,不同国家和地区的交通标志存在
(1)场景多样性:包括城市道路、高速公路、数据来源反映场景、天气、光照等方面的多样
阴天、雨雪天气等多种不同的环境状况,复杂环性,对数据集的挑战性具有很大影响。
LISA[44]20126,610图像,7,85549640×480~道路状态、边城市、农村、美国加州道路杂、光照、遮挡、阴影、模
靠的交通灯检测对于城市环境中的自动驾驶十(2)标注信息丰富:标注信息通常包含了交
分关键。交通灯检测中,尺度小、环境复杂、实通灯的位置、大小、颜色等多种属性信息,为交
些痛点提出了改进YOLOv5的交通灯检测算(3)挑战性:包含难以检测的实例,如存在
法,实现了高精度实时检测。交通灯数据集公被遮挡、距离过远或过近、光照不足或过度的交
开的相对较少,但主流的交通灯数据集通常都通灯,这些实例具有更高的挑战性。
包含有过万的图像,可以满足交通灯检测需表5对常用交通灯数据集进行了对比,现有
求。另外,一些自动驾驶数据集中也包含交通的交通灯数据集多数按照红、黄、绿颜色进行简
灯实例。交通灯数据集通常有以下特点:单的分类,数据大多来自于一个地区的道路拍
(1)多样性:包含红、绿、黄、箭头等多种类摄,数据来源不够广泛也决定了场景多样性相
型的信号灯,同时还包含了城市、乡村、高速公对一般,其挑战性与交通标志数据集相近。
[51]43,007图像+边界框、类别、美国加州,车载相机不同的光照条件、天气条件
[52]3,366图像+边界框、类别、德国11个城市,车规模大、交通灯分类多、小
2.3.3其他交通道路场景数据集标注信息以保证算法的可靠性。表6列举了部
物、路障、破损路面等障碍物,其标注涉及到障航空遥感图像检测从图像中检测出车辆、
碍物的位置、尺寸、形状、方向、遮挡程度等多个船舶、行人等感兴趣的目标等,主要有尺度变化
因素,标注难度较高。车道检测数据集主要包大、小目标多、背景信息复杂等重要挑战,数据
括道路场景中的车道线、边缘线、路面标记等信集主要基于卫星图像和无人机拍摄图像构建,
LostandFound[55]201621,000图像+1920×1080道路障碍物障碍物检测街道、车载在大小、距离、颜色和材料等变化,具有不
(1)高分辨率:图像通常具有较高分辨率,均实例数量和标注边界框的区分反映了多目
能够提供更加细致的地表信息,包含大量密集标、小目标检测在航空遥感检测中的重要性和
(2)多角度、多目标类型:拍摄角度多样,提域数据集的显著特征。规模大、目标类别多的
供不同角度下的地表信息,涵盖了建筑物、车航空遥感数据集可以作为目标检测的通用数据
图4显示了航空遥感图像中存在多目标、小解的大量需求使文本检测成为人机交互的一项
目标的挑战性问题,同时也反映了航空遥感图重要任务。文本检测数据集通常包括真实世界
表7列出了常用的航空遥感数据集,图像平以街景图像构建,此类图像具有较大差异性,检
测难度较高。文本检测数据集通常有以下景下的文本,有助于提高算法在不同环境下的
型的文本,文本不仅包括普通的文字,还包括图于算法的实时性和稳定性有一定的要求。
(2)多语言:包含中文、英文、韩文等多种语文本旋转、文字排列密集等挑战具有很好体
言文本,适用跨语言的应用场景。现。表8列出了文本检测领域常用数据集,在标
(3)多场景:包含室内、街道、商场等不同场注内容方面,存在文本行级别和单词级别边界
2、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
3、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
4、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
基层政府模糊政策执行中的资源拼凑——基于X区“科创中国”试点的案例研究.pdf
高等教育信息化政策执行是否促进了高等教育“提质增效”——基于双重差分法的实证研究.pdf
行动者认知、制度结构与政策工具选择——基于广东省J市低收入人口识别机制设计过程的分析.pdf
专注于经营管理类文案的拟写、润色等,本人已有10余年相关工作经验,具有扎实的文案功底,尤善于各种框架类PPT文案,并收集有数百万份各层级、各领域规范类文件。欢迎大家咨询!
2018年第73期建设项目竣工环境保护验收监测技术培训班成绩单.PDF
2024年台湾YouTube年度社群内容趋势报告(繁体版)-Kolr.pptx
诺尔起重设备(中国)有限公司RTG&RMG中国福建招商局漳州开发区363105.pdf
原创力文档创建于2008年,本站为文档C2C交易模式,即用户上传的文档直接分享给其他用户(可下载、阅读),本站只是中间服务平台,本站所有文档下载所得的收益归上传人所有。原创力文档是网络服务平台方,若您的权利被侵害,请发链接和相关诉求至 电线) ,上传者