这段时间做了一些关于目标检测的工作,把近期写和摘录的东西整理一下贴在这里,可能会有些零碎。
什么是目标检测(Object Detection)
目标检测是计算机视觉领域的传统任务。与较为单纯的图像识别问题不同,目标检测任务不仅要在给定的图像上识别出存在的物体,给出物体的所属类别,还需要将该物体的位置通过bounding box给出。在众多的计算机视觉任务中,目标检测处于一个非常重要与基础的地位,许多的工作都需要在目标检测的基础上进行展开。
目标检测任务对人来说是一个非常自然的过程,人脑可以在极短的时间内对给定的图像进行目标检测,给出相应物体的位置和分类,甚至还能从语义级进行精细的分割和描述。而与人不同,计算机中的图片的保存格式究根结底是一串由0和1组成的二进制数据。从更高层次来看,被呈现在显示器中的图片组成为一个个的像素点,每个像素点由数个0-255的数组组成。人脑尚且是个黑盒,如何处理计算机中的图片数据就成了一个巨大的问题。因为没有直接方法可以通过图像数据拿到图像中存在物体的高层次语义,也无法直接定位物体出现在图像的位置,因为图像是千变万化的,目标可能出现在图像的任何地方,出现的形态也有着很多的可能,背景也可能千差万别。所以对于计算机来说,目标检测直觉上是一个比较困难的问题。