
SSD(single shot detector) 코드 분석 1. (data)

아래 SSD 코드를 보고 필요한 내용 개인적으로 기록



GitHub - lufficc/SSD: High quality, fast, modular reference implementation of SSD in PyTorch

training data : PASCAL VOC 2007 & 2012

testing data : PASCAL VOC 2007 


PASCAL 데이터셋을 압축 받고 풀면


VOC2007\ImageSets\Main 폴더에 "trainval.txt"라는 파일이 있으며 데이터에 대한 파일명이 아래와 같이 나열되어 있다.

(추가적으로 폴더 안에 train_test,  train_train, train_trainval, train_val 이런 파일들도 존재하는데 정확한 용도는 나중에 찾아봐야겠다.)



    def _get_annotation(self, image_id):
        annotation_file = os.path.join(self.data_dir, "Annotations", "%s.xml" % image_id)
        objects = ET.parse(annotation_file).findall("object")
        boxes = []
        labels = []
        is_difficult = []
        for obj in objects:
            class_name = obj.find('name').text.lower().strip()
            bbox = obj.find('bndbox')
            # VOC dataset format follows Matlab, in which indexes start from 0
            # The index uses 1-based counting, and Scala is 0-based, so we’ll subtract 1 from the x and y position when we parse the bndbox.
            x1 = float(bbox.find('xmin').text) - 1
            y1 = float(bbox.find('ymin').text) - 1
            x2 = float(bbox.find('xmax').text) - 1
            y2 = float(bbox.find('ymax').text) - 1
            boxes.append([x1, y1, x2, y2])
            is_difficult_str = obj.find('difficult').text
            is_difficult.append(int(is_difficult_str) if is_difficult_str else 0)

        return (np.array(boxes, dtype=np.float32),
                np.array(labels, dtype=np.int64),
                np.array(is_difficult, dtype=np.uint8))


위 코드를 보면 annotation의 정보를 가져온다.


현재 image_id가 009133이라고 해보자


그러면 annotation_file은 아래와 같은 파일이며



해당하는 이미지는 아래와 같다.


Element tree의 라이브러리를 이용하여 object의 정보를 얻고 순서대로


x1, y1, x2, y2의 정보를 얻는다.


여기서 특이한 점은 좌표 정보에 -1을 해줬는데 주석에 따르면 이는

index가 1-based counting이기 때문에 1을 빼줌으로써 0-based counting으로 맞춰줘야 한다고 한다.

(확실히 1-based counting인지 이 부분은 나중에 추가로 확인해봐야겠다.)


또한 코드를 보면 difficult의 항목이 있는데 그 예시를 보면

(VOC 2012 : 2008_006761)

		<database>The VOC2008 Database</database>
		<annotation>PASCAL VOC2008</annotation>

위 이미지의 사람과 같이 물체의 크기가 작아서 찾기 어려운 경우에 difficult를 1(True)로 설정한듯 하다.