PASCAL VOC 2007 데이터셋 다운로드 및 확인 방법
PASCAL VOC는 대표적인 Object Detection 데이터셋 중 하나입니다. 논문을 읽다 보면 특히나 Object Detection 태스크에서 자주 등장하는 기본적인 데이터셋입니다. 그중에서도 PASCAL VOC 2007을 다운로드하는 방법을 소개하고자 합니다.
▶ PASCAL VOC 2007 다운로드: host.robots.ox.ac.uk/pascal/VOC/voc2007/
▶ PASCAL VOC 2007 Mirror 사이트: pjreddie.com/projects/pascal-voc-dataset-mirror/
기본적으로 PASCAL VOC 2007 공식 사이트에 접속하여 다운로드받으실 수 있습니다.
혹은 공식 사이트 접속이 안 된다면 PASCAL VOC Dataset Mirror 사이트에 방문하여 설치를 진행하시면 됩니다. 필자는 간단히 다음과 같이 Mirror 사이트에 방문하여 [Train/Validation Data]를 클릭하여 설치를 진행했습니다.
참고로 VOC 2007 버전은 데이터셋의 크기가 그렇게 크지 않습니다. 일단 클래스의 개수는 총 20개로, 구체적인 클래스의 종류는 다음과 같습니다.
메인 태스크는 2개로 구분할 수 있습니다.
① 분류(Classification): 하나의 이미지에 특정한 오브젝트가 있는지 없는지 판단하기
② 탐지(Detection): 존재하는 오브젝트의 위치(바운딩 박스)를 찾기
데이터셋에는 총 9,963개의 주석이 달린(annotated) 이미지가 포함되어 있습니다. 이 중에서 5,011개가 학습 데이터(training data)입니다. 기본적인 PASCAL VOC 2007은 학습 : 평가 : 테스트 = 1 : 1 : 2 정도의 비율을 가진다는 점이 특징입니다. (학습 데이터가 테스트 데이터보다 더 작습니다.)
※ 학습 데이터셋 구조 ※
다운로드 이후에 학습 데이터셋을 확인해 보시면 다음과 같습니다. 우리가 객체 탐지(object detection)만 다룬다면 Annotations, ImageSets, JPEGImages 세 가지 폴더만 이용한다고 보시면 됩니다.
※ 서브 태스크 ※
또한 추가적으로 Class Segmentation과 Object Segmentation을 위한 정보도 포함되어 있습니다. 여기에서는 422개의 학습 데이터 정보가 포함됩니다. 이미지 중에서 하나를 열어 보시면 다음과 같이 픽셀 단위로 Classification이 분리된 것도 확인할 수 있습니다.
※ 주석(Annotation) 구조 살펴보기 ※
주석은 다음과 같은 정보를 포함하고 있습니다.
① 클래스(Class): 오브젝트의 클래스가 무엇인지
② 바운딩 박스(Bounding Box): 오브젝트가 어디에 있는지
③ View: 각각의 오브젝트의 방향성 정보
④ Truncated: 오브젝트가 해당 이미지에 온전히 표현되지 못하고 잘려나갔는지
⑤ Difficult: 인식하기 어려운지
다만 위 정보 중에서 가장 핵심적으로 사용되고 있는 내용은 ① 클래스와 ② 바운딩 박스입니다. 실제로 .xml 파일을 하나 열어 보시면 다음과 같은 형태를 가지는 것을 알 수 있습니다.
※ VOC 2007 테스트 데이터셋 다운로드 ※
VOC 2007 테스트 데이터셋도 동일한 방법으로 다운로드 하시면 됩니다.
압축을 해제하여 폴더 구조를 살펴 보시면 다음과 같은 형태를 확인하실 수 있습니다.
'기타' 카테고리의 다른 글
Object Detection에서의 IoU, Precision, Recall 설명 (0) | 2020.11.19 |
---|---|
병무청 병역판정검사(신체검사) 위치 및 일정 변경 방법 (3) | 2020.11.18 |
킬디스크(Killdisk) 랜섬웨어 분석 환경 구축 (2) | 2020.11.15 |
Ubuntu 16.04 호스트(Host) PC에 Oracle VM VirtualBox를 설치하여 Ubuntu 16.04 게스트(Guest) 설치하기 (0) | 2020.11.15 |
리눅스 오픈소스 랜섬웨어(Ransomware) CryptoTrooper 분석 환경 구축 (0) | 2020.11.15 |