안경잡이개발자

728x90
반응형

  CheXpert 데이터셋은 스탠포드(Standford) 대학교에서 연구 목적으로 공개하는 Chest X-rays 데이터셋이다. 본 데이터셋은 말 그대로 흉부 X-ray 데이터셋으로, X-선 검사를 이용해 촬영한 이미지로 구성되어 있다. X-ray를 활용한 신체검사를 받아 본 분들은 알겠지만, 일반적으로 흉부 X-ray 이미지는 정면과 측면 2장을 찍는 경우가 많다.

 

  흉부 방사선 검사는 간단한 검사이지만, 심장의 크기/모양 및 폐혈관의 크기 및 폐부종 여부를 확인하는 데에 도움을 준다는 장점이 있다. 자동으로 흉부 방사선 이미지해석(interpretation)할 수 있는 기술에 대한 수요가 많아지고 있으며, 최근에는 실제로 의사들의 의사결정을 돕기 위해 인공지능을 활용하는 경우가 많아지고 있다. 

 

 

  ▶ CheXpert 데이터셋 소개: https://aimi.stanford.edu/chexpert-chest-x-rays

  ▶ CheXpert 대회(competition) 소개: https://stanfordmlgroup.github.io/competitions/chexpert/

 

  스탠포드(Standford)에서 제공하는 CheXpert 데이터셋은 총 65,240명의 환자(patient)로부터 얻은 224,316개의 흉부 방사선(chest radiograph) 이미지로 구성되어 있다. 각 이미지는 기본적으로 진단 결과 보고서(reports) 정보와 함께 확인 가능하다. CheXpert는 데이터셋의 크기가 크고, 비교를 위해 전문가의 성능 지표를 함께 제공한다.

 

  일반적으로 CheXpert는 데이터셋을 두 개로 나누어 사용한다. 하나는 original 버전이고, 하나는 small 버전이다. small 버전의 경우 320 X 320 크기의 해상도를 갖는다. 실제 논문을 확인해 보면, 각 방사선 촬영 이미지의 크기를 320 X 320으로 변형한 뒤에 분류 모델을 학습하고 평가를 진행한 것을 알 수 있다.

 

※ CheXpert 데이터셋 다운로드 방법 ※

 

  아래 사이트에 접속하여 아래쪽을 확인해 보자.

 

  https://stanfordmlgroup.github.io/competitions/chexpert/

 

CheXpert: A Large Dataset of Chest X-Rays and Competition for Automated Chest X-Ray Interpretation.

How well does the baseline model do on the test set? The model achieves the best AUC on Pleural Effusion (0.97), and the worst on Atelectasis (0.85). The AUC of all other observations are at least 0.9. On Cardiomegaly, Edema, and Pleural Effusion, the mode

stanfordmlgroup.github.io

 

  라이센스에 대한 설명이 있는데, 라이센스를 잘 읽고 아래와 같은 양식(form)을 채워 넣어서 [등록(Register)]을 진행할 수 있다. 결과적으로 등록을 진행하고 나면 다운로드 링크가 나온다.

 

 

  다운로드 링크를 확인한 뒤에는 곧바로 링크를 눌러 다운로드할 수 있지만, 리눅스(Linux) 환경에서는 wget을 이용하여 다운로드를 진행하는 것을 추천한다.

 

sudo wget -O CheXpert-v1.0-small.zip "CheXpert small 버전 다운로드 링크"
sudo wget -O CheXpert-v1.0.zip "CheXpert original 버전 다운로드 링크"

 

  다운로드 이후에는 다음과 같이 압축을 풀어줄 수 있다.

 

sudo unzip CheXpert-v1.0-small.zip
sudo unzip CheXpert-v1.0.zip

 

  참고로 original 데이터셋의 경우 크기가 500GB에 가까우므로, wget으로 다운로드받는 동안 세션을 계속 유지하기 어려울 수 있다. 따라서 리눅스 환경에서는 screen을 사용하는 것이 좋다. 예를 들어 다음과 같이 CheXpert_download라는 이름으로 세션(session)을 생성할 수 있다.

 

screen -S CheXpert_download

 

  이후에 다음과 같이 입력하여 다운로드를 진행한다.

 

sudo wget -O CheXpert-v1.0.zip "CheXpert original 버전 다운로드 링크"

 

  screen에서 세션을 유지한 채로 나가려면 ctrl + a를 입력한 뒤에, d를 누른다. 그러면 (detached)라는 메시지가 출력되고, 스크린 밖으로 빠져나올 수 있다. 현재 존재하는 screen 목록을 볼 때는 screen -list를 누르면 된다. 다시 해당 세션으로 접속할 때는 screen 명령어의 r 옵션을 사용하면 된다.

728x90
반응형

Comment +0