BoostCamp Pstage day1 EDA

Dae Hee Lee·2021년 8월 23일
0

BoostCamp Pstage

목록 보기
2/9

Overview

COVID-19의 확산으로 우리나라는 물론 전 세계 사람들은 경제적, 생산적인 활동에 많은 제약을 가지게 되었습니다. 우리나라는 COVID-19 확산 방지를 위해 사회적 거리 두기를 단계적으로 시행하는 등의 많은 노력을 하고 있습니다. 과거 높은 사망률을 가진 사스(SARS)나 에볼라(Ebola)와는 달리 COVID-19의 치사율은 오히려 비교적 낮은 편에 속합니다. 그럼에도 불구하고, 이렇게 오랜 기간 동안 우리를 괴롭히고 있는 근본적인 이유는 바로 COVID-19의 강력한 전염력 때문입니다.

감염자의 입, 호흡기로부터 나오는 비말, 침 등으로 인해 다른 사람에게 쉽게 전파가 될 수 있기 때문에 감염 확산 방지를 위해 무엇보다 중요한 것은 모든 사람이 마스크로 코와 입을 가려서 혹시 모를 감염자로부터의 전파 경로를 원천 차단하는 것입니다. 이를 위해 공공 장소에 있는 사람들은 반드시 마스크를 착용해야 할 필요가 있으며, 무엇 보다도 코와 입을 완전히 가릴 수 있도록 올바르게 착용하는 것이 중요합니다. 하지만 넓은 공공장소에서 모든 사람들의 올바른 마스크 착용 상태를 검사하기 위해서는 추가적인 인적자원이 필요할 것입니다.

따라서, 우리는 카메라로 비춰진 사람 얼굴 이미지 만으로 이 사람이 마스크를 쓰고 있는지, 쓰지 않았는지, 정확히 쓴 것이 맞는지 자동으로 가려낼 수 있는 시스템이 필요합니다. 이 시스템이 공공장소 입구에 갖춰져 있다면 적은 인적자원으로도 충분히 검사가 가능할 것입니다.

평가 방법

제출한 Submission 파일에 대한 F1 Score로 평가

EDA


전체 데이터 사람 수 : 4500명

  • 학습데이터
    사람 2700명, 한 사람당 사진 7장
    (마스크 착용 5장, 이상하게 착용 1장, 마스크 미착용 1장)

  • 검증데이터
    사람 1800명 * 7 12600개 데이터

base code 실행 결과

age class 만들기

30세 미만, 30~60세, 60세 이상 세 그룹으로 나누었다.

def age_cls(age):
    if age<30:
        return 'young'
    elif age<60:
        return 'middle'
    else:
        return 'old'
        
train_info['agecls'] = train_info['age'].apply(lambda x : age_cls(x))

60세 이상의 비율이 현저히 낮아 age class를 조정하는 것이 나을 수도 있다는 생각이 든다. 하지만 overview에서 살펴보았듯이 class를 유지해보겠다.


또한 상당히 2~30대, 50~60대에 밀집되어있는 것을 확인할 수 있다.

Image데이터 살펴보기

image 파일을 열기 위해서는 PIL의 Image객체가 필요하다.

profile
Today is the day

0개의 댓글