1. 개발기록
총 데이터가 160기가를 넘어서 일부 샘플링을 해서 진행하는 것이 어떻냐고 팀원들끼리 이야기가 나와서 샘플링을 진행하기로 했다.
할일이 많이 쌓이니까 조급한 마음에 수작업으로(ㅋㅋㅋ) 진행했었다.. 그러다가 아침에 결과 그래프 코드 작성을 완료하고 데이터가 다른부분부터 차근차근 확인해서 100% 매칭시켰다.
- 디렉토리 이름을 os.rename과 str의 lower를 사용해서 소문자화 해준다.
- 그런다음 png 파일과 json 파일이 매칭되는 지 확인하는 코드로 확인해보고 수정한다.
- split하기 전에 전체 데이터 갯수가 몇개인지 확인하고 전체 데이터의 20%를 샘플링했다.
- random.sample을 사용해서 샘플링했고,
전체 파일에서 샘플링 데이터를 제외한 나머지는 os.remove로 삭제했다.
2. 개발소감
사용했던 잔잔바리(?) 코드들을 모듈화해서 데이터 정제작업에 유용하게 사용할 수 있을 것 같다.