2021.6.19 제2회 빅데이터분석기사 실기 시험 합격 후기
빅데이터분석기사 실기 관련은 교재가 없다. 한국데이터진흥원에서 공개한 출제유형를 통해 문제유형을 파악하고 유튜브나 블로그에 올라와있는 해설을 통해 공부했다.
고난이도의 머신러닝, 딥러닝, 튜닝을 요구하지는 않는 것 같다. 하지만! 당연히 어느정도 공부가 되고 이해가 되어있어야 데이터를 전처리하고 모델을 설계하며 튜닝할 수 있다. 기본적으로 sklearn, pandas, numpy 관련 패키지 사용할 줄 알고, 머신러닝 과정을 알고있으면 수월하게 풀 수 있다.
나는 파이썬을 선택했다. 여러 블로그나 유튜브를 보면 제2유형의 경유 모델링을 하는데 있어 파이썬이 더 유리하다고하는 사람들이 많았고, 나 역시 파이썬을 더 자신있고 편하기에 파이썬을 선택했다. 시험환경에서 사용할 수 있는 라이브러리가 제한되어있으므로 홈페이지 들어가 확인해보고 가면 좋을 것 같다.
아주 쉬운 난이도로 출제되었다. 정말 기본 중에 기본적인 단어가 나와 수월하게 풀 수 있었다. ADsP에 나오는 단답형 중 쉬운 난이도 문제와 비슷하다고 보면 될 것 같다. (지극히 개인적인 생각이라는 점~!)
간단하게 문제 제시대로 데이터 전처리하면 된다. 다만 여기서 pandas를 사용하는데 기억이 애매하게 나는 문법이 있을 수 있으니 꼼꼼히 공부하면 좋을 것 같다. 만약 함수에 넣어야하는 인자값 등이 생각 안나면 help()의 도움을 받을 수 있다.
나는 pandas에서 데이터 필터링 걸 때, 조건 2개 이상의 필터링을 &&인지 &인지 and 로 연결하는지 너무 햇갈렸다..그래서? 오류걸려 못 풀었다..이런 실수는 하지 말자구~!
실기문제 중 가장 높고 무료 40점이나 차지하는 점수가 높은 마지막 문제이다.
코드 흐름은 아래와 같다.
csv 파일 열기 → 데이터 확인 및 전처리 → 데이터 분할
→ 모델링 및 평가 → csv 파일 답안 제출
라이브러리 import 하는 것도 다 순수 코딩해야 하니 헷갈리는 일이 없도록 꼭!꼭! 정확히 외워가야 한다. 모델링은 sklearn을 사용하면 되고 각 알고리즘 사용코드 및 파라미터 종류는 외워가야 한다. 왜냐하면 오픈북이 아니니까..
그리고 아직도 시험에서 이해가 안가는건 코드실행시간이 1분으로 제한되있다. SVC의 경우 다른 알고리즘에 비해 시간이 더 걸리고, 하이퍼파라미터 튜닝 시 더 많은 시간이 걸려 1분을 넘기게 된다. 특히 파이프라인으로 성능 측정할 경우 시간이 초과되어 실행이 중단되기 때문에 결과를 확인할 수도 없다.. 그래서 정교한 튜닝을 할 수 없으며 여러 전처리 작업과 병행하기 힘든 한계점이라는 거다.
결론은 기본적인 여러 모델링과 기본적인 튜닝 그리고 성능평가를 할 줄 알면 된다. 패키지 불러오고 관련 함수, 파라미터 등 잘 외워가야 한다.