[KT AIVLE(에이블 스쿨) 2기] 6주차 후기_미니 프로젝트 2차: 안선생님..!

juyeon·2022년 8월 29일
0

이주의 소감

기죽지 말자

  • 사실 1차 미니프로젝트때도 느꼈지만, kt로의 입사, 우수 수료생의 가능성은 희박하다. 약 180명중에서 10%를 뽑는데, 이미 잘하는 사람들로 18명이 넘치기 때문이다.
  • 그렇지만, kt만 기업인가? 내가 kt에만 몰빵하려고 에이블을 들은 것은 아니기 때문에, 기죽지 말자고 결심했다.
  • 조금 (아니 많이) 부족하지만, 그래도 하나씩 성장 중이다.
  • 이제 다음주에는 배우는 내용도 편안하고, 추석도 있으니까 여유로운 주다. 쉬어간다는 마음으로 임하자.

무엇을 배웠나

머신러닝, 5일간의 여정 끝

  • 머신러닝 5일차, 그리고 마지막날. 시계열의 폭풍과 함께 머신러닝은 끝이 났다. 그런데.. 강사님도 너무 진도 나가기 바쁘셨고(물론 그 와중에도 친절하게 설명해주시고 또 설명해주시고 그랬다) 진도를 위해 파일을 더 간편화하면서까지 노력을 하셨지만, 그래도 너무나도 빡빡한 일정이었다. 머신러닝은 5일이 아니라 10일이었으면 딱 적당하지 않았을까..
  • 그런데, 그만큼 너무나도 알찬 5일이었다. 핸즈온 머신러닝을 보면서 잘 이해가 되지 않던 부분도 강사님 설명 한방에 이해가 되기도 하고, 강사님 설명을 듣고 나니까 구글링하면서 알게된 내용들이 눈에 쏙쏙 들어오기도 하였다. 진짜 진짜 너무나도 소중한 시간이었다.

미니 프로젝트 2차

악성사이트 탐지

html..공부하자

  • 첫날, 오전. beautifulsoup으로 html 요소를 추출하는 연습을 하였다.
  • 물론~ 망함~ 진짜 하나도 모르겠는거다.. beautifulsoup 문법도 모르겠고..
  • 근데, 사실 내 실력 부족 때문이다. 모르면 구글링 하면 되는거고, 사실 강사님 표준답안을 알고 나니까 그렇게 쉬울 수가 없는거다.. 내가 고생한건 뭐였지?

첫 kaggle

  • 다행히 오후에는 강사님이 미리 추출하신 html 요소들을 가지고 악성사이트 탐지 모델을 만들었다. 문제는.. 이걸 kaggle에 제출했다는 거지.
  • 첫 캐글이라, 너무 낯설었다. 그동안 train / validation 셋만 연습하다가 test 셋을 추가하니까, 되게 어색하고 뭘 해야할지 방황했다.
  • 그리고, 처참한 점수.. 최종 등수는 110등인가? 했던거 같다.
  • 왜 0.9를 넘지 못했나 곰곰히 생각해보니, 글쎄 전처리에서 하기로 한 것을 깜빡한 것이다. 분명 이 변수들은 빼야지 했던걸 안하고.. 했다고 착각한 거다. 진짜 미칠뻔 했다.. ppt 만들고 나서야 깨달았으니, 얼마나 내가 정신이 없었는지.

안선생님, 감사합니다..

  • 그리고 역시나 이어진 발표에서 상위권 8명 중에서 독보적으로 안선생님의 발표가 미친 퀄리티를 보여주었다. 다른 에이블러들도 마찬가지였는지, ppt를 공유해달라는 요청에 결국 학습질문방에 ppt를 올려주시기에 이르렀다.
  • 이 ppt의 내용과 다른 상위권 발표자분들의 내용을 토대로 다시 모델링한 결과, 0.93이라는 성능을 얻을 수 있었다. 물론 이렇게 해도 상위 8등에 들 수 없는 점수이고, 아마 내가 아직 이해하지 못한 부분에서 나머지 성능의 차이가 발생하는 것 같다.
  • 그래도 이게 어디..? 알고나니까 너무나도 쉬워보여서, 이 쉬운걸 내가 못해냈다는 것에 약간의 충격을 받았다.
  • 다시 돌아와서, 안선생님의 ppt에서 여전히 config to select 부분은 이해가 가질 않는다. 코드를 봐야 알것 같은데.. 아마 코드를 공유해주시진 않을 듯 하다.

미세먼지 예측

  • 그리고 3, 4일차에 이루어진 미세먼지 예측 모델 만들기. 개별로 전처리 후 조별로 모델링 및 ppt 제작, 그리고 조별 발표의 순서로 이루어졌다.
  • 전처리할 때.. 진짜 우리 에이블 오픈카톡방 없었으면 어쩔뻔 했나? datetime으로 변환하는데 너무 고생했다ㅠ
  • 처음 모델링 할때 무얼 잘못했는지 여전히 모르겠지만, 성능이 0.99가 나와서 미쳐버리는줄 알았다.. 데이터 누수가 확실한데, 원인을 모르겠으니.. 그나마 의심되는건 결측치 보간 부분이라서, 결측치 보간 순서를 바꾸었더니 성능이 내려가서 안심이 되었다. 성능이 내려가야 안심이라니! 이 무슨 웃긴 일인가.
  • 그리고 knn imputer로 했는데, 조별모임을 하면서 interpolate로 하는게 나을 듯 해서 다시 바꾸었다.
  • 역시나 미니 프로젝트 모델링은 교육 시간 안에 끝나질 않는다. 새벽 1시 반까지 모델링을 하고 나서야 잠에 들 수 있었다. 다음날 아침에 간략하게 피피티를 만드니까 그제서야 안심이 되더라.

이번에도, 조장. 이번에는, 발표.

  • 벌써 두번째 조장이다. 그리고 첫 발표였다!
  • 우리 조의 모델은 두가지, 나와 다른 한 분이었다. 내껀 pm10을 포함한 평범한 모델이고, 다른분거는 pm10을 뺐는데도 엄청난 성능을 보여준 모델이었다.
  • 뭐 사실.. 안선생님보다 앞서서 발표를 했다는 것에 의의를 둔다. 내가 첫번째로 발표하고 나서 그 뒤에 사람들은 너무나도 발표를 잘 했기 때문에.. 어휴.
  • 여튼! 첫 발표, 그리고 적극적인 조원분들, 나름 성공적인 2차 미니 프로젝트 였다. ㅎㅎ

그외

이벤트

1차 코딩마스터스 종료

  • 총 100문제중 78문제 성공, 공동 17등으로 1차 코딩마스터스를 마무리 하였다.
  • 기초는 다 풀었고, 초급은 2문제 못 풀었고, 중급은..어렵기도 했지만, 풀 시간이 부족했다.
  • 역시 알고리즘 기초를 먼저 탄탄히 쌓아야겠다!

추석 교통 소요시간 예측 이벤트

  • 이건 이벤트가 아니다. 완전 미니 프로젝트이다.
  • 진짜 데이터 수집부터 자유, 분석도 자유,... 이것이야말로 미니 프로젝트에 적합한거 같은데..? 라는 생각이 자꾸만 든다.
  • 그래도 이벤트니까 참여가 자유롭겠지만, 왜인지 꼭 참여해야할 것만 같은 기분이 든다.
  • 밑져야 본전이라고, 되면 좋고 안되면 말고라는 마음으로 참여해야겠다.

스터디

  • 이번주 스터디는 우리반 스터디 빼고 전부 캔슬이었다. 다들 프로젝트로 정신이 없었다!

Resume Clinic

  • 우리반 한부이 이력서 특강을 공유해주셔서 같이 들었다. 감사합니다..!

datarian SQL 분석 캠프..?

  • 고민된다. 데이터 분석가냐, 데이터 과학자냐.
  • 분석가라면 SQL이 조금 더 절대적일텐데, 아무래도 에이블에서는 조금 밖에 안 배우다보니 따로 공부할 수 밖에 없다.
  • 데이터 사이언스..그니까 머신러닝은 (딥러닝은 아직 안 배웠으니) 재밌긴 한데, 장벽이 고민이 된다.
  • 데이터 분석가는.. 성장의 한계를 느끼진 않을지, 업무의 반복성에 지치진 않을지 걱정이 된다. 여튼 분석가를 한다면 sql을 해야하는데, 데이터리안이 좋아보이긴 하다. 지금 데이터캠프를 듣고있긴 하다만...
  • 문제는 돈과 시간이지. 일주일 10시간 투자와 한달 40만원의 금액은 부담이긴 하다. 그래서 이번달에 추석이 있으니 이번달에 들어야하나 또 고민이 추가되고..고민에 고민!
profile
내 인생의 주연

0개의 댓글