오늘은 spark 강의와 클러스터링 강의를 들었다.

spark 강의는 1, 2, 3주차가 있는데 사실 어려움이 많이 있기도 하고 속도가 잘 나지 않고 있다

현재는 2주차 강의를 듣고 있는데 용량이 큰 데이터들을 정제하는 과정에서 데이터 크기를 줄이는 여러가지 스킬들을 배우고 있는 느낌이다.

숫자형 데이터의 크기를 확인하고 데이터 크기에 맞는 타입으로 형변환을 시켜주는 것이 가장 많이 와닿았고, 중간중간 코드를 정리하고 될 수 있으면 쭉 나열하는 코드보단 반복문이나 함수를 응용해서 코드를 작성하는 것이 작업효율을 엄청나게 높힐 수 있겠다 싶었다.

사실 강의 내용이 100% 이해가 되는 것은 아니였고, 70%..? 정도로 이해가 되며, 흐름 정도는 따라갈 수 있는 정도이다.

내 맥북이 램이 16GB인데 속도 면에선 튜터님의 환경보단 확실히 느린 것 같았다.

그리고 수준별 학습으로 스탠다드 반에 클러스터링을 신청하여 첫 강의를 한시간 정도 들었다.
ADsP를 취득할 당시에 유클리디안 거리와 맨하튼 거리를 계산하는게 별거 없어서 후다닥 외우고 넘어갔던 기억이 있는데,
직전 프로젝트에서 RFM분석기법과 클러스터링을 함께 적용했던 경험이 있는데 실제로 클러스터링 작업을 어떻게 진행해야할 지 모르고 있었다.
오늘 강의에서도 튜터님께서 클러스터링 자체는 라이브러리로 사용하니 별거 없긴 하지만 그 의미를 해석하는 데이터 리터러시가 더 중요하다고 했다.
지도학습과 다르게 비지도 학습인 클러스터링은 모델링 후의 그 수치만으로는 정확한 무언가를 얻어내기는 힘들다고 생각한다.
클러스터링 이후의 분석가가 그 특징들을 찾아나가는 과정이 꽤나 흥미롭다고 느꼈기 때문에 추후에 데이터 분석가로서 업무를 하게 된다면 가장 사용하기 좋은 스킬이라고 판단했던 것도 있었다.

spark강의나 클러스터링이나 강의를 들으면서 내가 현재 파이썬이 다른 부분보다는 좀 약하다는 느낌을 계속 받고 있다.
데이터 전처리는 진행하면서 그래도 파이썬이 조금은 익숙해진만큼 잘 찾아가면서 진행하는데 그 함수라던가 반복문의 그 뭐랄까... 흐름이나 패턴들이 자꾸 머릿 속에서 정리가 잘 되지 않거나 내가 진행하는 중에 어디쯤에 와서 무엇을 하고 있는지가 불분명해질 때가 있는 것 같다. 그러니 더욱 하고자 하는 일이 명확할 필요가 있다고 느끼게 되었다.
내일은 spark강의 2주차를 마무리하고 3주차 절반정도는 마무리하려고 한다. 클러스터링 강의도 또 있으니 집중력 잃지 말아야겠다!(잘하고 싶다..!)

profile
Data analyst를 향해 도전하는 이야기

0개의 댓글