이야 오늘 학습은 너무 어려웠습니다. 통계학이였거든요.
스코 내배캠에 통계학을 전공하신 튜터님께서 강의영상을 만들어주셨는데 ADsP를 시험으로만 통과한 저에게 더욱 긴장감을 불어넣는 강의가 아니였나 싶었습니다.
분명 공부했는데... 머리에 남아있는게 한 10%...? 되는 느낌이었습니다.
확률변수, 평균, 표준편차, t-test 등등.. 시험을 통해 처음접한 용어들이 그 당시에도 어려웠는데 다시 등장하니 역시 멀리하게 되는게 사람이 맞는 것 같습니다.
통계 공부는 지속적으로 하고 자꾸 친해져야 객관적이고 논리적인 분석 방향을 잡을 수 있다고 생각은 하고 있습니다...But,
아직 통계를 제대로 이해하기 어려워서 정리조차도 복사붙여넣기가 될 것 같습니다..하하ㅎ
일단 파이썬과 R을 병행해야 통계적 자료를 뽑아내는 것이 편안하다. 이건 확실히 알았습니다. 추후에 R도 학습을 해보아야할 것 같아요. 물론 통계 수치뽑아내고 검수하는 과정의 용도로만 사용될 것 같습니다.
몇가지 경우의 수 중에 콕! 집어서 어떠한 경우가 일어난 경우의 수인건데, 이건 데이터를 다루면서 객관성을 갖추도록 해줍니다.
-> 확실하게 알지 못해 또다른 나의 선생님 Chat GPT선생에게 물어보았다..
"확률 변수"는 통계학과 확률론에서 사용되는 중요한 개념 중 하나입니다. 확률 변수는 특정 확률 분포에 따라 값을 가질 수 있는 변수를 의미합니다. 이는 어떤 실험이나 현상에서 발생하는 여러 결과 중 하나를 나타내는 변수로 생각할 수 있습니다.
확률 변수는 크게 두 가지로 나뉩니다.
이산 확률 변수 (Discrete Random Variable): 이산 확률 변수는 셀 수 있는 개수의 값을 가집니다. 주사위 던지기나 동전 던지기와 같은 경우가 이에 해당합니다. 각 결과의 확률은 특정한 값으로 할당됩니다.
연속 확률 변수 (Continuous Random Variable): 연속 확률 변수는 연속적인 값을 가집니다. 예를 들어, 시간, 길이, 무게와 같은 변수가 연속 확률 변수의 예시입니다. 이 경우 특정 값에 대한 확률이 아닌 확률 밀도 함수를 통해 확률을 나타냅니다.
-> 확률 변수는 다양한 통계적 분석과 모델링에서 사용되며, 확률 분포를 이용하여 해당 변수의 특성을 설명하고 예측하는 데에 활용됩니다.
*평균은 모든 수를 합해서 합한 수들의 count로 나눈 값을 보통은 말한다.
평균도 통계학에선 엄청 다양한 평균들이 있다는 것을 이제는 알았다.(원래는 당연히 몰랐음)
숫자로 표현되는 데이터들은 모두 평균을 구할 수 있다.
첫 줄에 말한 것인 산술평균이 되는 것인데 이 외에도 중앙값, 최빈값이 있다.
이렇게 3가지는 3M이라고 한다는데 그 이유는...
3M
- 산술평균 : Arithmetic *Mean
중앙값 : *Median
최빈값 : *Mode*중앙값은 말그대로 모든 수들을 정렬해논 뒤에 가운데 있는 값을 말하는 겁니다.
당연히 홀수만 1개가 나오고 짝수는 2개가 튀어나오겠죠..?*최빈값은 말그대로 최, 빈, 값
최대로 많이 등장하는, 빈도의, 값이라는거다.
왜도, 이 단어도 ADsP를 준비하면서 왜도가 뭘까? 하고 단어검색을 해보았다가 왜곡도라고 이해하면 좋겠구나! 싶어서 그렇게 외웠었다.
정말 그래프 상에서 데칼코마니의 모양이 아닌 왜곡된 그래프 모양을 띄게 된다면 해당 그래프의 평균이 대상이 된 데이터들을 대표하고 있지 못한다고 생각해야 한다.
# 왜도 예시이미지
이상치,
말 그대로라 너무 쉽지 않은가. 이상, 치
이상한, 관측치...ㅋ
박스플랏으로 주로 관측하는데 표준범위내에 있지 않은 이상한 넘들이 발견될 때 사용하는 말이다. 이상치를 걸러내야할 수도, 혹은 이상치가 필요한 경우도 있기 때문에 분석가의 브레인이 좋아야 잘 활용할 수 있는 녀석인 것 같습니다.