정선미 강사님(No Code, Domain Driven Development 수업강의)
09:30-12:30 오전수업
상관분석과 인과관계는 다름을 잘 인지할 것.
상관관계가 있다고 하면 인과관계가 있다고 의심해 볼 수는 있지만 모두가 그런 것은 아니기에 조심.
* 참고할만 한 사이트
허위상관
https://tylervigen.com/spurious-correlations
-> 상관관계가 0.96이므로 연관성이 매우 높다고 할 수 있음.
차트를 통해서 연관성 유무를 알 수 있음.
* 실습할 만한 데이터를 구할 수 있는 곳
국가통계포털사이트 https://kosis.kr/index/index.do
시간적 선후관계, 공변성, 비허위성
회귀분석에서 Y변수(종속변수 또는 결과변수)와 X변수(독립변수 또는 원인변수)가 있을 때
결정계수를 R2 알 스퀘어 값이라고 쓰기도 한다.
1인당 GDP가 행복 점수에만 영향을 주어야 한다.(조건이 있어야함?)
유의한 F 값이 지수형태로 나와있을 때는 셀서식에 들어가서 숫자로 변환(소수점 20자리 정도)
0.000으로 나오지만 0은 아닌 숫자임.
유의한 F값과 P값을 숫자로 바꿔 본 후에야 회귀분석의 유의성을 검증했다고 할 수 있음.
잔차란 그래프에서 추세선으로부터의 각 데이터와의 거리 차이임. 모든 데이터와 추세선과의 잔차를 모두 더하면 0에 가까운 수가 나옴.
오차: 모집단에서 얻은 회귀식을 통해 얻은 예측값과 관측값의 차이
잔차: 표본집단에서 얻은 회귀식을 통해 얻은 예측값과 관측값의 차이
잔차=관측값-예측값
0에 수렴할 수록 회귀분석이 잘 이루어진 것을 얘기함.
차원의 저주
13:30-16:30 오후 수업
네이버데이터랩을 활용하여 인공지능 관련 키워드들의 연관성 그래프 추출
엑셀에 상관분석 차트 및 그래프 생성. 소셜분석 슬라이드 제작 후 간단한 발표.