profile
"신은 주사위 놀이를 하지 않는다."
post-thumbnail

[R] 데이터 정제하기 (dplyr)

학습할 때 사용하는 데이터셋은 바로 사용할 수 있는 정제된 데이터셋을 이용하는 경우가 많지만 실전에서 얻는 데이터는 그렇지 않은 경우가 대부분이다. 일부 데이터는 값이 들어가있지 않고 ( 결측치 ), 설령 값이 들어가있다고 하더라도 올바른 값이 들어있지 않을 수가 있다. ( 이상치 ) 이런 데이터를 분석하기 위해서는 먼저 결측치와 이상치를 처리해야 한다. 🧩 결측치 정제하기 결측치란 누락된 값, 비어있는 값을 의미한다. R에서는 이 값이 NA로 표시된다. 아래는 나이에 따라 받은 점수를 담은 데이터셋이다. ![](https://media.vlpt.us/images/ice-prince/post/8f703f0c-59f0-4b27-be75-e204d163bc4b/%E1%84%89%E1%85%B3%E1%84%8F%E1%85%B3%E1%84%85%E1%85%B5%E1%86%AB%E1%84%89%E1%85%A3%E1%86%BA%202022-

2022년 4월 3일
·
0개의 댓글
·
post-thumbnail

[R] dplyr 패키지 활용하기 - 데이터 추가하기

🧩 파생변수 추가하기 🥕 mutate() dplyr 패키지의 mutate() 함수는 데이터 프레임 자료형에 새로운 파생 column을 만드는 함수이다. %>% (체인 연산자) 기호와 함께 데이터 전처리에서 많이 사용되는 함수이다. 위의 데이터 프레임(exam)은 학생들의 수학, 영어, 과학 성적을 담은 데이터프레임이다. 만약 추가로 총점, 평균을 구하고 **과학 점수가 60 미만인 학생

2022년 4월 3일
·
0개의 댓글
·