학습할 때 사용하는 데이터셋은 바로 사용할 수 있는 정제된 데이터셋을 이용하는 경우가 많지만 실전에서 얻는 데이터는 그렇지 않은 경우가 대부분이다. 일부 데이터는 값이 들어가있지 않고 ( 결측치 ), 설령 값이 들어가있다고 하더라도 올바른 값이 들어있지 않을 수가 있다. ( 이상치 ) 이런 데이터를 분석하기 위해서는 먼저 결측치와 이상치를 처리해야 한다. 🧩 결측치 정제하기 결측치란 누락된 값, 비어있는 값을 의미한다. R에서는 이 값이 NA로 표시된다. 아래는 나이에 따라 받은 점수를 담은 데이터셋이다.  dplyr 패키지의 mutate() 함수는 데이터 프레임 자료형에 새로운 파생 column을 만드는 함수이다. %>% (체인 연산자) 기호와 함께 데이터 전처리에서 많이 사용되는 함수이다. 위의 데이터 프레임(exam)은 학생들의 수학, 영어, 과학 성적을 담은 데이터프레임이다. 만약 추가로 총점, 평균을 구하고 **과학 점수가 60 미만인 학생