read.table(file="URL")
이렇게 하면 데이터프레임 데이터가 들어 있는 파일을 가져올 수 있다. 다른 방법도 있는데
read.table(file.choose(),header=TRUE)
를 하면 파일을 선택해서 가져올 수 있다. 그리고 header
를 사용하여 첫행을 헤더로 사용할지 정할 수 있다.
헤더를 사용하면 첫 줄은 필드명으로 사용하는 것이다. TRUE
대신 그냥 T
라고 써도 된다.
그리고 또한 table
로 읽어 오는 것이기 때문에 파일은 text 파일로 가져와야 읽을 수 있다.
read.csv(file.choose(),header=TRUE)
csv파일을 읽으려면 table대신 csv를 하면 된다.
아마도 데이터들을 가져오면 대부분 데이터의 양이 매우 많을 것이다. 그렇기 때문에 데이터를 전부 확인하기 보다는 일부만 가져와서 확인하는 방법을 자주 사용하는데 그중에서 앞에 6줄의 데이터만 보여주는 head
와 tail
를 자주 사용한다.
mydata = read.table(file.choose(),header=TRUE)
head(mydata)
mydata = read.csv(file.choose(),header=TRUE)
str(mydata)
'data.frame': 115 obs. of 6 variables:.....
str
를 사용하면 데이터의 전체적인 구조를 볼 수 있다. 위의 예제의 경우 115개의 데이터가 있고 6개의 열을 가지고 있는 것을 알 수 있다. 그리고 각 필드가 어떤 데이터로 되어 있는지 알 수 있다.
우리가 기존에 배웠던 간단한 함수를 활용해보자
mydata = read.csv(file.choose(),header=TRUE)
max(mydata$age) # [1] 65
min(mydata$age) # [1] 15
이렇게 최대값이나 최솟값을 구할 수 있다.