'mtcars'에 해당되는 글 2건

  1. 2015.10.01 R의 apply, tapply의 활용법을 알아보자~
  2. 2015.08.06 R 데이터셋 처리 함수들에 대한 간단한 정리~

R의 apply, tapply의 활용법을 알아보자~

|



지난번엔 R의 lapply, sapply, vapply를 살펴봤다. 

이어서 다른 종류의 apply를 알아보도록 하자. 


apply

lapply와 sapply는 모두 리스트를 입력으로 받아서 각 리스트에 함수를 적용한다고 했다. 

만약 리스트가 아닌 행렬(matrix)을 입력으로 넣으면 어떻게 될까? 


rnorm()으로 평균 0, 표준편차가 1인 정규분포를 갖는 20x10 행렬을 만들었다. 

그리고 lapply로 평균을 구해보니, 결과가 무려 200개의 리스트가 나온다. 

즉, 행렬의 각각의 요소를 리스트의 개별 요소로 보고 처리한 것이다. 


보통 행렬에서는 각각의 행이나 열에 대해 함수를 적용하는 것이 필요하다. 

이런 경우에 apply를 사용하면 된다. 


apply 함수의 두번째 인자로 1을 넣으면 행(row)에 대한 함수를 적용하고, 

2를 넣으면 열(column)에 대해 함수를 적용하게 된다. 

위 예제에서 apply(x, 2, mean)은 열에 대한 평균값을 구했고, apply(x, 1, sum)은 행에 대한 합계를 구한 것이다. 


즉, 행렬에 대해 반복적으로 함수를 적용해야 할 경우에는 apply를 사용하면 된다. 

보통 이렇게 행이나 열에 대해 평균이나 합계를 구하는 경우가 많기 때문에, R에서는 이것을 별도의 함수로 제공한다. 


바로 rowMeans, colMeans, rowSums, colSums 이다. 

위 예제를 보면 결과가 동일한 것을 알 수 있다. 

참고로 속도 측면에서도 apply보다 더 빠르다고 한다. 


tapply

처음에는 tapply가 테이블 즉, 행렬에 적용되는 것인 줄 알았다. 

tapply는 리스트나 행렬, 데이터셋의 특정 요소(factor)를 기준으로 함수를 수행하는 역할을 한다. 

먼저 다음과 같이 변수들을 만들어 보자. 


rnorm은 정규분포를 만는 것으로 rnorm(10)은 평균 0, 표준편차가 1이고, rnorm(10, 1)은 평균  1, 표준편차가 1인 수를 10개씩 만드는 것이다. 

runif(10)는 균등분포를 만드는 함수로서 최소값 0과 최대값 1 사이의 10개의 수를 만든다. 

그리고 gl(3, 10)은 Factor Level을 생성하는데, 여기에서는 1, 2, 3 세 개의 Factor에 각각 10개씩 만들었다. 


이제 tapply를 적용해 보자. 


세 개의 Factor Level에 대해 각각의 평균을 구하도록 tapply를 사용했다. 

simplify는 기본값으로 true로 되어 있으며, 이 경우 sapply와 동일하게 벡터로 결과값을 리턴한다. 

두 번째 예제처럼 simplify를 false로 지정하면 lapply와 동일하게 동작한다. 


평균값을 구하는 mean이외에도 범위를 구하는 range 등을 활용할 수 있다. 

이럴 경우에는 값이 벡터 형태로 리턴할 수 없으므로 simplify는 무시하게 된다. 


실제로 tapply는 데이터셋에 대해 주로 사용한다. 

먼저 데이터셋 처리 함수에서 살펴본 mtcars를 가지고 살펴보자.


실린더 수(cyl)에 따른 각 행의 개수는 table(mtcars$cyl)로 바로 가져올 수 있었다. 

하지만, 만약에 실린더 수에 따른 mpg 값의 평균을 구해야 한다면 어떻게 할까? 

아마도 실린더 수에 따라 데이터 셋을 나누고, 각각 분할된 데이터에 대해 평균을 구하려고 할 것이다. 

이런 경우에 tapply를 사용하면 된다. 


tapply를 알면 정말 쉽게 데이터셋을 다룰 수 있다. 

반드시 그 활용을 이해해 두기 바란다. 

참고로 위 예제는 다음과 같이 표현할 수도 있다. 


다른 데이터셋으로도 한번 살펴보자. 

iris라는 붓꽃의 데이터셋도 mtcars처럼 R에 포함되어 있다. 


iris 데이터셋은 품종(setosa, versicolor, virginica)에 대해 각각 꽃받침과 꽃잎의 길이와 너비를 저장한 데이터이다. 

만약 품종이 setosa인 꽃받침 길이의 평균을 구할 경우 어떻게 해야 할까?

아니면 품종이 setosa인 꽃받침과 꽃잎의 길이와 너비의 평균을 구할 경우에는 어떻게 할까?


첫번째의 경우는 데이터셋의 일부를 가져와서 평균을 구하면 된다. 

두번째 경우에는 앞서 배운 apply나 colMeans를 사용해서 처리할 수 있다. 


마지막으로 품종별 꽃받침 길이의 평균을 구해야 한다면, Factor Level을 사용하는 tapply로 간단하게 해결할 수 있다. 

미니의 R 주요 강좌...

데이터 통계 분석을 위한 R 설치와 활용

R 실행을 위한 기본적인 내용들~

R 데이터 구조에 대한 정리

R 패키지 설치하기

R 데이터셋 처리 함수들에 대한 간단한 정리~

R 데이터셋 정렬하기~

R 데이터셋의 일부 데이터 가져오기

R의 lapply, sapply, vapply를 이해하자~

R의 apply, tapply의 활용법을 알아보자~

R의 split 활용

R의 함수 작성 및 활용~

R 시뮬레이션 - 랜덤 변수 샘플링

R 함수에서 캐시 활용하기~

R 디버깅 툴 활용하기~


신고



Trackback 0 And Comment 0

R 데이터셋 처리 함수들에 대한 간단한 정리~

|



R을 활용하면 다양한 데이터셋을 data.frame으로 읽어서 많은 작업을 할 수 있다. 

어떤 작업들이 가능한지 R에서 데이터셋을 처리하는 함수를 중심으로 살펴보기로 하자. 


Motor Trend Car Load Test

예제로 사용할 데이터셋은 R에 내장되어 있는 mtcars이다. 

이 데이터는 1974년 Motor Trend US magazine에서 추출한 것으로 1973년, 1974년 모델의 32개 자동차들의 디자인과 성능을 비교한 것이다. 

help 명령어로 데이터 포맷 등을 먼저 살펴보기 바란다. 

> help(mtcars)


데이터셋의 정보 확인 

먼저 mtcars 데이터를 가져와 보자. 

데이터셋을 가져오기 위해서 간략하게 data() 함수를 호출하면 된다. 

> data(mtcars)


32개의 자동차의 성능비교 데이터를 제대로 불러왔는지 다음과 같이 확인한다. 

> mtcars


head()

경우에 따라서는 대량의 데이터셋을 읽어오는 경우가 있다. 

이때는 다음과 같이 head 함수를 사용해서 앞부분의 일부만 읽어올 수 있다.  


str()

str은 자바에서 주로 사용하는 String 관련 함수가 아니라 R 객체의 구조(Structure)를 보여주는 함수이다. 

mtcars는 data.frame이고 11개의 변수에 32개의 데이터가 있다는 것을 보여주고, 

각각의 변수들의 타입과 일부 데이터를 다음과 같이 출력한다. 


summary()

summary는 데이터에 대한 요약 정보를 나타내는데, 

숫자인 경우 최소값, 최대값, 산술평균, 중앙값, 하한 사분위수, 상한 사분위수를 다음과 같이 보여준다. 


중앙값에 대해서는 "평균에 대한 정리(mean, median, mode)"를 참고하고, 사분위수에 대해서는 "변이와 분포" 글을 참고하기 바란다. 


데이터셋의 특정 열 기준으로 작업하기 

데이터셋에서 특정 열을 가져오기 위해서는 $를 사용한다. 

mtcars 데이터에서 첫번째 열인 mpg(mile per gallon)를 가져오려면 다음과 같이 사용한다. 

> mtcars$mpg


 참고로 mpg는 1 갤론당 몇 마일을 갈 수 있는지를 나타내는 지표인데, US Gallon으로 표시되어 있으므로 약 3.8리터당 몇 마일을 가는지를 나타낸다. 

(1 갤론의 경우, 미국에서는 3.8리터에 해당하고, 영국, 캐나다 등 다른 나라에서는 4.5리터에 해당한다고 한다.)



stem()

stem은 "stem-and-Leaf Plots"라고 이야기하는데, 글자 그대로 줄기와 잎으로 재구성하는 방식이라고 할 수 있다. 

실제 분석할 때 유용하게 활용할 수 있는 함수인데 실제 예제를 통해서 이해해 보도록 하자. 


먼저 출력 데이터를 보면 | 가 있는데, 설명에 따르면 소수점(decimal point)을 기준으로 나눈 것을 알 수 있다. 

stem을 해석하려면 | 왼쪽의 데이터를 줄기로 보고, | 오른쪽 데이터를 잎으로 보면 된다. 

그래서 데이터 구성이 10.4, 10,4, 12.3, 14.3, 14.7, 14.0 .... 이런 형태로 되어 있다는 것이다. 


실제 동일한지 확인하기 위해서 mpg 열기준으로 정렬한 데이터를 보자. (정렬은 다음에 다룰 예정이다.)


10.4, 10.4는 일치하지만 13.3이 12.3으로 잘못 표시되어 있다. 15.0도 마찬가지로 14.0으로 해석된다. 

| 왼쪽의 stem 값을 보면 홀수값이 없이 짝수만 나와 있는 것을 알 수 있다. 

그래서 13은 12로 간주하고, 15는 14로 간주해서 보여주고 있다. 


hist()와 boxplot()

도수분포표를 그래프로 나타내는 히스토그램에 대해서 학창시절에 배운 기억이 있을 것이다. 

이 히스토그램을 그리는 함수가 hist이다. 


> hist(mtcars$mpg)


그리고 변이와 분포에서 설명한 "box and whisker diagram"을 boxplot으로 그릴 수 있다. 

> boxplot(mtcars$mpg)


fivenum()과 quantile()

fivenum은 5개의 숫자를 구하는데 사용한다. 최소값, 하한 사분위수, 중앙값, 상한 사분위수, 그리고 최대값을 나타내느데 사용한다. 

보통 Tukey Five-Number Summary라고 한다. 


qunatile도 유사하게 0%, 25%, 50%, 75%, 100%의 값을 나타낸다 


그러나 위 결과를 잘 살펴보면 25%에서 fivenum과 quantile의 값이 다른 것을 알 수 있다. 

fivenum은 우리가 알고 있는 사분위수를 구한 값이고, quantile은 확률적으로 균등하게 자른 개념이기 때문에 이런 차이가 발생할 수 있다. 


"본 글은 카톨릭의대 문건웅 교수님의 R 예제를 기반으로 작성했습니다."


미니의 R 주요 강좌...

데이터 통계 분석을 위한 R 설치와 활용

R 실행을 위한 기본적인 내용들~

R 데이터 구조에 대한 정리

R 패키지 설치하기

R 데이터셋 처리 함수들에 대한 간단한 정리~

R 데이터셋 정렬하기~

R 데이터셋의 일부 데이터 가져오기

R의 lapply, sapply, vapply를 이해하자~

R의 apply, tapply의 활용법을 알아보자~

R의 split 활용

R의 함수 작성 및 활용~

R 시뮬레이션 - 랜덤 변수 샘플링

R 함수에서 캐시 활용하기~

R 디버깅 툴 활용하기~


신고



Trackback 0 And Comment 0
prev | 1 | next