R 예제: 데이터 세트에서 관계 확인하기

|



R을 사용하면서 특정 파일에서 데이터를 읽어 분류하고 관계를 확인해야 하는 경우가 많이 있다. 

이런 경우, 활용할 수 있는 간단한 예제를 살펴보도록 한다. (노만 매트로프의 빅데이터 분석 도구 R 프로그래밍 참조)


먼저 샘플로 사용할 아래 전복(abalone)의 데이터 파일을 다운로드 하자. 

Abalone.data


파일을 열어보면 다음과 같이 컴마(,)로 구분된 CSV 파일임을 알 수 있다. 


여기에서 성별(Gender)에 따라 전복의 직경(Diameter)과 길이(Length)가 변화가 있는지 살펴보려고 한다. 

전체 소스는 다음과 같다. 


read.csv 함수를 통해서 abalone.data 파일을 읽어들인다. 

옵션을 살펴보면 헤더를 인식하도록 True값으로 설정했다. 


grps라는 빈 리스트 변수를 만들고 여기에 수컷과 암컷으로 분류해서 데이터를 넣는다. 

그리고 나서 수컷은 abam 변수에, 암컷은 abaf 변수에 할당한다. 


그리고 plot 함수를 활용해서 직경과 길이의 관계를 그래프로 나타낸다. 

두번째 plot 함수는 pch 값을 x로 설정해서 그래프에 x로 표시하도록 하고 있다. (기본 값은 o 이다.)

이어서 new=FALSE로 선언함으로써 새로 그래프를 그리지 않고, 앞에 그린 그래프 위에 덮어 쓰도록 구성했다. 


결과를 보면 수컷이나 암컷에 따라 직경과 길이가 차이가 있지 않고 비슷하다는 것을 알 수 있다. 

추가로 암컷의 경우, 수컷보다 더 넓게 분포되어 있는 것도 파악할 수 있다. 


이와 같은 형태로 파일에서 데이터를 읽어서 각 칼럼간의 관계를 파악해 볼 수 있다. 


 

미니의 R 주요 강좌...

데이터 통계 분석을 위한 R 설치와 활용

R 실행을 위한 기본적인 내용들~

R 데이터 구조에 대한 정리

R 패키지 설치하기

R 데이터셋 처리 함수들에 대한 간단한 정리~

R 데이터셋 정렬하기~

R 데이터셋의 일부 데이터 가져오기

R의 lapply, sapply, vapply를 이해하자~

R의 apply, tapply의 활용법을 알아보자~

R의 split 활용

R의 함수 작성 및 활용~

R 시뮬레이션 - 랜덤 변수 샘플링

R 함수에서 캐시 활용하기~

R 디버깅 툴 활용하기~





Trackback 0 And Comment 0