/ R

R 기초강의(17) - R 기초 통계 함수

R 강좌는 여러 절로 구성되어 있습니다.


R 기술 통계량

데이터를 분석할 때는 다양한 요약 값으로 데이터의 특성을 파악할 수 있고 요약값을 표나 그래프를 이용하여 시각적으로 표현할 수 있습니다.

이때 특성을 파악하기 위해 데이터를 요약한 값을 기술 통계량(Descriptive Statistics)이라고 합니다. 즉, 보유한 데이터를 의미 있는 수치로 요약하여 데이터의 특성을 파악할 수 있도록 한 정보를 의미합니다.

기술 통계량 분석을 위한 함수

  • mean() : 일반적인 평균.
  • median() : 중간값(중위수)
  • max() : 최대값
  • min() : 최소값
  • range() : 최대값과 최소값의 범위
  • quantile() : 분위수
  • var() : 분산. 데이터가 평균으로부터 퍼진 정도를 설명하는 통계량
  • sd() : 표준편차
  • skew() : 왜도. 데이터의 비대칭을 설명하는 통계량. 절대값이 클수록 비대칭이 심하고, 양수이면 오른쪽으로 꼬리가 길고, 음수이면 왼쪽으로 꼬리가 긴 형태
  • kurtosi() : 첨도. 데이터 분포가 뾰족한 정도를 설명하는 통계량. 통계량이 0보다 크면 정규분포대비 뾰족하며, 0보다 작으면 정규분포대비 평평한 형태

이런 기술 통계량은 summary(), describe(), stat.desc()함수를 이용하면 한번에 확인이 가능합니다. 단, describe() 함수는 psych package를 설치해야 하고 stat.desc() 함수는 pastecs package를 설치해야 합니다.

많이 사용하는 기능 중 빈도를 계산하는 함수가 있습니다. table()을 이용해도 되지만 descr package의 freq() 함수가 많이 사용됩니다.

실습

  • 기본 통계함수에 대한 예제를 실습합니다.
library(xlsx)

df <- read.xlsx(file="C:/R_workspace/R_Lecture/data/sample_data.xlsx",
                sheetIndex = 1,
                encoding = "UTF-8")
df

# 기본 통계량
summary(df$Y16_CNT)

# 기본 통계 함수
mean(df$Y16_CNT)
median(df$Y16_CNT)
max(df$Y16_CNT)
min(df$Y16_CNT)      
range(df$Y16_CNT)    # 최소값 최대값
quantile(df$Y16_CNT) # 사분위
var(df$Y16_CNT)      # 분산  
sd(df$Y16_CNT)       # 표준편차
skew(df$Y16_CNT)     # 왜도
kurtosi(df$Y16_CNT)  # 첨도


install.packages("psych")  # psychometrics(심리측정학)
library(psych)
describe(df)

# Package for Analysis of Space-Time Ecological Series
install.packages("pastecs") 
library(pastecs)
stat.desc(df)


# 빈도를 구하기 위한 함수

install.packages("descr")
library(descr)

freq(df$SEX, plot = T)
freq(df$AREA, plot = T)

End.


이 포스트의 내용은 아래의 책과 사이트를 참조했습니다. 조금 더 자세한 사항을 알고 싶으시면 책을 참조하거나 해당 사이트를 방문하세요!!