본문 바로가기

나 어제 배웠다/R Studio

파생변수 만들기

# 파생변수 만들기

# 변수 조합해 파생변수 만들기

# 테스트 생성

df_raw <- data.frame(var1=c(1,2,1),var2=c(2,3,2))

df_raw


# 파생변수 만들기

df_new <- df_raw

df_new$var3 <- df_new$var1 + df_new$var2

df_new


df_new$var3 <- (df_new$var1 + df_new$var2)/2

df_new


mean(df_new$var3)


# 조건문을 활용해 파생변수 만들기

mpg$total <- (mpg$cty + mpg$hwy)/2

summary(mpg$total)

head(mpg)


# 히스토그램 생성

hist(mpg$total)


# 조건문 해당 변수 만들기

mpg$ifelse <- ifelse(mpg$total >= 20, "Pass", "Fail")

head(mpg,20)


# 빈도표로 변수 확인

table(mpg$ifelse)


# 막대그래프로 빈도 확인

library(ggplot2)

qplot(mpg$ifelse)


# 중첩 조건문 파생변수 만들기

# total 기준으로 A, B, C등급 만들기

mpg$grade <- ifelse(mpg$total >=30, "A", 

                    ifelse(mpg$total >=25, "B", 

                           ifelse(mpg$total >=20, "C", "D")))

head(mpg, 20)

table(mpg$grade)

qplot(mpg$grade)



# test

midwest <- as.data.frame(ggplot2::midwest)

head(midwest)


midwest <- rename(midwest, total=poptotal, asian=popasian)

head(midwest)


midwest$rate <- midwest$asian/midwest$total*100

head(midwest)


hist(midwest$rate)


mean(midwest$rate)

midwest$avg_rate <- ifelse(midwest$rate >= mean(midwest$rate), "Large", "Small")

head(midwest)


table(midwest$avg_rate)

qplot(midwest$avg_rate)



'나 어제 배웠다 > R Studio' 카테고리의 다른 글

데이터 가공 - 전처리  (0) 2018.05.04
변수명(컬럼) 바꾸기  (0) 2018.05.04
데이터 분석 기본 함수  (0) 2018.05.04
RData 파일 저장 불러오기  (0) 2018.05.03
외부데이터 이용하기 - CSV  (0) 2018.05.03