오늘은 지난번 포스팅에 이어 두 번째로 식품섭취량 조사 DB를 가지고 데이터 탐색을 해보겠습니다. 지난번 포스팅을 못 보신 분들은 먼저 보시면 됩니다. [데이터소개] 국민건강영양조사 1편 [데이터 소개] 국민건강영양조사 1편(Feat. 질병관리본부 KCDC) 들어가며 코로나-19(COVID-19) 사태로 대한민국에서 가장 바쁜신 분들이 바로 질병관리본부 직원들이지 않을까 싶습니다. (국민의 한사람으로서 이 자리를 빌어 감사의 인사를 전합니다.) 오늘은 �� uincity.tistory.com 식품섭취조사(hn18_24rc) 데이터 탐색 DataExplorer 패키지로 살펴보기 해당 파일은 509,819개의 데이터(rows)와 114개의 변수(columns)로 되어 있습니다. 1 2 > dim(df_hn1..
r
들어가며 코로나-19(COVID-19) 사태로 대한민국에서 가장 바쁜신 분들이 바로 질병관리본부 직원들이지 않을까 싶습니다. (국민의 한사람으로서 이 자리를 빌어 감사의 인사를 전합니다.) 오늘은 그 질병관리본부에서 관리하고 조사하는 '국민건강영양조사'라는 데이터를 소개해 볼까 합니다. 제목에서 느껴지시겠지만 건강과 영양섭취에 대한 우리나라 국가 통계입니다. 아래 최근 기사를 보시면 국민건강영양조사를 통해 코로나19의 면역여부를 체크해보겠다는 내용같습니다. 코로나19 집단면역 조사한다... 당국 "국민영양조사 통해 확인" - 연합뉴스 2020-04-30 코로나19 집단면역 조사한다…당국 "국민영양조사 통해 확인"(종합) | 연합뉴스 코로나19 집단면역 조사한다…당국 "국민영양조사 통해 확인"(종합), 신..
들어가며 간만에 돌아왔습니다. 오늘은 한우 사육량 데이터를 가지고 데이터 시각화를 통해서(쉬운 말로 그림과 도표를 잘 그려서) 인사이트(Insight)를 도출해보도록 하겠습니다. (데이터에서 어떤 의미를 알아내어 보자) R에서는 기본적인 plot 외에도 ggplot2라는 막강한 패키지가 데이터 시각화를 주도하고 있습니다. ggplot의 gg의 의미가 grammar of Graphics라는 의미로 그래픽을 문법(텍스트 명령어)으로 나타낸다는 의미입니다. 그래서 각종 명령어와 함수를 익혀놓으면 강력한 시각화가 가능합니다만, 역시 익숙해지기 전까지는 어려운 영역이기도 합니다. 제가 전에 포스팅했던 대부분의 데이터 분석 포스팅에도 미약하지만 ggplot을 대부분 사용했었습니다. 그만큼 필수적이기도 합니다. 데이..
저의 요즘 관심사는 부동산 입지 분석입니다. 부동산 입지 분석을 할때 상권 관련된 용어로 '스세권'이란 말이 있습니다. 스타벅스 상권을 부르는 얘기이지요. 그래서 전국의 스타벅스 매장 주소를 기반으로 어느 지역에 얼마나 있는지? 특히 제가 살고 있는 부산에는 어떻게 분포하는지? 스타벅스 매장수와 어떤 데이터가 상관관계가 높을지? 가 궁금해졌습니다. 구글링 해보니 공공데이터의 상권정보를 가지고 분석한 경우와 스타벅스홈페이지의 매장정보를 가져와서 분석해보신분들이 이미 많이 계시더라구요(나중에 함께 읽으면 좋을글 에서 더 보시면 됩니다.) 하지만 제가 통계와 데이터 분석을 공부하는 사람으로써 뭔가 약간 부족해보였습니다. 그래서 제가 한번 분석 해보았습니다. (R과 QGIS를 사용했습니다.) 1. 스타벅스 매장..
자료구조의 중심을 나타내는 척도로 대표적인게 평균(average)과 중앙값(median)이 있습니다. 표본자료에 대하여 구한 평균을 표본평균(sample mean)이라하고, 모집단 전체 자료에 대한 평균을 모평균(population mean)이라고 한다. 표본평균은 모평균을 추정하는 값으로 좋은 성질을 가지고 있지만, 바깥점(outlier, 혹은 이상치)에 의하여 영향르 많이 받는다. 이러한 단저믈 보완하는 척도로 중앙값이 있으며, 중앙값은(median)은 자료들을 크기순으로 정렬(sort)하였을때 순서에 따라 가장 가우데 있는 값(middle value)를 의미한다. 자료의 갯수가 짝수개인경우 가운데 두값의 평균을 중앙값으로 사용한다. 표본중앙값은 표본평균과 달리 이상치에 영향을 받지 않은편으로 탐색적..
통계학에서의 자료 분석 단계 중 자료의 정리와 요약 법을 2장에서는 소개합니다. 자료의 종류는 해당되는 변수의 수에 따라 단일변량자료(univariate data) 다변량 자료(mulivariate data) 이변량 자료(bivariate data) 자료의 종류에 따라 질적자료(qualitative data) ==> 범주형 자료(categorical data) 양적 자료(quantitative or measurement data) 도수(count, frequency) : 각 범주와 범주에 속한 자료의 개수 도수분포표(frequency table) 상대 도수(relative frequency) R code 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22..