오늘은 지난번 포스팅에 이어 두 번째로 식품섭취량 조사 DB를 가지고 데이터 탐색을 해보겠습니다. 지난번 포스팅을 못 보신 분들은 먼저 보시면 됩니다. [데이터소개] 국민건강영양조사 1편 [데이터 소개] 국민건강영양조사 1편(Feat. 질병관리본부 KCDC) 들어가며 코로나-19(COVID-19) 사태로 대한민국에서 가장 바쁜신 분들이 바로 질병관리본부 직원들이지 않을까 싶습니다. (국민의 한사람으로서 이 자리를 빌어 감사의 인사를 전합니다.) 오늘은 �� uincity.tistory.com 식품섭취조사(hn18_24rc) 데이터 탐색 DataExplorer 패키지로 살펴보기 해당 파일은 509,819개의 데이터(rows)와 114개의 변수(columns)로 되어 있습니다. 1 2 > dim(df_hn1..
분류 전체보기
들어가며 코로나-19(COVID-19) 사태로 대한민국에서 가장 바쁜신 분들이 바로 질병관리본부 직원들이지 않을까 싶습니다. (국민의 한사람으로서 이 자리를 빌어 감사의 인사를 전합니다.) 오늘은 그 질병관리본부에서 관리하고 조사하는 '국민건강영양조사'라는 데이터를 소개해 볼까 합니다. 제목에서 느껴지시겠지만 건강과 영양섭취에 대한 우리나라 국가 통계입니다. 아래 최근 기사를 보시면 국민건강영양조사를 통해 코로나19의 면역여부를 체크해보겠다는 내용같습니다. 코로나19 집단면역 조사한다... 당국 "국민영양조사 통해 확인" - 연합뉴스 2020-04-30 코로나19 집단면역 조사한다…당국 "국민영양조사 통해 확인"(종합) | 연합뉴스 코로나19 집단면역 조사한다…당국 "국민영양조사 통해 확인"(종합), 신..
들어가며 간만에 돌아왔습니다. 오늘은 한우 사육량 데이터를 가지고 데이터 시각화를 통해서(쉬운 말로 그림과 도표를 잘 그려서) 인사이트(Insight)를 도출해보도록 하겠습니다. (데이터에서 어떤 의미를 알아내어 보자) R에서는 기본적인 plot 외에도 ggplot2라는 막강한 패키지가 데이터 시각화를 주도하고 있습니다. ggplot의 gg의 의미가 grammar of Graphics라는 의미로 그래픽을 문법(텍스트 명령어)으로 나타낸다는 의미입니다. 그래서 각종 명령어와 함수를 익혀놓으면 강력한 시각화가 가능합니다만, 역시 익숙해지기 전까지는 어려운 영역이기도 합니다. 제가 전에 포스팅했던 대부분의 데이터 분석 포스팅에도 미약하지만 ggplot을 대부분 사용했었습니다. 그만큼 필수적이기도 합니다. 데이..
이번 시간에는 전국 시군구별로 일자리가 얼마나 많은지 한번 알아보겠습니다. 일자리에 관련 통계도 여러 가지가 있을 수 있겠지만, 이번에는 제가 최근에 읽었던 너나위님의 책 "월급쟁이 부자로 은퇴하라"에서 알려주신 국세통계의 연말정산 신고현황 자료를 가지고 해 보았습니다. 일자리 수 파악은 부동산 공부를 할 때 수요 측면에서 많이 참고해야 할 자료이지요. 서울 같은 경우 오피스 밀집 지역인 강남(GBD), 여의도(YBD), 시청과 광화문(CBD)이 직장이 많은 지역으로 이미 유명하죠. 최근에는 가산디지털단지와 마곡지구에 일자리가 늘었다는 뉴스도 접했습니다. 수도권에서는 4차 산업혁명의 근원지이자 한국의 실리콘밸리라 불리는 판교지역이 역시 일자리가 많다고 하고요. 부산은 어떨까요? 산업단지가 많이 밀집된..
지난번 스타벅스 위치 분석에 이어 이번엔 파리바게뜨입니다. 두 프랜차이즈의 성격은 확실이 차이가 나 보입니다. 스타벅스는 20대이후부터 40대까지 직장인을 타겟으로 특성상 오피스타운(일자리 집중된)위치에 매장 자체가 꽤 높은 집적도를 보이는 구조이구요. 파리바게뜨의 경우는 어린아이부터 할아버지, 할머니까지 모든 세대를 아우르는 반드시 필요한 매장이지요. 파리바게뜨 하면 뚜레쥬르와 함께 동네 빵집의 대표주자이지요. 제가 살고 있는 부산은 상대적으로 동네 로컬 빵집도 많긴 하지만 파리 바게뜨 역시 꽤 눈에 띄는편입니다. 각설하고 이제 조금 자세히 들어가보겠습니다. 0.데이터 수집 매장 주소는 파리바게뜨 홈페이지에서 가져왔습니다. 따끈따끈한 2020년 1월 6일기준입니다. (최초 소상공인진흥공단에서..
들어가며 오늘은 부산지역 데이터를 가지고 분석하는 4번째 분석 포스팅입니다. 최근에 부동산 입지 관련 공부를 하면서 학군에 꽂혀서, 이것저것 보다가 심정섭 님의 '심정섭의 대한민국 학군 지도' 란 책을 보게 되었습니다. 학군에 관심이 많고 자녀 교육에 관심이 많으신 분이시라면 필독해도 좋을 책입니다. 거기다가 부동산에 관심이 많으신 분들도 역시 읽으시면 좋지 않을까 생각합니다. 이번 분석의 아이디어는 책 초반부에 있는 '학교 재학생 수로 해당 지역 학군의 미래를 보는 법' 과 '신도시 신생 학군의 성장 가능성을 알아보는 법' 이란 두 가지 섹션에서 가져왔습니다. 저출산 시대에 학생 수 역시 감소하고 있습니다. 부산 시내에서도 어떤 학교들은 재학생 수가 줄어서 폐교하거나 통폐합할 학교들도 있고, 또..
저의 요즘 관심사는 부동산 입지 분석입니다. 부동산 입지 분석을 할때 상권 관련된 용어로 '스세권'이란 말이 있습니다. 스타벅스 상권을 부르는 얘기이지요. 그래서 전국의 스타벅스 매장 주소를 기반으로 어느 지역에 얼마나 있는지? 특히 제가 살고 있는 부산에는 어떻게 분포하는지? 스타벅스 매장수와 어떤 데이터가 상관관계가 높을지? 가 궁금해졌습니다. 구글링 해보니 공공데이터의 상권정보를 가지고 분석한 경우와 스타벅스홈페이지의 매장정보를 가져와서 분석해보신분들이 이미 많이 계시더라구요(나중에 함께 읽으면 좋을글 에서 더 보시면 됩니다.) 하지만 제가 통계와 데이터 분석을 공부하는 사람으로써 뭔가 약간 부족해보였습니다. 그래서 제가 한번 분석 해보았습니다. (R과 QGIS를 사용했습니다.) 1. 스타벅스 매장..
내가 좋아하는 드라마 취향 중에 하나가 경제와 법과 정치다. 정치가 실생활에서도 매우 밀접하고 중요하다는 사실을 알고 있는 만큼 정치 드라마도 좋아한다. 정치 드라마와 함께 좋아하는 장르가 법 쪽이다. 특히 변호사, 검사들이 이야기(판사 얘기는 상대적으로 매력이 덜하다)가 재미있다. 넷플릭스에서 최근에 가장 재미있게 봤던 시리즈 중에 '빌리언스'가 있다. 빌리언스의 경우 헤지펀드와 뉴욕 연방청 검사의 스토리가 같이 들어 있다. (그래서 더 좋았나 보다 경제와 법이 같이 있으니) , 2008년 금융위기를 배경으로 했던 영화 '빅쇼트'를 재밌게 본 사람이라면 빌리언즈도 아마 꽤 재미있게 볼 것 같다. 사설이 길어졌다. 요근래 가장 재밌게 본 시리즈가 바로 변호사들의 이야기를 다른 '슈츠'이다. 슈츠 말그대로..
지난 주말에 ADsP 시험을 보고 왔답니다. 방학 동안 그래도 뭔가 해야 하지 않을까 해서 8월 초에 덜컥 접수했는데 시험이 8월의 마지막 날, 방학의 마지막 날인 8/31일이었답니다. 저는 부산지역이라 시험장소는 벡스코 제1전시장의 2층, 3층 회의실에서 시험을 봤답니다. (참고로 시험 시 계산기 사용불가, 컴퓨터용 사인펜이 필요합니다.) ADsP의 경우 ADP와 달리 경력이나 자격제한이 따로 없어서 대학생 신분일 때도 혹은 비전공자인 경우도 시험을 볼 수가 있습니다. 시험 과목 역시 ADP보다는 2과목 적은 3과목에 실기시험이 없답니다. 난이도나 합격률측면에서는 ADP보다는 확실이 쉬운 시험이라고 볼수 있습니다. 그럼에도 불구하고 시험은 시험이라.... 간단히 제가 했던 공부 내용을 공유할까 합니다...
자료구조의 중심을 나타내는 척도로 대표적인게 평균(average)과 중앙값(median)이 있습니다. 표본자료에 대하여 구한 평균을 표본평균(sample mean)이라하고, 모집단 전체 자료에 대한 평균을 모평균(population mean)이라고 한다. 표본평균은 모평균을 추정하는 값으로 좋은 성질을 가지고 있지만, 바깥점(outlier, 혹은 이상치)에 의하여 영향르 많이 받는다. 이러한 단저믈 보완하는 척도로 중앙값이 있으며, 중앙값은(median)은 자료들을 크기순으로 정렬(sort)하였을때 순서에 따라 가장 가우데 있는 값(middle value)를 의미한다. 자료의 갯수가 짝수개인경우 가운데 두값의 평균을 중앙값으로 사용한다. 표본중앙값은 표본평균과 달리 이상치에 영향을 받지 않은편으로 탐색적..