반응형

전체 글 245

[데이터분석] 스타벅스 매장이 가장 많은 동네는? feat by R & QGIS (300원)

저의 요즘 관심사는 부동산 입지 분석입니다. 부동산 입지 분석을 할때 상권 관련된 용어로 '스세권'이란 말이 있습니다. 스타벅스 상권을 부르는 얘기이지요. 그래서 전국의 스타벅스 매장 주소를 기반으로 어느 지역에 얼마나 있는지? 특히 제가 살고 있는 부산에는 어떻게 분포하는지? 스타벅스 매장수와 어떤 데이터가 상관관계가 높을지? 가 궁금해졌습니다. 구글링 해보니 공공데이터의 상권정보를 가지고 분석한 경우와 스타벅스홈페이지의 매장정보를 가져와서 분석해보신분들이 이미 많이 계시더라구요(나중에 함께 읽으면 좋을글 에서 더 보시면 됩니다.) 하지만 제가 통계와 데이터 분석을 공부하는 사람으로써 뭔가 약간 부족해보였습니다. 그래서 제가 한번 분석 해보았습니다. (R과 QGIS를 사용했습니다.) 1. 스타벅스 매장..

[250원] 슈츠(Suits) - 스피디한 법정 드라마(Netflix)

내가 좋아하는 드라마 취향 중에 하나가 경제와 법과 정치다. 정치가 실생활에서도 매우 밀접하고 중요하다는 사실을 알고 있는 만큼 정치 드라마도 좋아한다. 정치 드라마와 함께 좋아하는 장르가 법 쪽이다. 특히 변호사, 검사들이 이야기(판사 얘기는 상대적으로 매력이 덜하다)가 재미있다. 넷플릭스에서 최근에 가장 재미있게 봤던 시리즈 중에 '빌리언스'가 있다. 빌리언스의 경우 헤지펀드와 뉴욕 연방청 검사의 스토리가 같이 들어 있다. (그래서 더 좋았나 보다 경제와 법이 같이 있으니) , 2008년 금융위기를 배경으로 했던 영화 '빅쇼트'를 재밌게 본 사람이라면 빌리언즈도 아마 꽤 재미있게 볼 것 같다. 사설이 길어졌다. 요근래 가장 재밌게 본 시리즈가 바로 변호사들의 이야기를 다른 '슈츠'이다. 슈츠 말그대로..

일상/NETFLIX 2019.10.24

[250원] 데이터분석준전문가(ADsP) 자격증 시험후기

지난 주말에 ADsP 시험을 보고 왔답니다. 방학 동안 그래도 뭔가 해야 하지 않을까 해서 8월 초에 덜컥 접수했는데 시험이 8월의 마지막 날, 방학의 마지막 날인 8/31일이었답니다. 저는 부산지역이라 시험장소는 벡스코 제1전시장의 2층, 3층 회의실에서 시험을 봤답니다. (참고로 시험 시 계산기 사용불가, 컴퓨터용 사인펜이 필요합니다.) ADsP의 경우 ADP와 달리 경력이나 자격제한이 따로 없어서 대학생 신분일 때도 혹은 비전공자인 경우도 시험을 볼 수가 있습니다. 시험 과목 역시 ADP보다는 2과목 적은 3과목에 실기시험이 없답니다. 난이도나 합격률측면에서는 ADP보다는 확실이 쉬운 시험이라고 볼수 있습니다. 그럼에도 불구하고 시험은 시험이라.... 간단히 제가 했던 공부 내용을 공유할까 합니다...

[50원] [통계학개론] 제2장 자료의 구조(2)

자료구조의 중심을 나타내는 척도로 대표적인게 평균(average)과 중앙값(median)이 있습니다. 표본자료에 대하여 구한 평균을 표본평균(sample mean)이라하고, 모집단 전체 자료에 대한 평균을 모평균(population mean)이라고 한다. 표본평균은 모평균을 추정하는 값으로 좋은 성질을 가지고 있지만, 바깥점(outlier, 혹은 이상치)에 의하여 영향르 많이 받는다. 이러한 단저믈 보완하는 척도로 중앙값이 있으며, 중앙값은(median)은 자료들을 크기순으로 정렬(sort)하였을때 순서에 따라 가장 가우데 있는 값(middle value)를 의미한다. 자료의 갯수가 짝수개인경우 가운데 두값의 평균을 중앙값으로 사용한다. 표본중앙값은 표본평균과 달리 이상치에 영향을 받지 않은편으로 탐색적..

[100원]나의 첫 넷플릭스 "하우스오브카드"

넷플릭스를 이름만 들었을 때 그저 그런 그냥 VOD 스트리밍 서비스로만 알고 있었다. 하지만 Netflix Orginal이라는 콘텐츠로 다른 어떤 경로(어둠의 경로 제외)를 제외하고 보고 싶지만 볼 수 없던 콘텐츠의 첫 번째가 바로 이 미드 아닐까? 바로 하우스 오브 카드(House of Card)! 첫 달 무료라는 강력한 카드로 이 미드를 볼수 밖에 없었다. 그리고 지금 프리미엄 유료결제자가 되어서 열심히 보고 있다. 이 카테고리에는 내가 봤던 콘텐츠를 소개하고자 한다. 넷플릭스야 워낙 추천시스템이 잘되어 있어서 내가 본 영화의 평점 기준으로 좋아할 영화나 미드도 잘 추천해주긴 한다. 그럼에도 불구하고 너무 볼게 많고, 시간은 부족하므로 내가 쓴 포스팅이 넷플릭스 선택에 도움이 되었으면 하는 마음에....

일상/NETFLIX 2019.08.23

[50원] [통계학개론] 제2장 자료의 구조(1)

통계학에서의 자료 분석 단계 중 자료의 정리와 요약 법을 2장에서는 소개합니다. 자료의 종류는 해당되는 변수의 수에 따라 단일변량자료(univariate data) 다변량 자료(mulivariate data) 이변량 자료(bivariate data) 자료의 종류에 따라 질적자료(qualitative data) ==> 범주형 자료(categorical data) 양적 자료(quantitative or measurement data) 도수(count, frequency) : 각 범주와 범주에 속한 자료의 개수 도수분포표(frequency table) 상대 도수(relative frequency) R code 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22..

[250원] 독후감 '도시의 승리'를 읽고

나는 유독 ‘도시’에 관심이 많다. 전형적인 시골 출신으로 중학교 때까지 시골에서 자라나고 고등학교를 조금 큰 지방도시에서 그리고 대학교를 서울에서 다녔다. 도시에서의 삶은 고등학교 시절부터이고, 서울에서의 삶은 대학교 그리고 졸업 이후 취업한 이후까지 계속되었다. 서울에서만 20년을 살았다. 지금은 한국에서 그래도 두 번째 큰 도시인 부산이란 곳에 살고 있고 도시에서의 생활하는 시간이 30년 가까이 되었지만, 더 복잡하고 좀 더 어지러운 서울이지만, 여전히 조금은 큰 도시, 서울에 대한 열망이 있다. ‘도시의 승리’ 이 책을 읽기 바로전에 읽었던 ‘직업의 지리학’과도 이 책의 내용은 맞닿아 있다. 성공한 도시의 근간에는 훌륭한 인적자원들이 대면접촉을 통한 혁신적인 아이디어들로 혁신 산업들을 이끌고, 경..

독후감 2019.08.19

[50원]아이폰에 최고의 이어폰 Airpods

AirPods! 내가 가지고 있는 애플 제품 중 가장 신상에 해당하는 녀석이다. 구입일을 보니 2017년 5월에 주문해서 2017년 6월 23일에 배송을 받았다. 그때도 219,000원이었는데 시간이 지나서 2세대가 나왔는데 199,000원이구나. 벌써 만2년을 쓰고 이제 3년째로 넘어가는구나. 처음에 이 녀석을 귀에 끼고 다닐 때는 '콩나물 대가리'라는 욕(?)을 먹기도 했던 녀석인데. 2년이 지난 지금 시점에는 무선 이어폰의 레퍼런스가 된 것 같다. 모조품들도 대개 많다는건 얼마 전 교보 핫트랙스 가서 제품들을 몇 개 보면서 느꼈다. 지금도 너무 잘쓰고 있고 앞으로 2년은 거뜬할 것 같다. 애플의 번들 이어폰이 무선으로 가기전에도 허투루 만들지 않았다고 해서 이슈가 되곤 했는데, 이런 형태의 이어폰이..

장난감들 2019.08.14

[200원] Python 데이터분석 05 - 부산 주요 관광지 근처의 지하철 이용객수 시각화분석(feat by seabon heatmap)

이번 포스팅에서는 지난번 도시철도 일자별 승하차 이용객수 데이터를 가지고 부산의 주요 관광지가 있는 곳의 주요 역들의 이용형태를 한번 파악해보겠습니다. 기본적으로 부산하면 해운대나 광안리가 떠오르시는 분이 많은데, 이런곳들은 역시 해수욕장 근처라 아무래도 여름휴가철에 도시철도역 이용객도 좀 많지 않을까요? 그리고 1년에 한 번 하는 광안리 불꽃축제 때는 아무래도 이용객수가 급증할 것 같은 건 어느 정도 예상해볼 수 있죠. 지하철 이용객수만으로 관광지 혹은 특별한 이벤트(축제)와 관련이 있는지 한번 살펴보는 게 이번 포스팅의 목적입니다. 분석대상 역은 아래와 같습니다. 일단 부산교통공사의 문화관광 카테고리의 시티투어-호선별 관광정보를 참고했습니다. 아직 저도 못가본 곳이 많네요. 참고로 도시철도로 떠나는 ..

[200원] Python 데이터분석 04 -데이터 시각화 (feat by folium)

지난번 포스팅에서는 드디어 우리가 원하는 일 평균 이용객수를 역별로 구할 수가 있었답니다. 해당 데이터를 가지고 간단히 상위 30곳을 그래프로 그려보겠습니다. 일단 시각화를 위해서 matplotlib.pyplot을 사용합니다. 그리고 아래 폰트 관련된 부분은 한글이 그래프상에서 깨지는 걸 방지하기 위해서 사용할 한글 폰트 정보를 가져오는 부분이니 거의 그대로 사용하시면 됩니다. 그래서 앞서 만든 데이터 프레임에 타일과 라벨을 간다히 설저하고 bar그래프로 표시해보면 이렇게 됩니다. 아주 이쁘지는 않지만 그럭저럭 볼만 합니다. 이번 포스팅에서는 지도위에 시각화하는 걸 해보겠습니다. 단순하게 바 그래프로 있는 것보다는 실제 지도위에 이용객수를 시각화해서 보여주면 좀 와 닿지 않을까요? python에서는 fo..

반응형