저의 요즘 관심사는 부동산 입지 분석입니다. 부동산 입지 분석을 할때 상권 관련된 용어로 '스세권'이란 말이 있습니다. 스타벅스 상권을 부르는 얘기이지요.
그래서 전국의 스타벅스 매장 주소를 기반으로 어느 지역에 얼마나 있는지?
특히 제가 살고 있는 부산에는 어떻게 분포하는지?
스타벅스 매장수와 어떤 데이터가 상관관계가 높을지? 가 궁금해졌습니다.
구글링 해보니 공공데이터의 상권정보를 가지고 분석한 경우와 스타벅스홈페이지의 매장정보를 가져와서 분석해보신분들이 이미 많이 계시더라구요(나중에 함께 읽으면 좋을글 에서 더 보시면 됩니다.)
하지만 제가 통계와 데이터 분석을 공부하는 사람으로써 뭔가 약간 부족해보였습니다.
그래서 제가 한번 분석 해보았습니다. (R과 QGIS를 사용했습니다.)
1. 스타벅스 매장이 가장 많은 구는?
포스팅에 가장 위에 있는 그림이 바로 스타벅스 매장 위치를 QGIS에서 포인트로 표시한 그림입니다.
서울이 역시 가장 많고, 수도권을 비롯해서 광역시 위주로 많이 분포되어 있는것이 보일겁니다.
위의 그림은 중첩된 점을 클러스터링 포인트로 합해서 보여주는 그림입니다.
아래는 QGIS의 열지도(Heat Map)로 표현한 그림입니다.
부산쪽만 확대해서 한번 살펴보겠습니다.
눈으로도 해운대와 서면 쪽이 많이 있는게 보이시죠?
부산쪽만 HEATMAP(열지도)로 한번 표현해봤습니다. 해운대 광안리 해안가 라인과 센텀시티 주변이 보이고 명확하게는 서면이 가장 진하게 보이실겁니다. 1호선 라인 기준으로 금정/동래/연제 라인과 중구 쪽으로도 밀집된게 확인이 됩니다.
QGIS로 본김에 SHP파일기준으로 경계만 보기 뭐해서 TMS 패키지를 이용해서 다음지도를 베이스로 하고 클러스터링 포인터로 확인해봤습니다.
자 이제 정작중요한 구별로 매장수를 잠깐 확인해보겠습니다. 단연 1위는 서울 강남구, 2위는 중구였습니다.
눈에 띄는건 역시 구기준으로 전국 상위 20위 안에 들어온 구는 부산 밖에 없다는 사실입니다.
해운대구가 27개로 당당이 9위, 부산진구가 17개로 14위를 차지했습니다.
2. 스타벅스 매장이 가장 많은 동은?
그럼 동별로도 한번 보겠습니다. 역삼동이 1위, 2위가 서초동이네요. 여기서도 당당이 부산의 해운대 우동이 4위, 부전동(서면) 7위를 기록했습니다. 역시 전국구네요.
3. 부산에서 스타벅스 매장은 어디에 많을까?
이제 부산 지역으로 국한해서 한번 좀더 살펴보겠습니다. 앞서 살펴본것처럼 전국구에 해당하는 해운대와 부산진구(서면)가 압도적으로 매장이 많습니다. 그 다음으로 7개의 매장이 있는 금정구, 동래구, 사하구, 수영구 순입니다.
금정구의 경우는 아마 부산대근처에만 3개의 매장이 집중되어 있어서 많은 것 같습니다. 수영구는 광안리 바닷가를 끼고 있지요~
동별로도 스타벅스 매장을 살펴보겠습니다. 우동이 앞도적으로 1위, 그리고 서면에 해당하는 부전동이 2위입니다.
3위는 역시 해운대 중동, 4위는 장전동인데 앞서 언급한것처럼 부산대 근처에만 3개가 있어서 4위를 차지했습니다.
4. (부산)스타벅스 매장수와 가장 상관관계가 높은 데이터는 뭘까?
스세권이라 불리우는 스타벅스는 어떤 위치에 생길까요? 통계학에서는 상관분석이라고 하는데 데이터의 상관계수가 얼마나 높은지로 판단을 하지요. 많은 데이터가 있겠지만 일단 제가 생각해 놓은 데이터는 직장(사업자)이 많은 곳, 따라서 직장 근무자가 많은 곳(종사자수)과 유동인구가 많은 곳(지하철 이용객수), 그리고 인구 였습니다.
모두 왠지 상관이 높을것 같은 데이터이긴 합니다.
아래 표를 보시면 분홍색으로 된부분이 해당 항목의 상위 30%에 해당하는 지역들입니다.
상관분석을 할때 산점도를 기본적으로 확인해봅니다. 데이터수가 많지 않아서 이그림만 가지고는 잘 들어오지 않습니다. 그래서 상관 계수를 한번 확인해봤습니다.
상관계수 기준으로 보면 미묘한 차이지만 인구수에 좀더 상관계수가 높게 나왔습니다. 다음이 사업장수(직장), 근로자수(종사자수) 였습니다. 지하철도 0.61로 나름 높은 상관계수 점수가 나왔습니다.
상관계수와 셀별 색깔로 동시에 표현되게 다시한번 그려보겠습니다. 아래와 같은 시각화는 고려할 변수가 많을 때 특히 음/양의 모든 상관계수가 존재할때 파악하기 좋은 방식입니다. (제가 준비한 데이터가 모두 양의 상관이 높은거라 색이 파란색위주라 안보이긴 합니다. ㅠㅠ)
좀더 이쁜 산점도 상관관계는 ggplot에서 제공합니다. 분포와 산점도 상관계수가 모두 표시가 됩니다.
아래 그림도 마찬가지입니다. 상관계수를 색으로 표시해주고 좀더 깔끔한 그래프입니다.
위에서 표현했던 산점도를 엑셀에서 구별로 다시 표시를 해보았습니다.(엑셀이 그림은 좀더 이쁘긴 합니다 ^^)
사업체수 기준으로 보면 왠지 사상구, 강서구에 스타벅스가 좀더 있어도 될것 같죠?
여기서 사업장의 종류 기준으로 좀더 세분화를 해서 업종별로 나눈다면 좀더 유의미한 상관관계가 나올것 같기도 합니다. 즉 해운대, 부산진구의 사업장 종류와 사상구, 강서구의 사업장 종류가 차이가 날것 같다는 생각은 쉽게 예상 가능하니까요~
다음으로 지하철 이용객수 기준으로 한번 보겠습니다. 지하철 이용객수는 제가 지난번에 했던 부산지하철 이용객 분석 데이터를 가지고 작업을 했습니다. 구별로 속한 지하철역들을 합해서 산출한 1일 평균 이용객수 입니다.
금정구의 경우도 상대적으로 스타벅스 수가 좀더 있을만도 해보이지요?
마지막으로 가장 상관관계가 높았던 인구 기준으로 한번 보겠습니다. 역시 인구기준에서도 해운대구와 부산진구는 TOP입니다. 다음으로 사하구인데 사하구는 스타벅스 매장수가 7개로 이것보다는 그럼 좀더???
통계 공부하는 사람이니 이 그림에 회귀분석을 한번 해볼까요? ggplot에서 회귀분석형태로 보여주는 간단한 방법이 있어서 해보았습니다. 회색 부분을 벗어난 부분을 중시으로 보면 좀더 이해하기 쉬워보일겁니다.
동그라미로 한 지역들이 회귀 기준에서 많이 벗어났다는건 결국 스타벅스 매장이 좀더 생겨도 되지 않을까? 라고 해석을 해볼수 있는 지역들입니다.
물론 상관계수가 더 높은 데이터가 필요하겠지만요. 인구, 유동인구, 근로자수 말고 좀더 높은 상관계수를 갖는 데이터를 찾을 수 있을까요? 그게 통계분석하는 사람의 과제이겠지요?
마지막 보너스로 R에서 shp파일로 배경을 깔고 여기에 스타벅스 매장 수를 시각화해본 그림을 한번 간단이 보여드리겠습니다. 뭔가 밋밋하긴 합니다.
뒤에 구글지도를 백그라운드로해서 다시 표시해보겠습니다. 정확한 이유는 모르겠는데 강서구쪽이 이미지가 깨지는 현상이 있네요. R에서는 ggmap이란 패키지가 있긴한데 아직 python의 folium이나 QGIS를 사용한는것보다는 조금 미완성의 느낌이 있긴하네요~
긴글 보시느라 수고하셨습니다. 스타벅스 매장은 제가 부동산관련 입지분석 데이터를 수집하면서 상권관련된 데이터로 활용하려고 모은 데이터였습니다.
감사합니다. 유익하셨으면 공감버튼 누르고 가는 센스!!
함께 보면 좋을 글 (데이터분석 공부하는 사람)
최대한 친절할게 쓴 R로 지도에 점 찍고, 선 긋고, 색칠하기
[R] 초보자도 할 수 있는 지도 색칠 시각화(시,도 색칠)
R을 이용한 시각화 2 - ggmap을 이용한 도시별 기온 지도 그리기
R을 이용한 서울시 지도 시각화 with ggplot2 ggmap raster rgeos maptools
함께보면 좋을 글(일반인)
태블로 (태블로) 스타벅스 광화문우체국 지점 기준으로 반경 1km 내 매장 수는?
[todaycodes오늘코드] [4/7] 서울 구별 스타벅스 매장 분포와 밀집도를 GeoJSON을 활용하여 folium의 choropleth 와 CircleMarker 로 표현하기
P.S. 해당 데이터는 2019년 11월 기준으로 스타벅스 매장정보를 가져온것으로 데이터작업중에 제 실수가 있어서 부정확한 데이터 처리가 있을 수도 있습니다.
제가 사용한 소스코드는 아래 링크에서 재활용 가능합니다.
스타벅스 매장 정보(2021년, 2022년) 엑셀파일 다운로드 가능
https://uincity.tistory.com/299
'아재도 하는 데이터분석' 카테고리의 다른 글
[데이터분석] 파리바게뜨로 보는 부산지역 상권현황 (2) | 2020.03.09 |
---|---|
[데이터분석] 재학생 수로 보는 부산 초등학교 현황(feat by 심정섭.) (2) | 2019.12.27 |
[250원] 데이터분석준전문가(ADsP) 자격증 시험후기 (0) | 2019.10.02 |
[200원] Python 데이터분석 05 - 부산 주요 관광지 근처의 지하철 이용객수 시각화분석(feat by seabon heatmap) (0) | 2019.08.13 |
[200원] Python 데이터분석 04 -데이터 시각화 (feat by folium) (2) | 2019.08.11 |